Rekayasa Keandalan Situs wikimedia
|
Site Reliability Engineering
|
Tim Rekayasa Keandalan Situs (Site Reliability Engineering), atau disingkat SRE, adalah tim yang bertanggung jawab untuk mengembangkan dan memelihara prasarana produksi Wikimedia. Sebelumnya dikenal sebagai Operasi Teknis, mereka bertanggung jawab untuk memastikan semua situs dan jasa Wikimedia yang digunakan oleh publik (termasuk MediaWiki dan semua layanan terkait) berjalan dengan andal, aman, dan berkinerja tinggi.
Beritahu kami tentang kedaruratan dengan Klaxon.
Dokumentasi tambahan terkait prasarana kami dan pekerjaan tim dapat ditemukan di Wikitech.
Struktur tim
Jasa Kolaborasi
Kami bertanggung jawab untuk membangun dan memelihara aspek prasarana pengelolaan kode sumber, CI dan CD, sistem pengelolaan tugas dan tiket serta menghos situs web non-MediaWiki dan jasa kolaborasi lainnya.
Operasi Pusat Data
Tim Operasi Pusat Data bertanggung jawab atas semua penerapan dan logistik pusat data Wikimedia, serta mempertahankan keberadaan kami di berbagai lokasi di seluruh dunia. Mereka melakukan pekerjaan di lokasi dan memelihara daur hidup 5 tahun penuh (spesifikasi, pembelian, pemasangan fisik, pembongkaran/perbaikan, dan penghentian operasional) untuk semua perangkat keras.
Fondasi Prasarana
Tim ini berfokus pada pembangunan dan pemeliharaan pelantar dasar kami (“awan logam”) yang menjadi fondasi bagi hampir semua hal lain dalam prasarana kami. Selain penerapan logam kosong kami, tanggung jawab mereka meliputi (namun tidak terbatas pada) sistem pengelolaan konfigurasi, otomatisasi prasarana, peralatan orkestrasi, keamanan prasarana, dan operasi jaringan.
#wikimedia-sre-foundations connect
Keteramatan
Tim Keteramatan (Observability), atau disingkat "o11y", bekerja lintas SRE dan Teknologi untuk menyediakan alat diagnostik, pelantar, dan wawasan bagi tim tentang kinerja sistem dan jasa. Tim ini memanfaatkan teknologi seperti Grafana, Kibana/Logstash, OpenSearch, Prometheus, AlertManager, dan lainnya.
#wikimedia-observability connect
Lalu lintas
Tim Lalu Lintas bertanggung jawab atas lapisan pertama prasarana lalu lintas tinggi yang penting yang sekarang menjangkau sebagian besar dunia, termasuk lapisan penghentia dan penyimpanan sementara TLS (ATS, Varnish), penyeimbangan beban, DNS, dan jaringan kami sendiri.
Kegigihan Data
Tim Kegigihan Data berfokus pada sistem penyimpanan dan pengambilan data gigih Wikimedia, termasuk pangkalan data (No)SQL, penyimpanan objek (teredar), penyimpanan berkas, dan sistem pencadangan.
#wikimedia-data-persistence connect
Operasi Jasa
Tim Operasi Jasa menangani jasa publik dan layanan yang "terlihat oleh pengguna" melalui kolaborasi erat dengan tim Teknologi dan Produk. Ini mencakup pelantar MediaWiki kami, prasarana layanan SOA berbasis Kubernetes, serta jasa yang berorientasi komunitas dan pengembang seperti Gitlab, Gerrit, Phabricator, dan VRTS.
Menghubungi tim
Jika Anda perlu menghubungi tim, ada petunjuk rinci tentang wikitech:SRE Team requests.