Wikimedia Site Reliability Engineering/de

Das Team Site Reliability Engineering oder kurz SRE ist das Team, das für die Entwicklung und Wartung der Produktionsinfrastruktur von Wikimedia verantwortlich ist. Es war zuvor als Technical Operations bekannt und ist dafür verantwortlich sicherzustellen, dass alle Wikimedia-Seiten und -Dienste, die von der Öffentlichkeit genutzt werden (einschließlich MediaWiki und allen zugehörigen Diensten), verlässlich, sicher und mit hoher Leistung laufen.

Benachrichtige uns in Notfällen über Klaxon.

Zusätzliche Dokumentation zu unserer Infrastruktur und der Arbeit des Teams finden sich auf Wikitech.



Collaboration Services
We are responsible for building and maintaining the infrastructure aspects of the source code management, CI and CD, task and ticket management systems as well as hosting non-Mediawiki websites and other collaboration services.



Data Center Operations
Das Team Data Center Operations ist verantwortlich für die Bereitstellung und Logistik der Wikimedia-Datenzentren und die Aufrechterhaltung unserer Präsenz an Standorten auf der ganzen Welt. Es führt On-Site-Arbeiten aus und verwaltet den fünfjährigen Lebenszyklus (Spezifikationen, Kauf, physische Installation, Defekt/Reparatur und Außerbetriebnahme) für die gesamte Hardware.



Infrastructure Foundations
Das Team fokussiert sich auf den Aufbau und die Wartung unserer Basis-Plattforn (“metal cloud”), die die Grundlage bildet, auf der nahezu alles in unserer Infrastruktur aufbaut. Zusätzlich zur Bereitstellung der Basis-Plattform gehören zu seiner Verantwortung (unter anderem) Konfigurationsmanagementsysteme, Infrastrukturautomatisierung, Orchestrierungswerkzeuge, Infrastruktursicherheit und Netzwerkbetrieb.

Observability
Das Team Observability oder kurz "o11y" arbeitet über SRE und Technologie hinweg, um Teams Diagnosewerkzeuge, Plattformen und Einblicke in die Performance von Systemen und Diensten anzubieten. Es nutzt Technologien wie Grafana, Kibana/Logstash, OpenSearch, Prometheus, AlertManager und weitere.

Traffic
Das Team Traffic ist verantwortlich für die kritische erste Ebene der Infrastruktur mit hohem Datenverkehr, die sich nun über einen Großteil der Welt erstreckt. Dazu zählen TLS-Terminierung, Caching-Layers (ATS, Varnish), Lastausgleich, DNS und unser eigenes Netzwerk.



Data Persistence
Das Team Data Persistence fokussiert sich auf die Systeme zur Speicherung und zum Abruf der persistenten Daten von Wikimedia, darunter (No)SQL-Datenbanken, (verteilte) Objektspeicher, Dateispeicher und Backup-Systeme.



Service Operations
Das Team Service Operations kümmert sich um öffentliche und “für Benutzer sichtbare” Dienste in enger Zusammenarbeit mit dem Technologie-Team und dem Produkt-Team. Dazu zählen unsere MediaWiki-Plattform, die auf Kubernetes basierende SOA-Service-Infrastruktur, sowie Dienste für die Gemeinschaft und Entwickler wie Gitlab, Gerrit, Phabricator und VRTS.



Das Team kontaktieren
Wenn du das Team kontaktieren musst, findest du detaillierte Anweisungen dazu auf SRE Team requests.