Wikimedia Site Reliability Engineering/cs

Tým Site Reliability Engineering, nebo zkráceně SRE, je tým zodpovědný za vývoj a údržbu produkční infrastruktury Wikimedia. Dříve známé jako Technical Operations, mají na starosti zajištění toho, aby všechny weby a služby Wikimedia používané veřejností (včetně MediaWiki a všech souvisejících služeb) fungovaly spolehlivě, bezpečně a s vysokým výkonem.

Informujte nás o mimořádných událostech pomocí Klaxonu.

Další dokumentaci týkající se naší infrastruktury a práce týmu lze nalézt na Wikitech.



Struktura týmu


Provoz datového centra
Provozní tým datových center je zodpovědný za všechna nasazení a logistiku datových center Wikimedie a také za udržování naší přítomnosti v lokalitách po celém světě. Provádějí práci na místě a udržují celý 5letý životní cyklus (specifikace, nákup, fyzická instalace, rozbití/oprava a vyřazení z provozu) pro veškerý hardware.



Základy infrastruktury
Tým se zaměřuje na budování a údržbu naší základní platformy („metal cloud“), která tvoří základy, na nichž staví téměř vše ostatní v naší infrastruktuře. Kromě našich nasazení v holém kovu mezi jejich odpovědnosti patří (ale nejsou omezeny na) systémy pro správu konfigurace, automatizaci infrastruktury, nástroje pro orchestraci, zabezpečení infrastruktury a síťové operace.

Observability
Tým Observability, nebo zkráceně „o11y“, pracuje napříč SRE a technologiemi, aby týmům poskytoval diagnostické nástroje, platformy a přehled o tom, jak systémy a služby fungují. Využívá technologie jako Grafana, Kibana/Logstash, OpenSearch, Prometheus, AlertManager a další.

Traffic
Tým Traffic je zodpovědný za kritickou první vrstvu infrastruktury s vysokým provozem, která nyní pokrývá velkou část zeměkoule, včetně našich vrstev pro ukončení a ukládání do mezipaměti TLS (ATS, Varnish), vyvažování zátěže, DNS a naší vlastní sítě.

Data Persistence
Tým Data Persistence se zaměřuje na systémy trvalého ukládání a získávání dat Wikimedia, včetně (No)SQL databází, (distribuovaných) úložišť objektů, ukládání souborů a zálohovacích systémů.

Service Operations
Tým Service Operations se stará o veřejné a "uživatelsky viditelné" služby v úzké spolupráci s technologickými i produktovými týmy. To zahrnuje naši platformu MediaWiki, infrastrukturu služeb SOA založenou na Kubernetes a také komunitní a vývojářské služby jako Gitlab, Gerrit, Phabricator a VRTS.

Contacting the team
If you need to get in touch with the team, there are detailed instructions on SRE Team requests.