Wikimedia Site Reliability Engineering/cs

Tým Site Reliability Engineering, nebo zkráceně SRE, je tým zodpovědný za vývoj a údržbu produkční infrastruktury Wikimedia. Dříve známé jako Technical Operations, mají na starosti zajištění toho, aby všechny weby a služby Wikimedia používané veřejností (včetně MediaWiki a všech souvisejících služeb) fungovaly spolehlivě, bezpečně a s vysokým výkonem.

Informujte nás o mimořádných událostech pomocí Klaxonu.

Další dokumentaci týkající se naší infrastruktury a práce týmu lze nalézt na Wikitech.



Collaboration Services
We are responsible for building and maintaining the infrastructure aspects of the source code management, CI and CD, task and ticket management systems as well as hosting non-Mediawiki websites and other collaboration services.



Provoz datového centra
Provozní tým datových center je zodpovědný za všechna nasazení a logistiku datových center Wikimedie a také za udržování naší přítomnosti v lokalitách po celém světě. Provádějí práci na místě a udržují celý 5letý životní cyklus (specifikace, nákup, fyzická instalace, rozbití/oprava a vyřazení z provozu) pro veškerý hardware.



Základy infrastruktury
Tým se zaměřuje na budování a údržbu naší základní platformy („metal cloud“), která tvoří základy, na nichž staví téměř vše ostatní v naší infrastruktuře. Kromě našich nasazení v holém kovu mezi jejich odpovědnosti patří (ale nejsou omezeny na) systémy pro správu konfigurace, automatizaci infrastruktury, nástroje pro orchestraci, zabezpečení infrastruktury a síťové operace.

Observability
Tým Observability, nebo zkráceně „o11y“, pracuje napříč SRE a technologiemi, aby týmům poskytoval diagnostické nástroje, platformy a přehled o tom, jak systémy a služby fungují. Využívá technologie jako Grafana, Kibana/Logstash, OpenSearch, Prometheus, AlertManager a další.

Traffic
Tým Traffic je zodpovědný za kritickou první vrstvu infrastruktury s vysokým provozem, která nyní pokrývá velkou část zeměkoule, včetně našich vrstev pro ukončení a ukládání do mezipaměti TLS (ATS, Varnish), vyvažování zátěže, DNS a naší vlastní sítě.

Data Persistence
Tým Data Persistence se zaměřuje na systémy trvalého ukládání a získávání dat Wikimedia, včetně (No)SQL databází, (distribuovaných) úložišť objektů, ukládání souborů a zálohovacích systémů.

Service Operations
Tým Service Operations se stará o veřejné a "uživatelsky viditelné" služby v úzké spolupráci s technologickými i produktovými týmy. To zahrnuje naši platformu MediaWiki, infrastrukturu služeb SOA založenou na Kubernetes a také komunitní a vývojářské služby jako Gitlab, Gerrit, Phabricator a VRTS.



Kontaktování týmu
Pokud se potřebujete spojit s týmem, podrobné pokyny jsou zde na stránce SRE Team requests.