Wikimedia Site Reliability Engineering/fr

L'équipe Ingénierie de la fiabilité du site, ou Site Reliability Engineering (SRE) en anglais, est l'équipe responsable de développer et maintenir l'infrastructure de production de Wikimedia. Anciennment connus comme Opérations Techniques, ils s'assurent que tous les sites et services Wikimedia utilisés par le public (en comptant MediaWiki et ses services associés) fonctionne de mainère fiable, sécurisée, et avec une haute performance.

Signalez-nous les urgences avec Klaxon.

De la documentation supplémentaire à propos de notre infrastructure et du travail de l'équipe est disponible sur Wikitech.



Structure de l'équipe


Opérations de centre de données
L'équipe Opérations de centre de données est responsable de tous les déploiements et toute la logistique des centres de données de Wikimedia, ainsi que de maintenir notre présence tout autour du monde. Elle effectue du travail sur place et maintient le cycle de vie complet de 5 ans (spécificités, achat, installation physique, problème/réparation et démantèlement) pour tout le matériel.



Fondations d'infrastructure
L'équipe se concentre sur la construction et la maintenance de notre plateforme de base ("metal cloud") qui forme les fondations sur lequel plus ou moins tout le reste de notre infrastructure s'appuie. En plus de nos déploiements de métal, leurs responsabilités comprennent (mais ne sont pas que) les systèmes de gestion de configuration, l'automatisation de l'infrastructure, les outils d'orchestration, la sécurité de l'infrastructure et les opérations réseau.

Observabilité
L'équipe Observabilité, raccourci en "o11y", travaille avec SRE et Technologie pour fournir aux équipes des outils et plateformes de diagnostic et des informations sur les performances des systèmes ou services. Elle optimise des technologies comme Grafana, Kibana/Logstash, OpenSearch, Prometheus, AlertManager, et plus.

Trafic
L'équipe Trafic est responsable de la première couche critique d'infrastructure à haut trafic qui à présent couvre la majorité de la planète, comprenant notre terminaison TLS et nos couches de cache (ATS, Varnish), la répartition de la charge, DNS et notre propre réseau.



Persistance des données
L'équipe persistance des données se concentre sur les systèmes de stockage persistant et de retrait de données, incluant les base de données� (No)SQL, le stockage (distribué) d'objets, et stockage de fichier et les systèmes et sauvegarde.



Opérations de service
L'équipe Opérations de service gère les services publics ou "visibles par les utilisateurs" en collaboration étroite avec les équipes Technologie et Produit. Ceci comprend notre plateforme MediaWiki, l'infrastructure de sevrices SOA basée sur Kubernetes, ainsi que des services servant aux développeurs et à la communauté comme Gitlab, Gerrit, Phabricator et VRTS.



Contacter l'équipe
Si vous devez communiquer avec l'équipe, il y a des instructions détaillées sur SRE Team requests.