Wikimedia Enterprise
|
Wikimedia Enterprise
APIs for commercial users of Wikimedia content
|
Wikimedia Enterprise API je nová služba zaměřená na velkoobjemové komerční opakované uživatele obsahu Wikimedie. Poskytne nový zdroj financování hnutí Wikimedia. Větší spolehlivost pro komerční opakované uživatele. A větší dosah pro obsah Wikimedie.
Obecné informace, vztah ke strategii Wikimedie, provozní principy a FAQ, viz Wikimedia Enterprise na Meta. Projekt byl dříve známý jako "Okapi".
Podívejte se také na naše webové stránky pro aktuální dokumentaci API. Aktuální vývojová práce je sledována na naší nástěnce Phabricator. Náš zdrojový kód je na GitHub. Informace o přístupu komunity Wikimedie k této službě naleznete v Access na domovské stránce projektu Meta.
Pokud si chcete domluvit diskusi o tomto projektu se svou komunitou, kontaktujte tým.
Aktualizace
Toto jsou poslední měsíce technických aktualizací. [Všechny předchozí aktualizace lze nalézt v archivu]
2025 - Q3
Machine Readability
- Goal: To include structured data into our feeds and to make unstructured Wikimedia content available in pre-parsed formats
- Recent Launches:
- Added: Parsed Tables are now available in Structured Contents beta endpoints.
API Usability
- Goal: To improve the usability of Wikimedia Enterprise APIs
- Recent Launches:
- Changed: Realtime Batch files are now provided for each one-hour window of the day (e.g., 00:00–01:00 UTC, 01:00–02:00 UTC), instead of accumulating all updates since prior midnight.
2025 - Q1-Q2
Machine Readability
- Goal: To include structured data into our feeds and to make unstructured Wikimedia content available in pre-parsed formats
- Recent Launches:
- Added: Dutch (NL) Structured Contents snapshots
- Parsed References: adding parsed inline citations and references to the Structured Contents endpoints making citation data more accessible and machine readable while preserving its context as well as enabling further credibility signals. Article covering this release on our blog and the Release Notes.
- Changed: “infobox” to “infoboxes” in Structured Contents endpoints
Content Integrity
- Goal: To provide more contextual information alongside each revision to help judge whether or not to trust the revision.
- Recent Launches:
- Referencerisk & Referenceneed
API Usability
- Goal: To improve the usability of Wikimedia Enterprise APIs
- Recent Launches:
- Chunking snapshots feature
- Completed to reduce max size required for snapshot downloads
- Added: Snapshot chunking, /v2/snapshots/*/chunks, to free accounts
- Chunking snapshots feature
Předchozí aktualizace
Aktualizace z předchozích měsíců naleznete v archivu.
Přehled
Pozadí
Vzhledem k nesčetným zdrojům informací na internetu se shromažďování veřejných a soukromých datových souborů stalo hlavním majetkem (viditelným v grafech znalostí zákazníků) pro velké technologické společnosti při vytváření jejich produktů. Díky této práci mohou být firemní hlasoví asistenti a vyhledávače efektivnější než jejich konkurenti. Data Wikimedie jsou největším veřejným zdrojem dat na internetu a používají se jako páteř "obecných znalostí" a znalostních grafů. Neexistence údajů z Wikimedie ve znalostním grafu poškozuje hodnotu produktu, jak jsme dokázali prostřednictvím zákaznického průzkumu.
Aby mohli zákazníci Wikimedia Enterprise API vytvářet efektivní uživatelské zkušenosti, požadují dvě základní funkce datové sady Wikimedie: úplnost a aktuálnost.
Obsah Wikimedie poskytuje největší korpus informací volně dostupný na webu. Mapuje široká témata ve stovkách jazyků a dodává spotřebním produktům pocit "vševědomosti" a "úplnosti", který přináší pozitivní uživatelské zkušenosti.
Obsah Wikimedie pochází z komunity, která vytváří obsah v reálném čase, jak se historie vyvíjí. Využití práce této komunity poskytuje zákaznickým produktům pocit "informace" (tj. "aktuálnosti"), když se události vyskytnou, a vytváří tak pozitivní uživatelské zkušenosti.
V současné době neexistuje způsob, jak by zákazník spotřebovávající data mohl provést jeden nebo dva požadavky API na získání úplného a aktuálního dokumentu, který obsahuje všechny relevantní a související informace pro požadované téma. To vedlo k tomu, že zákazníci vytvářejí komplexní ad-hoc řešení, která se obtížně udržují; drahé, kvůli velké vnitřní investici; náchylné k chybám v důsledku nesrovnalostí v datech Wikimedie; a křehké, kvůli změnám v odpovědích Wikimedie.
Výzkumná studie, 2020
Od června 2020 do října 2020 vedl tým Wikimedia Enterprise sérii rozhovorů s externími opakovanými uživateli [Users] dat Wikimedie, aby lépe porozuměl tomu, jaké společnosti používají naše data, jak naše data používají, v jakých produktech je používají a jakým problémům čelí při práci s našimi API. Náš výzkum ukázal, že:
- Uživatelé ukládají naše data do externí mezipaměti, místo aby se dotazovali na naše rozhraní API pro živá data
- Každý uživatel přistupuje k našemu aktuálnímu zásobníku jinak, s jedinečnými výzvami a požadavky
- API Wikimedia nejsou považována za spolehlivý mechanismus příjmu pro shromažďování dat a jsou náchylné k omezení rychlosti, problémům s dobou provozu a nadměrnému používání k dosažení svých cílů.
- Všichni uživatelé mají při práci s naším obsahem stejné obecné problémy a od uživatelů všech velikostí jsme obdrželi podobné dotazy
Tým Enterprise API identifikoval čtyři problematické body, které způsobují, že velké opakované uživatele třetích stran mají potíže při používání naší veřejné sady API pro komerční účely. Poznámka: Mnohé z těchto konceptů se překrývají s jinými iniciativami, které v současné době probíhají v rámci hnutí Wikimedie, například s iniciativou API Gateway.
- Čerstvost: Komerční opakovaní uživatelé chtějí mít možnost přijímat náš obsah "off-the-press", aby mohli mít nejaktuálnější světonázor obecně známý při prezentaci informací "svým" uživatelům.
- Systémová spolehlivost: Komerční opakovaní uživatelé chtějí spolehlivou dobu provozu kritických API a stahování souborů, aby mohli vytvářet pomocí našich nástrojů bez údržby nebo zvýšeného rizika u svých produktů.
- Integrita obsahu: Komerční opakovaní uživatelé zdědí stejné výzvy, jaké mají projekty Wikimedia ve vztahu k vandalismu a vyvíjejícím se příběhům. Komerční opakovaní uživatelé požadují více metadat s každou aktualizací revize, aby informovali své úsudky o tom, zda mají či nemají publikovat revizi svých produktů.
- Strojová čitelnost: Komerční opakovaní uživatelé chtějí čisté a konzistentní schéma pro práci s daty ve všech našich projektech. Je to kvůli problémům, které pocházejí z analýzy a pochopení dat, která získávají z našich současných rozhraní API.
Pro integritu obsahu a strojovou čitelnost vytvořil tým Wikimedia Enterprise tento seznam pozoruhodně zajímavých oblastí, abychom mohli zaměřit naši práci na opakované uživatele třetích stran. Tento seznam byl vytvořen v březnu 2021, a proto byl upřesněn a upřednostněn do funkcí plánu uvedených níže, nicméně toto slouží jako artefakt tohoto výzkumu a něco, co lze použít k odkazu na některé problémy, kterým opětovní uživatelé čelí.
| Téma | Funkce | Podrobnosti |
|---|---|---|
| Strojová čitelnost | Analyzovaný obsah Wikipedie | Rozděluje obsah HTML a Wikitextu do jasných sekcí, které mohou zákazníci použít při zpracování našeho obsahu do svých externích datových struktur |
| Optimalizovaná ontologie wikidat | Záznamy Wikidat mapované do komerčně konzistentní ontologie | |
| Wikimedia-Wide schéma | Spojuje data projektu Wikimedia dohromady a vytváří "jednotné zobrazení" pro více projektů týkajících se témat. | |
| Exporty specifické pro téma | Segmentuje korpus do odlišných skupin pro cílenější spotřebu. | |
| Integrita obsahu | Signály anomálie | Aktualizuje schéma pomocí informací, které zákazníkům pomohou pochopit kontext úpravy. Příklady: zobrazení stránky / úprava dat |
| Signály důvěryhodnosti | Sbalená data od komunity užitečná k odhalení větších trendů v odvětví v oblasti dezinformací, nesprávných informací nebo špatných aktérů | |
| Vylepšený přístup k licenci Wikimedia Commons | Více strojově čitelných licencí na médiích Commons | |
| Hodnocení kvality obsahu (detekce vandalismu, "nejlepší poslední revize") | Sbalená data slouží k pochopení redakčního rozhodování o tom, jak komunity chytají vandalismus. |
Produkt Roadmap
Rozhraní API Wikimedia Enterprise jsou navržena tak, aby pomohla externím opakovaným uživatelům obsahu bezproblémově a spolehlivě zrcadlit obsah Wikimedie v reálném čase na jejich systémech. Nicméně, i když je tento systém zaveden, opětovní uživatelé se stále potýkají s integritou obsahu a strojovou čitelností obsahu Wikimedie, když se jej na druhé straně snaží učinit akceschopným. Tato část popíše veškerou práci, na které aktivně pracujeme, abychom pomohli zmírnit některé problémy. Odkaz na naši předchozí výzkumnou práci:
| Téma | Funkce | Podrobnosti |
|---|---|---|
| Strojová čitelnost | Analyzovaný obsah Wikipedie | Rozděluje obsah HTML a Wikitextu do jasných sekcí, které mohou zákazníci použít při zpracování našeho obsahu do svých externích datových struktur |
| Optimalizovaná ontologie wikidat | Záznamy Wikidat mapované do komerčně konzistentní ontologie | |
| Wikimedia-Wide schéma | Spojte data projektu Wikimedia dohromady a vytvořte "jednotné zobrazení" pro více projektů týkajících se témat. | |
| Exporty specifické pro téma | Segmentuje korpus do odlišných skupin pro cílenější spotřebu. | |
| Integrita obsahu | Signály anomálie | Aktualizujte schéma pomocí informací, které zákazníkům pomohou pochopit kontext úpravy. Příklady: zobrazení stránky / úprava dat |
| Signály důvěryhodnosti | Sbalená data od komunity užitečná k odhalení větších trendů v odvětví v oblasti dezinformací, nesprávných informací nebo špatných aktérů | |
| Vylepšený přístup k licenci Wikimedia Commons | Více strojově čitelných licencí na médiích Commons | |
| Hodnocení kvality obsahu (detekce vandalismu, "nejlepší poslední revize") | Sbalená data slouží k pochopení redakčního rozhodování o tom, jak komunity chytají vandalismus. |
Práce za chodu
Nová funkce
- Integrita obsahu: Pro externí opakované uživatele, kteří se rozhodnou pracovat s daty Wikimedie v reálném čase nebo dokonce s mírným zpožděním, zvyšují svou expozici nejplynulejším součástem projektů a zvyšují riziko šíření vandalismu, dezinformací, nestabilního obsahu článků atd. Naším cílem není předepisovat obsah rozhodnutím, pokud jde o jeho důvěryhodnost, ale spíše zvýšit kontextové datové "signály" kolem revize, abychom umožnili opakovaným uživatelům Wikimedia Enterprise získat lepší představu o tom, co tato revize dělá a jak s ní mohou chtít na svém konci zacházet. To se projeví v nových polích v našich odpovědích v rozhraních API Realtime, Snapshot a On-demand. Zaměřujeme se na dvě hlavní kategorie signálů:
- Signály důvěryhodnosti: "Kontext" revize. Vypadá to jako ponoření do "co se změnilo", reputace editora a obecné označování úrovně článku. Cílem je zpočátku opřít se o informace, které jsou veřejně používány editory, a přeložit tyto koncepty zpětným uživatelům, kteří jsou jinak neznámí. Sledujte tuto práci zde.
- Signály anomálie: "Aktivita" kolem revize. Vypadá to jako dočasná úprava, zobrazení stránek nebo aktivita na diskusní stránce. Prvotním cílem je sestavit kvantitativní signály k rozbalení popularity, které lze použít k tomu, aby pomohly opakovaným uživatelům stanovit priority aktualizací a také kalibrovat podle našich trendů a co to může znamenat pro spolehlivost obsahu.
Obecná vylepšení
- Přístupnost: Abychom zvýšili dostupnost přístupu k rozhraní API Wikimedia Enterprise, vyvíjíme novou úroveň vlastní registrace, aby lidé mohli začít pracovat s našimi rozhraními API. Sledujte tuto práci zde.
- Spolehlivost: Neustálé zlepšování stavu našeho systému, abychom mohli pohodlně škálovat, s větším kontextem, pokud jde o problémy, které budeme muset neustále řešit. Stavíme to, co se stane architekturou v2 rozhraní API Wikimedia Enterprise. Sledujte tuto práci pro Snapshots a Realtime API. Podívejte se na naši stránku stavu.
- Čerstvost: We are working with Wikimedia Foundation teams (Platform and Data Engineering) to better understand and flag where we may have revisions missing in the feeds as to improve performance for our systems and the public systems.
Wikimedia Enterprise (verze 1.0)
Viz také: Aktuální API dokumentace a další informace o obecných nabídkách hodnot na našem komerčním webu.
| Název | Porovnat s | Co je to? | Co je nového? |
|---|---|---|---|
| Enterprise Realtime API | EventStream HTTP API | Stabilní, prosazení HTTP toku aktivit v reálném čase napříč "textově založenými" projekty Wikimedia Enterprise |
|
| Enterprise On-demand API | Restbase APIs | Aktuální obsah článku ve formátu Wikimedia Enterprise JSON. Koncový bod beta verze strukturovaného obsahu s experimentální analýzou. |
|
| Snímek Enterprise API | Wikimedia Dumps | Nedávné komprimované exporty dat Wikimedie pro hromadné přijímání obsahu. |
|
On-demand API
Opakovaní uživatelé s velkým objemem, kteří používají infrastrukturu závislou na platformě EventStream, závisí na službách, jako je RESTBase, při stahování HTML z názvů stránek a aktuálních revizí, aby aktualizovali své produkty. Velkoobjemoví opakovaní uživatelé požadovali spolehlivé prostředky ke shromažďování těchto dat a také struktury jiné než HTML při začleňování našeho obsahu do svých KG a produktů.
Wikimedia Enterprise On-demand API (API na vyžádání) obsahuje:
- Komerční schéma
- SLA
- Koncový bod beta strukturovaného obsahu (ne SLA)
Realtime API
Velkoobjemoví opakovaní uživatelé se v současné době do značné míry spoléhají na změny, které naše komunita prosazuje, aby aktualizovali své produkty v reálném čase pomocí rozhraní API EventStream pro přístup k takovým změnám. Velkoobjemoví opakovaní uživatelé mají zájem o službu, která jim umožní filtrovat změny, které obdrží, aby se omezilo jejich zpracování, zaručila stabilní HTTP připojení, aby nedošlo ke ztrátě dat, a dodá užitečnější schéma, které omezí počet volání rozhraní API, která musí provést na událost.
Enterprise Realtime API obsahuje:
- Aktualizaci streamů, které poskytují události změn v podporovaných projektech v reálném čase
- Soubory pro dávkové zpracování aktualizované každou hodinu podle změn projektu (dříve klasifikované jako součást Snapshot API)
- Komerčně užitečné schéma podobné* těm, které vytváříme v našem On-demand API a Snapshot API
- SLA
*Stále jsme v procesu mapování technických specifikací, abychom určili omezení schématu v platformách událostí, a zveřejníme je zde, až dokončíme náš návrh.
Snapshot API
For high volume reusers that currently rely on the Wikimedia Dumps to access our information, we have created a solution to ingest Wikimedia content in near real time without excessive API calls (On-demand API) or maintaining hooks into our infrastructure (Realtime API - Streaming).
Enterprise Snapshot API contains:
- 24-hour JSON*, Wikitext, or HTML compressed dumps of supported Wikimedia project
- SLA
*JSON dumps will contain the same schema per page as the On-demand API.
These dumps are available for public use fortnightly on Wikimedia Dumps and daily on WMCS users
Minulý vývoj
V reakci na úvodní výzkumnou studii v roce 2020 se tým Enterprise zaměřuje na vytváření nástrojů pro komerční opakované uživatele, které nabídnou výhody vztahu a zároveň rozšíří použitelnost obsahu, který poskytujeme.
Plán byl rozdělen do dvou uspořádaných fází zaměřených na pomoc velkým opakovaným uživatelům třetích stran s:
- Vybudování "komerční ingesční příjmu" (COMPLETE)
- Vytváření užitečnějších dat pro vstup do "komerčního kanálu pro příjem" (IN PROGRESS)
Building a "Commercial Ingestion Pipe" aka Version 1.0 (Launched June 2021)
The goal of the first phase was to build infrastructure that ensures the Wikimedia Foundation can reasonably guarantee Service Level Agreements (SLAs) for 3rd-party reusers as well as create a "single product" where commercial reusers can confidently ingest our content in a clear and consistent manner. While the main goal of this is not explicitly to remove the load of the large reusers from Wikimedia Foundation infrastructure, it is a significant benefit, for we do not currently know the total capacity of these large reusers on donor-funded infrastructure. For more information on the APIs that are currently available, please reference the section Version 1.0 above or our public API documentation.
Daily HTML Dumps (Launched December 2020)
The Enterprise team's first product was building daily dump files of HTML for every "text-based" Wikimedia project. These dumps will help content re-users use a more familiar data type as they work with Wikimedia content.
Reusers have four immediate needs from a service that supports large-scale content reuse: system reliability, freshness or real-time access, content integrity, and machine readability.
Webové rozhraní

A downloader interface now in design stages allows for users to download a daily dump for each "text-based" project, search and download individual pages, and save their preferences for return visits. Currently the software is in Alpha and still in usage and quality testing. This dashboard is built in React with internal-facing client endpoints built on top of our infrastructure. The downloads are hosted and served through S3.
Rationale behind choosing this as the Enterprise API's first product
- Already validated: Before the Enterprise team ran research to discover the needs of high-volume data reusers, this was the most historically requested feature. Large technology partners, researchers, and internal stakeholders within the Wikimedia Foundation have long sought a comprehensive way to access all of the Wikimedia "text-based" wikis in a form outside of Wikitext.
- Take pressure off internal Wikimedia infrastructure: While not proven, anecdotally we can conclude there is a significant band of traffic to our APIs by high-volume reusers aiming to get the most up-to-date content cached on their systems for reuse. Building a tool where they can achieve this has been the first step to pulling high-volume reusers away from WMF infrastructure and onto a new service.
- Standalone in nature: Of the projects already laid out for consideration by the Enterprise team, this is the most standalone. We can easily understand the specs without working with a specific partner. We were not forced to make technical decisions that would affect a later product or offering. In fact, in many ways, this flexibility forced us to build a data platform that produced many of the APIs that we are offering in the near future.
- Strong business development case: This project gave the Enterprise team a lot of room to talk through solutions with reusers and open up business development conversations.
- Strong introductory project for contractors: The Enterprise team started with a team of outside contractors. This forced the team to become reusers of Wikimedia in order to build this product. In the process, the team was able to identify and relate to the problems with the APIs that our customer base faces, giving them a broader understanding of the issues at hand.
Dokumenty k návrhu

Application Hosting
The engineering goal of this project is to rapidly prototype and build solutions that could scale to the needs of the Enterprise API's intended customers – high volume, high speed, commercial reusers. To do this, the product has been optimized for quick iteration, infrastructural separation from critical Wikimedia projects, and to utilize downstream Service Level Agreements (SLAs). To achieve these goals in the short term, we have built the Enterprise API upon a third-party cloud provider (specifically Amazon Web Services [AWS]). While there are many advantages of using external cloud for our use case, we acknowledge there are also fundamental tensions – given the culture and principles of how applications are built at the Foundation.
Consequently, the goal with the Enterprise API is to create an application that is "cloud-agnostic" and can be spun up on any provider's platform. We have taken reasonable steps to architect abstraction layers within our application to remove any overt dependencies on our current host, Amazon Web Services. This was also a pragmatic decision, due to the unclear nature of where this project will live long-term.
The following steps were taken to ensure that principle. We have:
- Designed and built service interfaces to create abstractions from provider-specific tools. For instance, we have layers that tie to general File Storage capabilities, decoupling us from using exclusively "AWS S3" or creating undo dependency on other potential cloud options
- Built the application using Terraform as Infrastructure as Code to manage our cloud services. [The Terraform code will be published in the near future and this documentation will be updated when it is]
- Used Docker for containerization throughout the application
- Implemented hard drive encryption to ensure that the data is protected (we are working to expand our data encryption and will continually as this project develops)
We have intentionally kept our technical stack as general, libre & open source, and lightweight as possible. There is a temptation to use a number of proprietary services that may provide easy solutions to hard problems (including EMR, DynamoDB, etc). However, we have restricted our reliance on Amazon services to what we can be found in most other cloud providers. Below is a list of services used by the Enterprise API within Amazon and its purpose in our infrastructure:
- Amazon EC2 - Compute
- Amazon S3 - File Storage
- Amazon Relational Database Service (PostgreSQL) - PostGRES Database
- Amazon ElastiCache for Redis - Cache
- Amazon Elasticsearch Service - Search Engine
- Amazon MSK - Apache Kafka Cluster
- Amazon ELB - Load Balancer
- Amazon VPC - Virtual Private Cloud
- Amazon Cognito - Authentication
We are looking to provide Service Level Agreements (SLA) to customers similar to those guaranteed by Amazon's EC2. We don't have equivalent uptime information from the Wikimedia Foundation's existing infrastructure. However, this is something we are exploring with Řízení spolehlivosti stránek Wikimedie. Any alternative hosting in the future would require equivalent services or time to allow us to add more staff to our team in order to give us confidence to handle the SLA we are promising.
In the meantime, we are researching alternatives to AWS (and remain open to ideas that might fit our use case) when this project is more established and we are confident in knowing what the infrastructure needs are in reality.
Team
For the most up-to-date list of people involved in the project, see Meta:Wikimedia Enterprise#Team.
See also
- Wikitech: Data Services portal – A list of community-facing services that allow for direct access to databases and dumps, as well as web interfaces for querying and programmatic access to data stores.
- Enterprise hub – a page for those interested in using the MediaWiki software in corporate contexts:
- MediaWiki Stakeholders group – an independent affiliate organisation that advocates for the needs of MediaWiki users outside the Wikimedia Foundation, including commercial enterprises.
- Enterprise MediaWiki Conference – an independent conference series for that community.
- Wikimedia update feed service – A defunct paid data service that enabled third parties to maintain and update local databases of Wikimedia content.
| API | Dostupnost | Základ URL | Příklad |
|---|---|---|---|
| je součástí MediaWiki
aktivováno na projektech Wikimedie |
/api.php | https://cs.wikipedia.org/w/api.php?action=query&prop=info&titles=Země | |
| je součástí MediaWiki 1.35+
aktivováno na projektech Wikimedie |
/rest.php | https://cs.wikipedia.org/w/rest.php/v1/page/Země | |
| není součástí MediaWiki
k dispozici pouze pro projekty Wikimedie |
/api/rest | https://cs.wikipedia.org/api/rest_v1/page/title/Země | |