Structured Data Across Wikimedia/ru

Структурированные Данные Викимедиа (коротко SDAW) - проект, который поможет нам структурировать контент на страницах вики-текста таким образом, чтобы оно было машинно-распознаваемым, чтобы упростить чтение, редактирование и поиск в проектах и в Интернете, для их более доступности.

Это поможет пользователям связать контент между проектами Викимедиа, поможет читателям глубже погрузиться в экосистему знаний «Викимедиа» и поможет участникам распространять информацию между проектами и за их пределами таким же способом, как Викиданные. Проект также предоставит площадку для экспериментов с компьютерными инструментами редактирования, чтобы упростить редактирование и сделать его более доступным для большего числа редакторов по всему миру.

Предыстория
Этот проект является продолжением аналогичного проекта, которая была завершена на Викискладе в рамках предыдущего гранта Структурированные данные на Викискладе (SDC) и будет частично финансироваться за счет трехлетнего гранта «Sloan Foundation». Работа над SDC позволила нам осознать необходимость более продвинутых метаданных для всего контента и API для предоставления лучших результатов поиска, что в свою очередь, сделало бы контент более доступным, видимым, переводимым и пригодным для других нужд.

У проекта три основных целей:
 * 1) Позволить машинам распознавать контент Викимедиа и предлагать связь с другим контентом Викимедиа. Мы изучаем это в первую очередь в рамках проекта «рекомендаций по изображениям».
 * 2) Разработать способ выстраивания статей и страниц, позволяющий создавать новые форматы контента – контент, который легко предоставляемый в виде небольших, легко усваиваемых фрагментов, более доступным читателям для использования и обмена.
 * 3) Предоставить пользователям Викимедиа более привлекательный и эффективный способ поиска и нахождения контента, опираясь MediaSearch и изучая новые способы улучшения поиска в Википедиях с использованием структурированных данных.

Что меняется
Цель этого проекта - разработать и создать прототип новой системы, которая должна быть достаточно удобным, чтобы обслуживать все виды метаданных, которые нам могут понадобиться для поддержки в ближайшем будущем.

Первая часть действий, которая была определена - это тематические метаданные для описания того, о чем идет речь в конкретном разделе статьи в Википедии. Оно будет поддерживаться инфраструктурой хранения данных, которая может структурировать данные разделов в викитексте как отдельную единицу и связывать тематические метаданные с каждой единицей раздела. Это поможет нам в следующем:


 * 1) Tagging sections with relevant structured, language-agnostic Wikidata concepts will help users to discover, translate and localise content. It will also help us matching content between projects (i.e. between Wikipedia and Wikimedia Commons), helping with illustrating articles and growing contributions.
 * 2) Structuring wikitext content into discrete sections will make it easier to program machines to answer discrete questions and provide quick facts. This would support external platforms or tools that can generate concise answers, and facilitate translation and knowledge parity.
 * 3) Investing in a flexible and scalable metadata system is an important part of our Evolutionary Architecture. It will be useful for potential upcoming projects such as Shared Citations and Wikifunctions/Abstract Wikipedia, as well as already existing extensions such as Wikibase's ArticlePlaceholder.

The project is currently investigating link analysis systems and concept relationships as ways to determine the topical metadata of a Wikipedia article's sections, via the blue interwiki links in Wikipedia articles. Relationships between items in the Wikidata ontology are also being considered to infer, and potentially identify, relevant concepts that are not explicitly mentioned in the text.

How we plan to use this topical metadata
While we see many potential use cases that can take advantage of this metadata, we will start by using it to design new ways to improve search on the Wikipedias, like we used Structured Data on Commons to create MediaSearch.

Another possibility we are researching at the moment is to use structured data to improve our image recommendation tools, by allowing users to find images that match to a particular section, instead of just an entire article.

What do we not want to do?

 * 1) Leave users out of the process
 * 2) Overwhelm users with too much new content to moderate
 * 3) Add any additional bias to Wikimedia projects
 * 4) Add additional vectors for vandalism
 * 5) Introduce too much complexity into our systems

Design
The rough example shown here illustrates what a user interface for adding and updating the topical metadata (shown here as "concepts") represented in a selected section might look like, if we learn from discussions that editors want full participation through the entire topical metadata creation process. You can see both unconfirmed machine-detected concepts and confirmed concepts, along with an option to add a custom concept by searching Wikidata. Each concept includes the Q-ID, a link to its Wikidata page, and a description to help the user decide if the concept is an appropriate fit for this section.

The following mockups are a rough representation of how editors might interact with a tool that allows them to attach concepts or topics to sections in an article. There are many aspects of this early representation that are in flux and still need to be discussed.

We're looking for feedback on these ideas so that we can continue to evolve and build on this early prototype. We may, for example, learn that this level of full "human-in-the-loop" interaction with the machine-detected concepts isn't necessary, and instead explore something more lightweight.

2021

 * Project is moving to a first test stage, that is experimenting with the use of notifications to alert users of potential useful images for Wikipedia articles.

May-August 2021

 * Looking for feedback about the Image Recommendations project, through individual invitations and a month-long RfC specifically targeted to 4 Wikipedias + Commons

2021

 * Looking for feedback about these ideas.
 * Working on rough wireframes and mockups to help explore these ideas.
 * Exploring infrastructure to support this work via the Technical Decision Making Forum process. See.

Second half of 2020

 * Building MediaSearch on Commons.
 * MediaSearch A/B test - conducted between 10 and 17 September 2020.

Feedback
Project feedback is and will always be welcome. We are especially interested in your ideas about the extent to which you want to keep the “human-in-the-loop” throughout the topical metadata creation process. We are looking forward to hearing from you about the following open questions:
 * 1)  Your expectations about the project
 * 2) What do users expect from this project? What are the necessary actions to be addressed?
 * 3) How do you envision this metadata being used? Can you think of ways it would aid in your workflows?
 * 4)  Metadata moderation
 * 5) Is moderation necessary to avoid vandalism and/or bias?
 * 6) If moderation is necessary, how can it be effectively managed?
 * 7)  Adding and confirming metadata
 * 8) Do users want to be able to approve or reject metadata suggested by the automated system?
 * 9) Do users want to be able to add additional metadata beyond what is suggested by the automated system?
 * 10) Do you think it may just be sufficient for users to have the opportunity to send feedback with suggestions on how to improve the machine generated metadata, when necessary?
 * 11)  Privileges for visualising and editing
 * 12) Do we want metadata to be visible for all users or only for certain classes of users?
 * 13) Do we want metadata to be editable for all users or only for certain classes of users?

Also, more specific feedback about related projects can generally be left on the projects' talk pages:
 * MediaSearch on Commons
 * Image Recommendations

Funding
Partial funding for this work is provided by a from the Alfred P. Sloan Foundation, to further the work done by the first round of funding to develop Structured Data on Commons.