Structured Data Across Wikimedia/ru

Структурированные Данные Викимедиа (коротко SDAW) - проект, который поможет нам структурировать контент на страницах вики-текста таким образом, чтобы оно было машинно-распознаваемым, чтобы упростить чтение, редактирование и поиск в проектах и в Интернете, для их более доступности.

Это поможет пользователям связать контент между проектами Викимедиа, поможет читателям глубже погрузиться в экосистему знаний «Викимедиа» и поможет участникам распространять информацию между проектами и за их пределами таким же способом, как Викиданные. Проект также предоставит площадку для экспериментов с компьютерными инструментами редактирования, чтобы упростить редактирование и сделать его более доступным для большего числа редакторов по всему миру.

Предыстория
Этот проект является продолжением аналогичного проекта, которая была завершена на Викискладе в рамках предыдущего гранта Структурированные данные на Викискладе (SDC) и будет частично финансироваться за счет трехлетнего гранта «Sloan Foundation». Работа над SDC позволила нам осознать необходимость более продвинутых метаданных для всего контента и API для предоставления лучших результатов поиска, что в свою очередь, сделало бы контент более доступным, видимым, переводимым и пригодным для других нужд.

У проекта три основных целей:
 * 1) Позволить машинам распознавать контент Викимедиа и предлагать связь с другим контентом Викимедиа. Мы изучаем это в первую очередь в рамках проекта «рекомендаций по изображениям».
 * 2) Разработать способ выстраивания статей и страниц, позволяющий создавать новые форматы контента – контент, который легко предоставляемый в виде небольших, легко усваиваемых фрагментов, более доступным читателям для использования и обмена.
 * 3) Предоставить пользователям Викимедиа более привлекательный и эффективный способ поиска и нахождения контента, опираясь MediaSearch и изучая новые способы улучшения поиска в Википедиях с использованием структурированных данных.

Что меняется
Цель этого проекта - разработать и создать прототип новой системы, которая должна быть достаточно удобным, чтобы обслуживать все виды метаданных, которые нам могут понадобиться для поддержки в ближайшем будущем.

Первая часть действий, которая была определена - это тематические метаданные для описания того, о чем идет речь в конкретном разделе статьи в Википедии. Оно будет поддерживаться инфраструктурой хранения данных, которая может структурировать данные разделов в викитексте как отдельную единицу и связывать тематические метаданные с каждой единицей раздела. Это поможет нам в следующем:


 * 1) Пометка разделов соответствующими структурированными данными, нейтральным языком как в викиданных, поможет пользователям находить, переводить и локализовать контент. Это также поможет нам связывать контент между проектами (т.е. между Википедией и Викискладом), помогая иллюстрировать статьи и увеличивая вклад.
 * 2) Структурирование контента викитекста в отдельные разделы упростит программирование машин для ответов на отдельные вопросы и предоставления кратких фактов из них. Это поддержит внешние платформы или инструменты, которые смогут сгенерировать краткие ответы, а также способствовать переводам и равенству знаний.
 * 3) Инвестиция в гибкую и масштабную систему метаданных являются важной частью нашей Эволюционной Архитектуры. Это будет полезно для потенциальных будущих проектов, таких как «Shared Citations» и «Абстрактная Википедия», а также для уже существующих инструментов и расширений, таких как  ArticlePlaceholder от «Wikibase».

В настоящее время проект исследует системы анализа ссылок и взаимосвязи концепций, как способы определения тематических метаданных разделов статей Википедии, с помощью синих ссылок интервик в статьях Википедии. Связи между элементами в онтологии Викиданных также рассматриваются для выводов и потенциальной идентификации соответствующих концепций, которые явно не упоминаются в тексте.

Как мы планируем использовать эти тематические метаданные
Хотя мы видим множество потенциальных вариантов использования, которые смогут воспользоваться преимуществами этих метаданных, мы начнем использовать их для разработки новых способов улучшения поиска в Википедии, например, как мы использовали Структурированные Данные на Викискладе для создания «MediaSearch».

Еще одна возможность, которую мы исследуем в данный момент, заключается в использовании структурированных данных для улучшения наших инструментов по рекомендациям изображений, позволяя пользователям находить изображения, соответствующие определенному разделу статьи, а не для всей статьи.

Чего мы не хотим сделать?

 * 1) Оставить пользователей вне процесса
 * 2) Перегружать пользователей слишком большим количеством нового контента для отслеживания
 * 3) Добавить любую дополнительную предвзятость к проектам Викимедиа
 * 4) Добавить дополнительные возможности для вандализма
 * 5) Внести слишком много сложностей в наши системы

Дизайн
Грубый пример, показанный на этой странице, иллюстрирует, как может выглядеть пользовательский интерфейс для добавления и обновления тематических метаданных (показанных здесь как «концепции») представленных в выбранном разделе, если из обсуждений мы узнаем, что редакторы хотят полного участия во всем процессе создания тематических метаданных. Вы можете увидеть как неподтвержденные концепции, обнаруженные машиной, так и подтвержденные концепции, а также возможность добавить собственную концепцию путем поиска в Викиданных. Каждая концепция включает Q-ID (идентификатор), ссылку на страницу Викиданных и описание, чтобы помочь пользователю решить, подходит ли концепция для этого раздела.

Следующие макеты представляют собой приблизительное представление о том, как редакторы могут взаимодействовать с инструментом, который позволяет им добавить концепции или темы к разделам статьи. Есть много аспектов по первичной версии, которые «находятся на стадии обсуждения» и все еще нуждаются в «обсуждении».

Мы ожидаем отзывов об этих идеях, чтобы мы могли продолжать развиваться и достраивать этот первичный прототип. Мы можем, например узнать, что этот уровень полного взаимодействия «человека в цикле» с машинно-определяемой концепцией, не является необходимым и вместо этого исследовать что-то более легкое.

2021

 * Проект переходит к первому этапу тестирования, стартует эксперимент с использованием уведомлений для оповещения пользователей о возможных полезных изображениях для статей Википедии.

Май-Август 2021

 * Получение отзывов о проекте «Рекомендации по изображениям» при помощи индивидуальных приглашений и месячного обсуждения в RFC, специально предназначенного для 4 Википедий + Викисклада

2021

 * Получение отзывов об этих идеях.
 * Работа над первичными скелетами и макетами, чтобы помочь изучить эти идеи.
 * Изучение инфраструктуры для поддержки этой работы в рамках процесса «Форума по Принятию Технических Решений». Проверьте.

Вторая половина 2020 года

 * Создание «MediaSearch» на Викискладе.
 * MediaSearch A/B test - проводится в период с 10 по 17 сентября 2020 года.

Отзывы
Отзывы по проекту всегда приветствовались и будут приветствоваться. Нас особенно интересуют ваши идеи о том, в какой степени вы хотите поддержать идею «человека в цикле» на протяжении всего процесса создания тематических метаданных. Мы ожидаем от вас получить ответы на следующие вопросы:
 * 1) Ваши ожидания относительно проекта
 * 2) Чего пользователи ожидают от этого проекта? Какие необходимые шаги необходимо предпринять?
 * 3) Как вы представляете себе использование этих метаданных? Можете ли вы подумать о том, как это могло бы помочь вам в вашей работе?
 * 4) Модерация метаданных
 * 5) Необходима ли модерация, чтобы избежать вандализма и/или предвзятости?
 * 6) Если необходима модерация, то как ею можно эффективно управлять?
 * 7) Добавление и подтверждение метаданных
 * 8) Хотят ли пользователи иметь возможность подтверждать или отклонять метаданные, предлагаемые автоматизированной системой?
 * 9) Хотят ли пользователи иметь возможность добавлять дополнительные метаданные сверх того, что предлагается автоматизированной системой?
 * 10) Считаете ли вы, что пользователям может быть полезной иметь возможность отправлять отзывы с предложениями о том, как улучшить метаданные, созданные автоматизированной системой, когда это необходимо?
 * 11) Преимущества для визуализации и редактирования
 * 12) Хотим ли мы, чтобы метаданные были видны всем пользователям или только определенным пользователям?
 * 13) Хотим ли мы, чтобы метаданные были доступны для редактирования, для всех пользователей или только для конкретных пользователей?

Кроме этого, более конкретные отзывы о проектах, можно оставить на страницах обсуждения проектов:
 * MediaSearch на Викискладе
 * Рекомендации по изображениям

Финансирование
Частичное финансирование предоставлено Фонда Альфреда П. Слоана для продолжения работы, проделанной в рамках первого раунда финансирования по разработке Структурированных Данных на Викискладе.