Мовна інженерія Вікімедіа/Бюлетень/2024/Січень
Ласкаво просимо до січневого випуску інформаційного бюлетеня Мова та інтернаціоналізація від Мовної команди Фонду Вікімедіа!
Ця розсилка містить новини за квартал щодо розробки нових функцій, покращення у різноманітних технічних проєктах, що пов'язані з мовою, підтримки і зустрічей спільноти, а також ідеї щодо можливостей долучитися до проєктів.
Основні новини
Після п'яти років в Інкубаторі фонська Вікіпедія офіційно запустилася
Фонська Вікіпедія, яка зародилася на Хакатоні Вікімедіа 2018 у Барселоні, офіційно вийшла з Інкубатора і є самостійним проєктом! Мовою фон розмовляють мільйони людей у Беніні й Того, для багатьох це рідна мова. Також це державна мова в Беніні. Для створення фонської Вікіпедії знадобилося п'ять років. Оскільки багато людей не вміють писати цією мовою, а місцеві мови Африки загалом отримують менше уваги, ніж інші, то розбудова спільноти для підтримки проєкту стала важким викликом.[1] Крім цього, нещодавно були схвалені ще чотирии нові мовні проєкти Вікімедіа, про які ви можете почитати (Вікіпедії мовами дагарі, марокканською амазигською і тоба, та банджарський Вікісловник).
Представляємо Sentencex, інструмент для просунутої обробки природної мови (NLP) та багатомовної вибірки речень
Мовна команда щойно запустила новий інструмент під назвою Sentencex, доступний на Python і на Javascript. Сегментування речень, невід'ємна частина обробки природної мови, включає розбивку тексту на окремі речення. Цей процес має різне застосування і допомагає покращити функціонал і швидкість мовлення, особливо у новій системі перекладу у Вікімедіа (MinT) та проєкті перекладу розділів статей.[2]
Ви можете знайти інструмент на GitHub і подивитися на нього в дії.
Служба перекладу MinT стала доступна у ще 55 Вікіпедіях, подвоїла контент і стала другою за використанням
Нова служба машинного перекладу, MinT, що стала першим інструментом машинного перекладу у 55 Вікіпедіях, має позитивний вплив на мовні спільноти Вікімедіа. Ця потужна мовна підтримка практично подвоїла опубліковані переклади і статті, створені з використанням MinT, мають низький рівень вилучень (1,72%). MinT використовується у 8% перекладів, опублікованих через Переклад вмісту, що поставило його на друге місце серед служб перекладу у Вікіпедії, після Google Translate, всього за кілька місяців.[3]
Відкритий сервіс визначення мови доступний для 200+ мов
Мовна команда створила відкритий сервіс визначення мови для автоматичного визначення мови, якою написаний певний текст, щоб полегшити взаємодію користувачів з платформами Вікімедіа. Сервіс підтримує визначення 201 мови і будь-хто може отримати доступ до API для користування сервісом. Наразі проводяться фінальні перевірки сервісу й оцінки його здатності витримувати навантаження.[4]
Вікіджерела тепер розпізнають рукописні тексти завдяки Transkribus
У Вікіджерелах тепер доступне розпізнавання рукописного тексту через Transkribus OCR Engine. Transkribus — це платформа на базі ШІ, що спрощує опрацювання рукописних чи друкованих рукописів, надаючи різні моделі під різні системи письма, історичні періоди та інші фактори. Рушій Transkribus доступний як опція поруч із Google та Tesseract і працює зараз у Вікіджерелах, перелічених на цій сторінці.[5]
Єдина панель перекладу розділів для користувачів стаціонарної і мобільної версії
Мовна команда активно працює над прийняттям єдиної панелі перекладу розділів для користувачів стаціонарної і мобільної версії сайтів. Спочатку її розробляли для мобільних у Перекладі вмісту, а зарза вона оновлюється, щоб слугувати єдиною панеллю для перекладу на різних платформах, забезпечуючи поліпшене середовище перекладу. Наразі вона в бета-режимі, і ви можете потестувати її на тестовій Вікіпедії або будь-якій вікі, де увімкнено переклад розділів, додавши в URL параметр «unified-dashboard=true» (наприклад, ig.wikipedia.org/wiki/Special:ContentTranslation?unified-dashboard=true).
Ця єдина панель надає можливість безперервного перекладу між платформами. Користувачі можуть почати перекладати на своєму комп'ютері і продовжити на мобільному пристрої або навпаки. Вона також підтримує переклад розділів на комп'ютері, що дає користувачам гнучкість на всіх пристроях.
Зустрічі та події спільноти
- Наступна зустріч мовної спільноти запланована на середу 21 лютого, 12:00 — 13:00 UTC. Якщо ви бажаєте взяти участь, запишіться за цим посиланням. Бажаєте поділитися технічними новинами про свій проєкт? Не вагайтеся додати його до розділу Technical updates у документі порядку денного.
- Якщо ви пропустили першу зустріч мовної спільноти у листопаді 2023, ви можете переглянути відеозапис та ознайомитися з нотатками.
Долучайтеся
- Якщо ви шукаєте технічні завдання, погляньте на прості завдання, які ще ніким не взяті, у різних репозиторіях мовних проєктів на Фабрикаторі Вікімедіа.
- Якщо ви шукаєте інструменти для редагування й перекладу статей та повідомлень інтерфейсу, ви можете скористатися Перекладом вмісту та інструментом Special:Translate на Translatewiki.net. Ці інструменти полегшують роботу з контентом різними мовами.
- Залишайте відгуки на сторінках обговорення мовних інструментів.
Слідкуйте за наступним випуском! Ви можете підписатися на цю розсилку.
Примітки
- ↑ https://diff.wikimedia.org/2023/10/04/welcome-to-the-fon-wikipedia/
- ↑ https://diff.wikimedia.org/2023/10/23/sentencex-empowering-nlp-with-multilingual-sentence-extraction/
- ↑ https://diff.wikimedia.org/2023/11/20/unlocking-the-worlds-languages-in-wikipedia-a-look-into-mints-impact-so-far/
- ↑ https://diff.wikimedia.org/2023/10/24/open-language-identification-api-for-200-languages/
- ↑ https://diff.wikimedia.org/2023/07/13/enabling-handwritten-text-recognition-on-wikisource-using-transkribus-ocr-engine/