Мовна інженерія Вікімедіа/Бюлетень/2024/Січень

From mediawiki.org
This page is a translated version of the page Wikimedia Language engineering/Newsletter/2024/January and the translation is 100% complete.

Ласкаво просимо до січневого випуску інформаційного бюлетеня Мова та інтернаціоналізація від Мовної команди Фонду Вікімедіа!

Ця розсилка містить новини за квартал щодо розробки нових функцій, покращення у різноманітних технічних проєктах, що пов'язані з мовою, підтримки і зустрічей спільноти, а також ідеї щодо можливостей долучитися до проєктів.

Основні новини

Бенінський вікімедієць Магутон виступає з презентацією про розробку клавіатури для легкого редагування мовою фон, Хакатон Вікімедіа 2018 у Барселоні

Після п'яти років в Інкубаторі фонська Вікіпедія офіційно запустилася

Фонська Вікіпедія, яка зародилася на Хакатоні Вікімедіа 2018 у Барселоні, офіційно вийшла з Інкубатора і є самостійним проєктом! Мовою фон розмовляють мільйони людей у Беніні й Того, для багатьох це рідна мова. Також це державна мова в Беніні. Для створення фонської Вікіпедії знадобилося п'ять років. Оскільки багато людей не вміють писати цією мовою, а місцеві мови Африки загалом отримують менше уваги, ніж інші, то розбудова спільноти для підтримки проєкту стала важким викликом.[1] Крім цього, нещодавно були схвалені ще чотирии нові мовні проєкти Вікімедіа, про які ви можете почитати (Вікіпедії мовами дагарі, марокканською амазигською і тоба, та банджарський Вікісловник).

Представляємо Sentencex, інструмент для просунутої обробки природної мови (NLP) та багатомовної вибірки речень

Мовна команда щойно запустила новий інструмент під назвою Sentencex, доступний на Python і на Javascript. Сегментування речень, невід'ємна частина обробки природної мови, включає розбивку тексту на окремі речення. Цей процес має різне застосування і допомагає покращити функціонал і швидкість мовлення, особливо у новій системі перекладу у Вікімедіа (MinT) та проєкті перекладу розділів статей.[2]

Ви можете знайти інструмент на GitHub і подивитися на нього в дії.

Служба перекладу MinT стала доступна у ще 55 Вікіпедіях, подвоїла контент і стала другою за використанням

Графічне представлення мов, які вперше підтримуються у MinT

Нова служба машинного перекладу, MinT, що стала першим інструментом машинного перекладу у 55 Вікіпедіях, має позитивний вплив на мовні спільноти Вікімедіа. Ця потужна мовна підтримка практично подвоїла опубліковані переклади і статті, створені з використанням MinT, мають низький рівень вилучень (1,72%). MinT використовується у 8% перекладів, опублікованих через Переклад вмісту, що поставило його на друге місце серед служб перекладу у Вікіпедії, після Google Translate, всього за кілька місяців.[3]

Відкритий сервіс визначення мови доступний для 200+ мов

Мовна команда створила відкритий сервіс визначення мови для автоматичного визначення мови, якою написаний певний текст, щоб полегшити взаємодію користувачів з платформами Вікімедіа. Сервіс підтримує визначення 201 мови і будь-хто може отримати доступ до API для користування сервісом. Наразі проводяться фінальні перевірки сервісу й оцінки його здатності витримувати навантаження.[4]

Старовинний рукопис

Вікіджерела тепер розпізнають рукописні тексти завдяки Transkribus

У Вікіджерелах тепер доступне розпізнавання рукописного тексту через Transkribus OCR Engine. Transkribus — це платформа на базі ШІ, що спрощує опрацювання рукописних чи друкованих рукописів, надаючи різні моделі під різні системи письма, історичні періоди та інші фактори. Рушій Transkribus доступний як опція поруч із Google та Tesseract і працює зараз у Вікіджерелах, перелічених на цій сторінці.[5]

Єдина панель перекладу розділів для користувачів стаціонарної і мобільної версії

Мовна команда активно працює над прийняттям єдиної панелі перекладу розділів для користувачів стаціонарної і мобільної версії сайтів. Спочатку її розробляли для мобільних у Перекладі вмісту, а зарза вона оновлюється, щоб слугувати єдиною панеллю для перекладу на різних платформах, забезпечуючи поліпшене середовище перекладу. Наразі вона в бета-режимі, і ви можете потестувати її на тестовій Вікіпедії або будь-якій вікі, де увімкнено переклад розділів, додавши в URL параметр «unified-dashboard=true» (наприклад, ig.wikipedia.org/wiki/Special:ContentTranslation?unified-dashboard=true).

Ця єдина панель надає можливість безперервного перекладу між платформами. Користувачі можуть почати перекладати на своєму комп'ютері і продовжити на мобільному пристрої або навпаки. Вона також підтримує переклад розділів на комп'ютері, що дає користувачам гнучкість на всіх пристроях.

Зустрічі та події спільноти

Долучайтеся

Слідкуйте за наступним випуском! Ви можете підписатися на цю розсилку.

Примітки