Structured Data Across Wikimedia/id

Data Terstruktur Lintas Wikimedia (bahasa Inggris: Structured Data Across Wikimedia (SDAW)) adalah proyek untuk menyusun data secara terstruktur dari teks wiki yang dapat dikenali oleh mesin. Tujuannya adalah untuk memudahkan kita dalam membaca, menyunting, maupun mencari konten di proyek Wikipedia dan internet.

Selain itu, proyek ini dapat menghubungkan beragam konten yang ada di proyek Wikimedia, membantu pembaca dalam mengeksplorasi ekosistem pengetahuan Wikimedia, serta menyebarkan informasi ke seluruh proyek Wikimedia secara efisien layaknya Wikidata. Dalam proyek ini, kami juga memberikan ruang untuk bereksperimen dengan peralatan penyuntingan menggunakan bantuan komputer untuk mempermudah akses penyuntingan bagi seluruh kontributor.

Latar belakang
Proyek ini merupakan lanjutan dari proyek sebelumnya yang sudah terwujud di Wikimedia Commons, yaitu Structured Data on Commons (SDC), serta akan didanai separuhnya selama tiga tahun oleh Sloan Foundation. Selama mengerjakan proyek SDC, kami menyadari bahwa dibutuhkan data secara terstruktur untuk seluruh konten yang ada di proyek Wikimedia dan bukan semata-mata untuk Wikimedia Commons. Work on SDC made us aware of the need for more advanced metadata for all content and APIs to provide better search results, which would make in turn content more accessible, discoverable, translatable and usable for other needs.

Untuk tercapainya keberhasilan dari proyek ini, kami menargetkan tiga hal sebagai berikut:


 * 1) Menggunakan pemelajaran mesin untuk mengenali konten Wikimedia dan memberikan saran yang berhubungan ke konten Wikimedia lainnya. Kami sudah melakukan ujicoba melalui proyek saran untuk gambar.
 * 2) Merancang struktur artikel dan halaman untuk mengaktifkan format konten yang baru, misalnya suatu konten (dalam hal ini artikel dan halaman) dapat disajikan dalam format yang sederhana agar mudah untuk diakses dan dibagikan kepada khalayak luas.
 * 3) Memudahkan kontributor Wikimedia untuk mencari konten dengan lebih efisien. Kami selalu mencari cara baru untuk menyempurnakan sistem pencarian di seluruh situs web Wikimedia menggunakan data yang terstruktur.

Proyek
Tujuan akhir dari proyek ini adalah mendesain dan merancang sistem baru untuk memudahkan dalam mengakses semua metadata yang mungkin akan kami butuhkan ke depannya.

Terdapat tiga proyek yang menjadi bagian dari fokus kerja kami:
 * 1) Saran untuk gambar, yaitu fitur bagi pengguna yang sudah berpengalaman untuk menambahkan gambar secara otomatis ke artikel Wikipedia yang belum memiliki gambar sama sekali.
 * 2) Topik subjudul, yaitu fitur untuk mengenali suatu subjudul yang ada di artikel Wikipedia.
 * 3) Pencarian yang disempurnakan, yaitu fitur untuk memudahkan kontributor dalam mencari konten di Wikipedia secara lebih efisien.

Saran untuk gambar
Tampilan antarmuka untuk proyek ini sedang dalam tahap pengembangan untuk disesuaikan dengan tujuan dari proyek induk (Data Terstruktur Lintas Wikimedia).

Proyek ini dibangun dari dasar yang sudah ada sebelumnya yaitu proyek “Tambahkan gambar” ke artikel Wikipedia. Namun, untuk kali ini kami akan lebih berfokus kepada pengguna yang sudah berpengalaman. Dalam hal ini, kami menargetkan pengguna yang sudah berkontribusi dalam jumlah yang banyak pada beragam artikel. Maka dari itu, mereka sudah memiliki pemahaman secara matang terhadap suatu/beberapa topik dan bisa memilih gambar mana yang dirasa sesuai untuk artikel dengan topik yang mereka kuasai. However, its focus will be shifted towards improving the processes for experienced contributors. In particular, we will target users who have edited or watched a particular article or set of articles, since they are likely to be experts in the topic and to have interest in seeing that article(s) improve.

Topik subjudul
Proyek ini bertujuan untuk mengenali subjudul yang ada pada artikel dan membuat topik berdasarkan subjudul tersebut. Terdapat beberapa elemen yang mendukung proyek ini:


 * algoritme yang dapat mendeteksi butir Wikidata berdasarkan pranala dalam di bagian subjudul (akan dikerjakan bersama-sama dengan tim Data Terstruktur, Penelitian, Pemelajaran Mesin, dan Platform Data);
 * kemampuan untuk secara otomatis dalam mendeteksi subjudul pada artikel (akan dikerjakan bersama-sama dengan tim Data Terstruktur dan Platform Data);

Untuk poin terakhir akan dirancang di atas proyek saran untuk gambar yang akan dikerjakan bersama oleh tim Pemelajaran Mesin, Platform Data, Penelitian, Pencarian, dan Growth. This will build upon the work done on image suggestions and will be developed in partnership with the Structured Data, Data Platform, Research, Search, Android, and Growth teams.

Terlepas dari otomatisasi yang akan diterapkan dari proyek ini, kami usahakan untuk tidak mengubah alur maupun memengaruhi kenyamanan pengguna dalam berkontribusi. Semua ini bersifat otomatis dan tidak akan mengganggu kontributor yang sekadar ingin menyunting artikel. Proyek ini masih dalam tahap pemeriksaan dan kami masih membutuhkan masukan dari kontributor. All these activities will be automatic and will not depend on any action from editors. Currently, this project is in its development phase, and there are still aspects that may require further investigation and/or feedback from users.

Pencarian yang disempurnakan
Proyek ini akan menggunakan konten secara terstruktur untuk memudahkan kontributor dalam mencari konten di Wikipedia secara lebih efisien. By improving Special:Search, we want to enable users to find the information they are looking for, or that they may not have noticed, or previously come across through existing search.

Kami memiliki tujuan untuk mengidentifikasi dan melakukan pembaruan "pencarian spesial" yang menggunakan konten terstruktur secara bertahap. Hal ini bertujuan untuk memudahkan pengguna dalam mencari konten yang mereka inginkan, khususnya bagi proyek wiki dari suatu bahasa yang artikelnya sedikit.

Apa yang tidak ingin kami lakukan?

 * 1) Mengesampingkan peran manusia (dalam hal ini adalah kontributor) dalam berkontribusi
 * 2) Membingungkan pengguna dengan terlalu banyak konten yang perlu dimoderasi
 * 3) Menambah bias (yang sebelumnya sudah ada dan selalu kami hindari secara bersama-sama) yang ada di proyek Wikimedia
 * 4) Menyuburkan tindakan yang merusak (vandalisme)
 * 5) Mempersulit pengguna dalam menggunakan peralatan kami

2022

 * Ujicoba saran untuk gambar yang pertama sukses dilakukan di Wikipedia bahasa Portugis, Rusia, dan Indonesia.
 * Pembaruan halaman proyek yang disesuaikan dengan kondisi saat ini.

2022

 * Laporan tahun kedua untuk Data Terstruktur Lintas Wikimedia sudah diterbitkan.
 * DPLA mendapatkan pendanaan dari proyek ini untuk menggunakan kembali gambar yang memiliki deskripsi. Anda dapat membaca informasi selengkapnya di sini.
 * Diskusi mengenai pencarian yang disempurnakan resmi diluncurkan.

2022

 * Melakukan pembaruan halaman proyek yang disesuaikan dengan kondisi terkini.
 * Wikipedia bahasa Indonesia bergabung dalam situs web yang menerapkan uji coba dari proyek ini.

2022

 * Melakukan kerja sama dengan komunitas Wikipedia bahasa Portugis dan Rusia sebagai komunitas pertama yang mencoba proyek saran untuk gambar.

2021

 * Proyek sudah masuk dalam tahap pertama uji coba, yaitu menggunakan notifikasi untuk memberitahukan pengguna bahwa terdapat gambar yang bisa digunakan bagi artikel Wikipedia yang tidak memiliki gambar sebelumnya.

Mei-Agustus 2021

 * Meminta masukan untuk proyek saran untuk gambar melalui undangan secara individual dan membuka permohonan pendapat selama sebulan di 4 Wikipedia maupun Wikimedia Commons.

2021

 * Meminta masukan untuk ide berikut.
 * Merancang sketsa dan prototipe untuk mewujudkan ide tersebut.
 * Mencari infrastruktur yang dapat mendukung proyek ini melalui proses di Technical Decision Making Forum. Untuk selengkapnya, silakan kunjungi.

Pertengahan akhir tahun 2020

 * Membangun MediaSearch di Wikimedia Commons.
 * Melakukan uji coba secara terpisah untuk MediaSearch yang dilaksanakan antara tanggal 10 dan 17 September 2020.

Umpan balik
Kami senantiasa membuka diri untuk umpan balik (masukan) demi keberlangsungan proyek ini, terlebih bagi siapa saja yang memahami konsep metadata dan pemelajaran mesin. Maka dari itu, kami ingin mendengar pendapat Anda berdasarkan pertanyaan berikut: We are especially interested in your ideas about the extent to which you want to keep the “human-in-the-loop” throughout the topical metadata creation process. We are looking forward to hearing from you about the following open questions:


 * 1) Harapan dan ekspektasi Anda mengenai proyek ini
 * 2) Apa yang pengguna harapkan dari proyek ini? Apakah ada hal-hal penting yang harus kami perhatikan?
 * 3) Bagaimana Anda membayangkan penggunaan dari metadata? Dapatkah Anda menerapkannya dalam kehidupan sehari-hari?
 * 4) Moderasi metadata
 * 5) Apakah moderasi diperlukan untuk menghindari vandalisme dan/atau bias?
 * 6) Jika moderasi diperlukan, bagaimana cara melakukannya dengan lebih efektif?
 * 7) Menambahkan dan menyetujui metadata
 * 8) Apakah Anda menginginkan pengguna agar dapat menyetujui atau menolak metadata berdasarkan saran yang diberikan secara otomatis?
 * 9) Apakah Anda menginginkan pengguna untuk menambahkan metadata tambahan terlepas dari saran yang telah diberikan secara otomatis?
 * 10) Apakah Anda berpikir bahwa cukup bagi pengguna hanya untuk memberikan umpan balik (masukan) berdasarkan saran yang diberikan secara otomatis?
 * 11) Keistimewaan untuk menampilkan dan menyunting
 * 12) Apakah Anda ingin agar metadata untuk dapat terlihat secara terbuka bagi semua pengguna atau hanya bagi sebagian pengguna yang memiliki hak tertentu?
 * 13) Apakah Anda ingin agar metadata untuk dapat disunting secara terbuka bagi semua pengguna atau hanya bagi sebagian pengguna yang memiliki hak tertentu?

Untuk masukan secara spesifik mengenai proyek terkait dapat disampaikan di halaman pembicaraan proyek berikut:
 * MediaSearch di Wikimedia Commons
 * Saran untuk Gambar

Pendanaan
Proyek ini merupakan yang sebagian besar berasal dari Alfred P. Sloan Foundation untuk melanjutkan proyek yang sebelumnya telah dibuat yaitu Structured Data on Commons.