Help:Content translation/Translating/Translation quality/vi

Khi tạo một bản dịch, nội dung của bản dịch cần được xem lại trước khi xuất bản. Bạn cần phải đảm bảo nội dung tạo ra không thay đổi ý nghĩa ban đầu của nó, và kiểm tra xem nó có tự nhiên trong ngôn ngữ mục tiêu hay không. Công cụ dịch máy ban đầu giúp đẩy nhanh quá trình dịch thuật bằng một điểm bắt đầu hết sức có ích, nhưng công cụ này khuyến khích người dùng xem lại và sửa đổi một cách đáng kể nội dung ban đầu.

Có những cơ chế khác nhau giúp đảm bảo rằng người dịch sửa đổi bản dịch ban đầu một cách thích hợp. Biên tập dịch thuật theo dõi xem bản dịch ban đầu được người dùng thay đổi bao nhiêu, và quyết định những giới hạn khác nhau để hoặc là ngăn chặn việc xuất bản, hoặc là cảnh báo người dùng để khuyến khích họ xem lại thêm nữa nội dung bản dịch.

Bằng cách này, công cụ giúp người dùng có thể sử dụng dịch máy khi họ biết cách tận dụng nó, trong khi đó ngăn chặn việc tạo ra những bản dịch chất lượng thấp được xem lại một cách cẩu thả. Chi tiết thêm về cách những giới hạn này hoạt động, cách chúng có thể được điều chỉnh theo từng ngôn ngữ, và cách để đo đếm chất lượng nội dung được sinh ra bởi công cụ thì được trình bày ở bên dưới.

Giới hạn giúp khuyến khích xem lại bản dịch
Biên dịch nội dung tính toán phần trăm sửa đổi của người dụng đối với bản dịch máy được cung cấp ban đầu. Theo cách này, hệ thống biết xem có bao nhiêu từ đã được thêm vào, xóa đi hoặc thay đổi trong bản dịch ban đầu. Những biện pháp này được thực hiện ở hai cấp bậc: đối với mỗi đoạn văn hoặc đối với cả bản dịch. Có những giới hạn khác nhau được áp dụng cho mỗi cấp bậc, được nêu chi tiết dưới đây.

Giới hạn cho toàn bộ bản dịch
Bạn không thể xuất bản một bản dịch với 99% hoặc hơn những nội dung chưa thay đổi đối với toàn bản dịch. Giới hạn này nhằm để ngăn chặn những loại phá hoại rõ ràng nhất. Điều này ngăn người dùng cứ thế thêm những đoạn văn vào bản dịch rồi xuất bản chúng mà chẳng sửa đổi gì hết. Giới hạn này có thể được điều chỉnh tùy theo từng ngôn ngữ, như là được trình bày chi tiết dưới đây.

Giới hạn cho từng đoạn văn
Đối với mỗi đoạn văn, phần trăm sửa đổi của người dùng cũng sẽ được tính toán. Một đoạn văn được coi là có vấn đề khi đoạn văn đó chứa hơn 85% dịch máy ban đầu (hoặc, khi copy nội dung từ văn bản nguồn mà chứa trên 60% nội dung không chỉnh sửa).

Biên tập dịch thuật sẽ cho hiện một cảnh báo đối với mỗi đoạn văn được coi là có vấn đề, khuyến khích người dùng sửa đổi nó thêm. Trong một vài trường hợp người dùng vẫn sẽ có thể xuất bản, nhưng trang thành phẩm có thể được thêm một thể loại theo dõi là bản dịch có khả năng chưa được xem lại để cộng đồng có thể xem lại. Trong các trường hợp khác, người dùng có thể không được cho phép xuất bản.

Dưới đây là một trong những yếu tố cần cân nhắc khi quyết định liệu cho nên cho phép người dùng xuất bản hay không (một vài trong số đó vẫn đang trong quá trình phát triển):


 * Số lượng đoạn văn có vấn đề. Người dùng sẽ không được xuất bản bản dịch có hơn 50 hoặc hơn số đoạn văn có vấn đề. Người dùng vẫn có thể xuất bản bản dịch có ít hơn 50 đoạn văn có vấn đề, nhưng những bản dịch với 10-49 đoạn văn có vẫn đề vẫn sẽ được thêm thể loại theo dõi là bản dịch có khả năng chưa được xem lại để cộng đồng xem lại.
 * Bản dịch trước đó đã bị xóa. Đối với người dùng mà 30 ngày qua có bản dịch bị xóa thì giới hạn sẽ trở nên nghiêm khắc hơn để ngăn chặn việc tái diễn. Trong trường hợp đó, các bản dịch với 10 đoạn văn có vấn đề hoặc hơn thì sẽ không được xuất bản, trong khi đó có ít hơn 9 đoạn văn có vấn đề thì sẽ được thêm thể loại theo dõi là bản dịch có khả năng chưa được xem lại để cộng đồng xem lại.
 * Xác nhận từ người dùng. Một ngưỡng ít nghiêm khắc hơn sẽ được cân nhắc đối với những đoạn văn mà người dùng đánh dấu là đã giải quyết, như là một tín hiệu thông báo rằng người dùng đã xem lại và xác nhận tình trạng của bản dịch. Đối với những đoạn văn mà cảnh báo nội dung chưa chỉnh sửa hiện lên nhưng người dùng lại đánh dấu là đã giải quyết thì chúng tôi áp dụng một ngưỡng ít nghiêm khắc hơn (chấp nhận 95% Dịch máy hoặc 75% nội dung nguồn). Điều này sẽ cung cấp một cách để điều tiết các trường hợp mà dịch tự động tốt một cách cá biệt, nhưng vẫn ngăn chặn được khả năng lạm dụng tính năng này (ví dụ như không theo xác nhận của người dùng một cách mù quáng).

Những nội dung không bị ảnh hưởng bởi các giới hạn
Some contents are not expected to be edited significantly, and they are not considered when applying the limits described above. Very short section titles, citations, or the list of references are excluded from the checks. Otherwise, users may get misleading warnings because of contents such as the book titles in their references that they were not expected to translate.

Adjusting the limits
The limits described above provide a set of general mechanisms, but they may need adjustments to the particular needs of each wiki. Based on initial evaluations, the amount of modifications needed to the initial machine translation can range from 10% to 70% depending on the language pair. On some wikis the default limits may be too strict, generating unnecessary noise or preventing perfectly valid translations from publishing. On other wikis, the limits may not be strict enough, allowing the publication of translations that are not edited enough.

Adjusting the different thresholds allows to make these limits more or less strict according to the needs of each wiki. Feedback from native speakers is essential to adjust the limits properly. If the current limits don't seem to work well based on your experience creating or reviewing translations, please share your feedback and we can explore how to better adjust them.

When providing feedback about adjusting the thresholds we recommend trying to create several example translations (make sure to check the publishing options if your test is not intended to be published as regular content). When testing how the limits work for your language, it is useful to keep in mind the following:


 * Check for both cases. Make sure to check how the limits work for translations where the content has not been edited enough and also for those where the initial translation has been edited enough. In this way you can more easily find the right balance for the limits. Checking only one type of problem can lead you to suggest moving the thresholds too far in the opposite direction.
 * Check different contents. Content in a wiki is very diverse, and machine translation may work much better for some cases compared to others. For example, content full of numeric data or technical names may require less editing by users than content with more descriptive text. Make sure to test with different articles, making translations of different lengths and involving different types of content.
 * Prepare to iterate. Adjusting the thresholds is an iterative process. It may require to make a custom adjustment to the thresholds or improve the general approach. In any case, after each change further testing may be needed to verify the improvements.

Adjusting the limits in collaboration with editors has proven to be effective. For example, initial results show that the Indonesian community has reduced significantly the number of problematic translations by restricting the publication of translations with more than 40% of unmodified machine translation. There is no automatic tool that is infallible, and these limits are not an exception.

The process of content review by the community is still essential, but these limits provide communities with tools to reduce the number of translations they have to focus on, making the review process much more effective. Please share your feedback and we can explore how to better adjust them.

Tracking potentially unreviewed translations
A tracking category with the name "cx-unreviewed-translation-category" is provided for the community to easily find the articles that were published with some content exceeding the recommended limits.

You can find this category in the list of tracking categories on each wiki. There you can find the articles that passed the limits that prevent publishing but had still some paragraphs that have been edited less than expected. For example the Indonesian category includes articles that have less than 40% of machine translation overall but have some paragraphs with more than 80% of unmodified machine translation.

Measuring translation quality
Evaluating content quality automatically is not trivial. Deletion ratios provide a useful estimation on whether the content created was good-enough for the community of editors not to delete it. Based on the analysis of deletion ratios, articles that are created as translations are less likely to be deleted compared to an initial version of the article created from scratch. This suggests that it may not be practical to set the limits for participation by translating much higher than those set for other ways of article creation.

Content translation adds a contenttranslation edit tag to the published translations, for communities to be able to focus on the translations created with the tool using Recent changes and similar tools. In addition, data on published translations and the statistics for machine translation use are available for anyone to analyze.

Other limits based on user expertise


Some wikis have implemented other restrictions for translating based on the user rights as a way to reduce the creation of low quality translations. For example, English Wikipedia requires users to be extended confirmed, which means they need to make 500 edits on English Wikipedia before they are allowed to publish a translation as an article. Newer editors can still publish translated articles in the  or   namespaces, and then move the article to the mainspace.

This restriction was created before the system of limits described in this page was available, and it is not the recommended approach to encourage the creation of good quality translations.

Before adding restrictions that do not take into account the content created, consider going through the process of adjusting the limits of unmodified content as described above. The limits can be made as strict as needed to prevent low quality translations, while still allowing editors making good translations to publish them.