Unicode normalization considerations/pt

O que é a normalização Unicode?
Desde a versão 1.4, o MediaWiki aplica a forma de normalização C (NFC) aos inputs de texto Unicode. Há boas razões para esta normalização:


 * Evitar conflitos entre títulos de páginas que, tendo os mesmos caracteres, têm estruturas de composição diferentes
 * Um problema persistente eram os ficheiros multimédia importados do Safari; os nomes destes ficheiros, e portanto também os nomes das páginas correspondentes, estavam na forma decomposta enquanto a maioria das restantes ferramentas fornecem texto na forma composta


 * Permitir que a pesquisa funcione como esperado, independentemente da forma de composição do input textual

A forma C foi escolhida porque:


 * a vasta maioria dos dados de input já está na forma C e usa caracteres precompostos


 * é suposto que a forma C não envolva grandes perdas (seja lossless), sendo que as únicas alterações são transformações invisíveis entre o carácter de base e a combinação de sequências de caracteres e de caracteres precompostos. Teoricamente, a aparência do texto nunca é alterada porque foi normalizada para a forma C.


 * e adicionalmente, a W3C recomenda-a

O problema
No entanto, com a passagem do tempo surgiram alguns problemas.


 * alguns marcadores de vogais combinadas em árabe e hebraico são ordenados incorrectamente
 * Alguns destes casos resultam de defeitos nas fontes ou nos compositores e só afectam algumas plataformas.
 * No entanto, alguns casos podem produzir texto incorrecto, porque as classificações definidas não incluem distinções suficientes para produzir ordenações semanticamente correctas. Isto afecta sobretudo textos antigos, como o hebraico bíblico.


 * uma exclusão de composições surpreendente, em Bangla
 * O resultado não é composto correctamente por algumas ferramentas, provavelmente também devido a um defeito específico da respectiva plataforma.
 * Aparentemente, algumas ferramentas de pesquisa externas não sabem fazer a normalização e não encontram os textos normalizados na forma C.

Os problemas de composição e pesquisa são aborrecidos, embora, se mantivermos a nossa altivês, podemos tentar ignorá-los e deixar que as entidades externas corrijam o seu software defeituoso ao longo do tempo.

Os problemas de ordenação canónica são mais difíceis; seguindo as especificações actuais é simplesmente impossível ordenar correctamente. O Unicode não vai alterar as definições de ordenação porque isso iria contra as suas regras de compatibilidade, por isso, a menos que introduzam caracteres *novos* com o valor correcto... De qualquer forma, não é certo que isto vá acontecer.

O que é que podemos fazer?
We can either ignore it and hope it goes away (easy, but entails dealing with ongoing complaints from particular linguistic groups), or we can give up on comprehensive normalization and change how we use it to maximize the benefits while minimizing the problems.

If we consider normalization form C (NFC) to be destructive (though not as much as its evil little sister NFKC), one possible plan might look like this:


 * Remove the normalization check on all web input; replace it with a more limited check for UTF-8 validity but allow funny composition forms through, as is.


 * Apply NFC directly in the places where it's most needed:
 * Page title normalization in Title::secureAndSplit
 * Search engine index generation
 * Search engine queries

This is minimally invasive, allowing page text to contain arbitrary composition forms while ensuring that linking and internal search continue to work. It requires no database format changes, and could be switched on without service disruption.

However, it does leave visible page titles in the normalized, potentially ugly or incorrect form.

Longer term
A further possibility would be to allow page titles to be displayed in non-normalized forms. This might be done in concert with allowing arbitrary case forms ('iMonkey' instead of 'IMonkey').

In this case, the page table might be changed to include a display title form:

page_title:        'IMonkey' page_display_title: 'iMonkey' or perhaps even scarier case-folded stuff:

page_title:        'imonkey' page_display_title: 'iMonkey'

The canonical and display titles would always be transformable to one another to maintain purity of wiki essence; you should be able to copy the title with your mouse and paste it into a link and expect it to work.

These kinds of changes could be more disruptive, requiring changes to the database structure and possibly massive swapping of data around in the tables from one form to another, so we might avoid it unless there are big benefits to be gained.

Other normalization forms
NFC was originally chosen because it's supposed to be semantically lossless, but experience has shown that that's not quite as true as we'd hoped.

We may then consider NFKC, the compatibility composition form, for at least some purposes. It's more explicitly lossy; the compatibility forms are recommended for performing searches since they fold additional characters such as plain latin and "full-width" latin letters.

It would likely be appropriate to use NFKC for building the search index and to run on search input to get some additional matches on funny stuff. I'm not sure if it's safe enough for page titles, though; perhaps with a display title, but probably not without.

Normalizaton and unicodification can both be done by bots. While no bot has yet been known to "normalize", the function is possible. The "Curpsbot-unicodify" bot has unicodified various articles on Wikipedia and this should not be undone.