User:TJones (WMF)/Notes/Bosnian, Croatian, and Serbo-Croatian Analyzer Analysis

April 2018 — See TJones_(WMF)/Notes for other projects. See also T192395.

Background
Bosnian-Croatian-Montenegrin-Serbian (BCMS) is a pluricentric language with four mutually intelligible standard varieties. My understanding is that the difference between them is comparable to the differences in varieties of English, but with the added complexity that there are sometimes two writing systems in use (Latin and Cyrillic). The languages have the same basic grammar, so the Serbian stemmer—which handles the two writing systems for Serbian—should do as good a job on the rest as on Serbian.

Thus, it should be possible to deploy the Serbian analysis chain with the Serbian stemmer (or some variant) to the Serbo-Croatian (sh/442K Wikipedia articles), Croatian (hr/185K Wikipedia articles), and Bosnian (bs/77K Wikipedia articles) wikis.

The task here is to review the results of the analysis chain and make sure there aren't any surprises, and make any needed adjustments to the stemmers. Then we can enable the analysis chain and re-index wikis in these three languages, too.

General Overview
Data: For data, I pulled 5,000 articles/entries from each of the Bosnian, Croatian, and Serbo-Croatian Wikipedias and Wiktionaries, except for the Bosnian Wiktionary, which is pretty small; I only pulled 2,000 Bosnian Wiktionary entries. I removed all the markup I could find and deduplicated lines in each corpus. (For the Wiktionary corpora, the deduplication removed a lot of text, since the ratio of repeated headings to content is much higher.)

Serbian Analyzer: The Serbian analyzer introduces Serbian/Croatian stemming and transliteration of Cyrillic to Latin (via the Serbian Stemmer), and also includes ICU folding, though not of BCMS-relevant diacritical Latin characters: Ćć Čč Đđ Šš Žž.

General Trends: The different languages and projects have somewhat different distributions of words (and languages), but there are some general trends:


 * Cyrillic transliteration: mapping of BCMS Cyrillic to corresponding Latin, so there are fewer Cyrillic tokens. Cyrillic tokens with non-Serbian Cyrillic letters do get indexed as mixed-script. For example, Юлія (Ukrainian "Julija") is indexed as  ю l ія  (where red characters are Cyrillic and blue are Latin).
 * ICU folding: general folding of diacritics, especially Latin & Cyrillic, and miscellaneous regularization/folding of various characters, including in these samples... Arabic, Bengali, Devanagari, Greek, Hebrew, Hiragana, IPA, Kannada, Katakana, Khmer, Malayalam, Myanmar, Sinhala, Tamil, Telugu, Thaana, and Thai.
 * Most new indexing mergers are stemming and Cyrillic/Latin mergers, though there are some ICU folding ones, too.
 * Some homoglyph correction happens as a happy accident. For example, "Аgri" and "Agri" are currently indexed separately because the first one starts with a Cyrillic А rather than a Latin A. Hard to tell by eye, eh?

Another interesting side note: we have empty tokens, too! I found that certain characters—mostly modifing or combining characters—either cause the tokenizer to split both before and after them, or they are listed independently in articles... and then they get regularized to nothing, leaving an empty token. This came up in the Bosnian data, but also occurs in the Serbian and English Wikipedias. I've opened a separate phab ticket to look at it: T192502.

Impact: Below is a table of the token stats and merge impact for the six corpora. N.B.: Tokens are instances of a word, and a word that appears twice is counted as two tokens. Types are unique words, so a word that appears twice is counted as just one type.


 * Docs: As noted above, most corpora were 5,000 articles/entries, except for Bosnian Wiktionary, which was 2,000.
 * Tokens: The total number of tokens, before analysis, in each corpus. The tokenizer was the same in all cases, so the number of (pre-analysis) tokens is constant for any give corpus.
 * Pre-Analysis Types: This is the number of types (unique words) before analysis.
 * Baseline Post-Analysis Types: The number of types after baseline analysis. The baseline analysis included ICU Normalization (which is different from ICU folding, and only converts a few basic characters into normalized forms) and lowercasing.
 * Serbian Analysis Post-Analysis Types: The number of unique types after Serbian analysis (including BCMS stemming and ICU folding). There are significantly fewer unique types after the Serbian analysis, because some have merged!
 * Type Mergers: The percentage of types (unique words) that have merged with another type.
 * Token Mergers: The percentage of tokens (individual words) that have merged with another type.
 * When rare types merge, it does not affect many tokens. When common types merge, many more tokens are affected. Hence the difference in type/token merger rates.

Wikipedia article text is fairly consistent across the three wikis: a bit less than 20% of types merge, and token merger rates are slightly less than that.

The rates for Wiktionary are much less consistent. It's possible that the Bosnian numbers are off because the sample is smaller—fewer entries mean fewer opportunities for there to be another form of a word out there. The Serbo-Croatian Wiktionary merger rates stand out—not only are they higher than the Wikipedia rates, token mergers are more frequent than type mergers, meaning more common words are merging. Looking briefly at random samples of the Wiktionaries, I don't see any obvious reason. Perhaps something in the sample mergers will make sense.

Mergers for Review
For each corpus below, I've gathered the largest groups, Potential "problem groups" with no common prefix or suffix, and a random sample of groups. The largest groups tend to be were there are unexpected mergers. Potential "problem groups" with no common prefix or suffix tend to have something irregular in them—either a stemmer glitch or actual irregularities like English good/better/best. The random sample should be the most representative of typical stemmer performance.

Since there are six corpora and an expectation that things should go well based on the Serbian results, the initial samples below are a bit smaller than others I've used before. I'll expand them if anything concerning shows up.

The group format is "[<##> ]" where <##> is the number of times appeared in the corpus. Errors are expected, but errors in words that are less frequent are less concerning.

Since all of the potential "problem groups" where obviously caused by the ICU folding, I didn't bother to list them. Some of the "large" groups aren't that large—the biggest has fewer than 25 distinct words in it—in other corpora, groups of 50 to over 100 have occurred, so these aren't too worrying.

It's interesting—and reassuring—that a lot of the large groups overlap across the corpora.

Bosnian Wikipedia
Large Groups:


 * [1 Jednostavan][3 Jednostavna][2 Jednostavni][1 Jednostavnije][4 Jednostavno][9 jednostavan][14 jednostavna][15 jednostavne][10 jednostavni][5 jednostavnih][5 jednostavnije][1 jednostavnijeg][1 jednostavnijem][5 jednostavniji][3 jednostavnijih][2 jednostavnijim][1 jednostavniju][8 jednostavnim][57 jednostavno][5 jednostavnog][1 jednostavnoj][3 jednostavnom][3 jednostavnu]
 * [2 Kasne][1 Kasni][2 Kasnih][2 Kasnija][125 Kasnije][5 Kasniji][1 Kasnijih][1 Kasnijim][1 Kasno][3 kasna][5 kasne][4 kasni][13 kasnih][1 kasnija][556 kasnije][4 kasnijeg][2 kasnijem][15 kasniji][7 kasnijih][11 kasnijim][5 kasnijoj][7 kasnim][14 kasno][9 kasnog][1 kasnoj][9 kasnom]
 * [10 Modern][15 Moderna][2 Moderne][9 Moderni][1 Moderniji][2 Moderno][1 modern][9 moderna][36 moderne][16 moderni][21 modernih][1 modernija][2 modernije][1 modernijeg][3 moderniji][1 modernijih][2 moderniju][12 modernim][6 moderno][23 modernog][5 modernoj][13 modernom][9 modernu]
 * [1 ON][304 On][137 Ona][79 One][118 Oni][1 Onim][25 Ono][2 Onog][1 Onoga][2 O­n][576 on][272 ona][120 one][286 oni][64 onih][18 onim][28 onima][112 ono][15 onog][26 onoga][9 onoj][17 onom][11 onome][11 onu][9 o­n][3 o­ni][1 o­nih][2 o­nima][1 o­noga]
 * [1 Ran][2 Rana][2 Rane][10 Rani][3 Ranih][2 Ranija][7 Ranije][2 Raniji][4 Rano][5 Ranog][1 Ranu][1 ran][46 rana][2 ranama][43 rane][19 rani][29 ranih][3 ranija][127 ranije][4 ranijeg][7 raniji][7 ranijih][7 ranijim][3 ranijoj][1 raniju][21 ranim][17 rano][40 ranog][14 ranoj][27 ranom][4 ranu]
 * [2 Razvijen][1 Razvijena][1 Razvijeni][1 Razvijenu][31 razvijen][31 razvijena][12 razvijene][13 razvijeni][3 razvijenih][2 razvijenije][2 razvijeniji][1 razvijenijih][3 razvijenijim][1 razvijenijoj][10 razvijenim][9 razvijeno][1 razvijenog][1 razvijenoga][1 razvijenoj][4 razvijenom][1 razvijenu]
 * [1 Složen][1 Složene][3 složen][3 složena][16 složene][9 složeni][9 složenih][4 složenija][3 složenije][1 složenijeg][4 složeniji][1 složenijih][2 složenijim][1 složeniju][6 složenim][2 složeno][2 složenog][1 složenom][4 složenu]
 * [4 Značajan][6 Značajna][2 Značajne][1 Značajni][2 Značajnija][4 Značajniji][1 Značajno][1 Značajnu][49 značajan][29 značajna][33 značajne][17 značajni][24 značajnih][3 značajnija][4 značajnije][1 značajnijeg][12 značajniji][9 značajnijih][2 značajnijim][1 značajnijoj][4 značajniju][7 značajnim][1 značajnima][69 značajno][6 značajnog][2 značajnoj][5 značajnom][25 značajnu]

Random Groups:


 * [1 Papinska][1 Papinskoj][1 Papinskom][1 Papinsku][1 papinska][1 papinske][1 papinski][1 papinskih][1 papinsko][1 papinskoj][3 papinskom][2 papinsku]
 * [2 Adolescencija][1 adolescencija][10 adolescencije]
 * [12 postupci][8 postupcima]
 * [2 Pripadnik][8 pripadnicima][17 pripadnik][35 pripadnika][4 pripadnike]
 * [2 špekulacija][3 špekulacije][1 špekulaciju]
 * [1 Preventivne][1 preventivne][1 preventivnim][1 preventivno]
 * [2 relevantan][2 relevantna][2 relevantni][2 relevantnih][1 relevantnim]
 * [4 pupka][1 pupku]
 * [1 Hodočasnici][1 hodočasnici][2 hodočasnika]
 * [1 reverzibilna][1 reverzibilne][2 reverzibilni][3 reverzibilno]
 * [1 Najzastupljenije][1 Najzastupljeniji][1 najzastupljenija][1 najzastupljenije][6 najzastupljeniji][1 najzastupljenijih]
 * [1 prevrata][1 prevratom]
 * [14 Kotromanić][10 Kotromanića]
 * [1 Indirektna][1 Indirektni][1 Indirektno][1 indirektna][1 indirektne][13 indirektno][1 indirektnog][1 indirektnom]
 * [1 zapošljavanje][1 zapošljavanjem][1 zapošljavanju]

Bosnian Wiktionary
Large Groups:


 * [6 njihov][3 njihova][3 njihove][1 njihovi][1 njihovih][1 njihovima][1 njihovoj][1 njihovu]
 * [1 On][2 Oni][1 Ono][4 on][1 ona][4 one][2 ono][1 oná][1 önem][1 она]

Random Groups:


 * [1 vole][5 voli]
 * [1 zaferin][1 zaferine][1 zaferini]
 * [3 Osmanlijsko][2 osmanlijskog]
 * [1 Slana][1 slan]
 * [1 Kanada][1 Kanadi]
 * [1 Erman][2 erməni]
 * [1 kuru][1 кур]
 * [1 Bajram][1 бајрам]
 * [1 organizam][1 organizmu]
 * [6 kurac][2 kurci][2 курац]
 * [1 Grčka][2 Grčke][8 Grčki][1 Grčkoj][3 grčke][2 grčki][4 grčkog]
 * [1 prosti][13 prosto]
 * [1 Koji][1 Kojom][8 koja][3 koje][2 kojem][18 koji][2 kojima][2 kojoj]
 * [1 öğretmen][1 öğretmeni]
 * [1 Türk][1 turk]

Croatian Wikipedia
Large Groups:


 * [2 IMI][2 Im][28 Ima][5 Imaju][4 Imala][2 Imali][3 Imamo][34 Imao][35 Ime][166 im][461 ima][164 imaju][94 imala][16 imale][60 imali][82 imalo][4 imam][1 imama][5 imamo][187 imao][1 imaše][216 ime][2 İmam]
 * [1 Jednostavni][2 Jednostavno][2 jednostavan][3 jednostavna][2 jednostavne][1 jednostavni][1 jednostavnih][1 jednostavnija][2 jednostavnije][1 jednostavniji][1 jednostavnijih][1 jednostavnijim][3 jednostavnim][26 jednostavno][1 jednostavnog][1 jednostavnom]
 * [1 Kasnija][51 Kasnije][3 Kasniji][1 Kasnoj][1 kasna][8 kasne][3 kasni][8 kasnih][2 kasnija][256 kasnije][4 kasnijeg][5 kasnijem][7 kasniji][6 kasnijih][15 kasnijim][1 kasnijima][2 kasnijoj][4 kasnim][1 kasno][12 kasnog][1 kasnoj][9 kasnom][1 kasnu]
 * [10 Neka][21 Neke][44 Neki][2 Nekima][5 Neko][1 nek][43 neka][118 neke][75 neki][49 nekih][71 nekim][5 nekima][21 neko][39 nekog][7 nekoga][5 nekoj][18 nekom][4 nekome][14 neku]
 * [1 ON][87 On][40 Ona][42 One][23 Oni][14 Ono][1 Onu][197 on][130 ona][84 one][85 oni][29 onih][5 onim][7 onima][54 ono][10 onog][14 onoga][12 onoj][4 onom][3 onome][1 onomu][3 onu]
 * [1 Pozitivni][4 pozitivan][3 pozitivna][11 pozitivne][7 pozitivni][1 pozitivnih][1 pozitivnije][1 pozitivniji][3 pozitivnim][3 pozitivno][2 pozitivnog][1 pozitivnoga][1 pozitivnoj][2 pozitivnom][1 pozitivnu]
 * [2 Rana][1 Rane][1 Rani][7 Ranije][1 Raniji][4 rana][5 rane][6 rani][8 ranih][2 ranija][34 ranije][4 ranijeg][4 raniji][3 ranijih][5 ranijim][2 ranijoj][11 ranim][12 rano][11 ranog][1 ranoga][2 ranoj][9 ranom]
 * [1 Važna][2 Važne][2 Važni][1 Važnije][1 Važno][14 važna][15 važne][8 važni][12 važnih][2 važnija][3 važnije][4 važniji][4 važnijih][1 važnijim][3 važnim][1 važnima][21 važno][1 važnog][1 važnoj][4 važnom][6 važnu]
 * [3 Značajan][1 Značajna][3 Značajne][1 Značajni][2 Značajnija][3 Značajniji][25 značajan][9 značajna][9 značajne][7 značajni][8 značajnih][1 značajnija][7 značajnije][1 značajnijega][1 značajniji][3 značajnijih][1 značajnijoj][1 značajniju][4 značajnim][21 značajno][6 značajnog][3 značajnom][4 značajnu]

Random Groups:


 * [1 Baraj][1 Barajeva]
 * [1 naušnica][1 naušnice][1 naušnicu]
 * [2 tamnici][2 tamnicu]
 * [1 nemogućnost][3 nemogućnosti][1 nemogućnošću]
 * [24 Gora][20 Gore][6 Gori][2 Gorom][4 Goru][9 gora][16 gore][6 gori][2 goru]
 * [1 ocijenjen][1 ocijenjeni][2 ocijenjeno]
 * [1 zagađenja][1 zagađenje]
 * [2 Ring][1 ringu]
 * [1 Sindhupalchoka][1 sindhupalchok]
 * [5 Fort][3 Forte]
 * [5 protunapad][2 protunapada][1 protunapadu]
 * [4 nedefinirana][1 nedefinirane][1 nedefiniranih]
 * [1 Gradištu][2 gradište]
 * [1 obilna][1 obilne][1 obilno]
 * [2 Dolet][12 dolet][8 doleta][1 dolete][1 doletom]

Croatian Wiktionary
Large Groups:


 * [22 Hrvatska][4 Hrvatske][4 Hrvatski][1 Hrvatskim][2 Hrvatsko][4 Hrvatskoga][3 Hrvatskoj][1 Hrvatskom][1 Hrvatsku][1 Hrvátsko][2 hrvatska][8 hrvatske][20 hrvatski][1 hrvatskih][6 hrvatskim][1 hrvatsko][2 hrvatskog][5 hrvatskoga][7 hrvatskom][1 hrvatsku]
 * [3 Neki][2 Neko][25 neka][14 neke][13 neki][3 nekih][16 nekim][8 neko][14 nekog][5 nekoga][4 nekoj][10 nekom][2 nekome][2 nekomu][5 neku]
 * [1 Određeni][3 određen][1 određena][1 određeni][2 određenih][3 određenim][3 određeno][1 određenog][1 određenoga][1 određenoj][2 određenom][2 određenu]
 * [3 On][1 Ona][17 Ono][25 on][15 ona][13 one][20 oni][1 onim][25 ono][16 onoga][1 onome][1 он][1 она][1 они][1 оно]
 * [1 Veće][4 već][2 veća][1 veće][1 većeg][1 većem][1 veći][1 većih][2 većim][1 većoj][1 većom][1 veću][1 vȅć]

Random Groups:


 * [2 superaktinid][1 superaktinidi]
 * [1 lopta][1 loptu]
 * [2 did][1 dida]
 * [1 svinja][1 svinjama]
 * [2 zbijen][1 zbijene]
 * [2 kwiat][1 kwiatem][1 kwiatom][2 kwiatu]
 * [3 jakost][1 jakosti]
 * [1 Razlika][1 razlike][3 razliku]
 * [1 Kad][1 Kada][11 kad][6 kada][1 kadâ]
 * [1 Centr][2 centar]
 * [2 večer][1 večeri]
 * [2 Saudi][1 saūdī]
 * [1 Puna][1 pun][1 puno]
 * [3 kategorija][55 kategoriji][1 kategoriju]
 * [3 Crna][1 Crne][2 crn][2 crna][1 crne][1 crnih][1 crnu]

Serbo-Croatian Wikipedia
Large Groups:


 * [3 Drug][31 Druga][20 Druge][50 Drugi][2 Drugim][4 Drugo][60 Drugog][2 Drugoga][3 Drugoj][20 Drugom][6 Drugu][4 drug][61 druga][148 druge][154 drugi][137 drugih][93 drugim][9 drugima][37 drugo][63 drugog][2 drugoga][46 drugoj][37 drugom][18 drugu][1 Други][1 Друго][3 Другог][1 друга][2 друге][2 други][1 другима]
 * [1 Im][23 Ima][3 Imaju][2 Imajući][9 Imala][2 Imali][7 Imam][7 Imama][2 Imamo][11 Imao][25 Ime][174 im][718 ima][168 imaju][108 imala][31 imale][96 imali][119 imalo][11 imam][5 imama][7 imamo][223 imao][1 imavši][195 ime][1 Има][40 има][2 имало][1 имају][5 име]
 * [31 Jedna][2 Jedne][118 Jedno][1 Jednog][1 Jednoga][4 Jednom][2 Jednu][168 jedna][62 jedne][10 jedni][2 jednih][46 jednim][68 jedno][77 jednog][7 jednoga][35 jednoj][130 jednom][3 jednome][70 jednu][1 Једна][1 Једно][1 јedna][3 јednog][1 једна][1 једне][1 једни][2 једно][2 једног][1 једном][1 једну]
 * [2 Kasnih][50 Kasnije][6 Kasniji][1 Kasnim][1 Kasnu][4 kasne][1 kasni][2 kasnih][4 kasnija][354 kasnije][6 kasnijeg][8 kasnijem][14 kasniji][8 kasnijih][13 kasnijim][6 kasnijoj][2 kasniju][2 kasnim][11 kasno][3 kasnog][1 kasnom][1 kasnu][1 Касније][1 касне][1 касније]
 * [1 Nek][13 Neka][16 Neke][53 Neki][2 Nekim][5 Neko][3 nek][34 neka][77 neke][80 neki][39 nekih][64 nekim][8 nekima][31 neko][22 nekog][2 nekoga][7 nekoj][8 nekom][3 nekome][8 neku][1 Неки][2 неке][1 неки][1 неких][1 неког][1 неку]
 * [88 Ova][32 Ove][28 Ovi][18 Ovim][94 Ovo][1 Ovog][1 Ovoj][5 Ovom][4 Ovu][9 ov][80 ova][129 ove][21 ovi][50 ovih][39 ovim][1 ovima][74 ovo][99 ovog][18 ovoga][46 ovoj][77 ovom][46 ovu][13 Ово][1 ова][2 ове][1 ових][2 ово][3 овог][3 овом][1 ову]
 * [2 Ran][6 Rana][2 Rane][5 Rani][5 Ranije][1 Raniji][1 Rano][4 Ranu][1 ran][9 rana][2 ranama][12 rane][7 rani][9 ranih][1 ranija][63 ranije][8 ranijeg][1 ranijem][3 raniji][7 ranijih][8 ranijim][5 ranijoj][1 raniju][7 ranim][12 rano][13 ranog][1 ranoga][7 ranoj][12 ranom][5 ranu][1 раног]
 * [31 Srpska][21 Srpske][20 Srpski][1 Srpskim][4 Srpsko][2 Srpskog][2 Srpskoj][5 Srpskom][13 srpska][24 srpske][56 srpski][9 srpskih][4 srpskim][7 srpsko][17 srpskog][1 srpskoga][9 srpskoj][5 srpskom][8 srpsku][6 Српска][1 Српску][1 српска][1 српске][1 српски][1 српских][4 српског][1 српском][1 српској][1 српску]
 * [6 Značajan][3 Značajnije][1 Značajno][20 značajan][14 značajna][11 značajne][7 značajni][5 značajnih][2 značajnija][2 značajnije][2 značajniji][4 značajnijih][1 značajniju][4 značajnim][47 značajno][2 značajnog][2 značajnoj][1 značajnom][10 značajnu][1 значајна]

Random Groups:


 * [1 Uvoze][6 uvoz][1 uvoza][1 uvozom][1 uvozu]
 * [18 Britanija][11 Britanije][20 Britaniji][2 Britanijom][5 Britaniju]
 * [1 pobjegla][4 pobjegli]
 * [1 anoreksija][1 anoreksije][1 anoreksijom]
 * [1 MIRAŠ][5 Mir][1 Mira][8 Miraš][3 Mire][1 miR][30 mir][20 mira][1 mirom][8 miru]
 * [2 Redni][3 rednim]
 * [2 Njutn][1 Njutnu][4 njutn]
 * [1 rublja][2 rublje][1 rublju]
 * [2 skoleks][1 skoleksu]
 * [1 pukovnija][11 pukovnije][1 pukovniji]
 * [1 Prestižni][2 prestižne][1 prestižni][1 prestižnih][1 prestižnom][1 prestižnu]
 * [1 proliferacije][1 proliferaciju]
 * [1 trija][3 triju]
 * [1 jednobrodna][1 jednobrodnu]
 * [1 stobijski][1 stobijskog]

Serbo-Croatian Wiktionary
Large Groups:


 * [1 Crkveno][1 crkven][1 crkvene][2 crkveni][1 crkvenih][1 crkveno][1 crkvèna][1 crkvèni][1 crkvènog][1 crkvènē][1 cr̀kven][1 cr̀kvena][1 cr̀kvene][1 cr̀kvenī][1 цр̀квен]
 * [3 Druga][1 druga][3 druge][4 drugi][2 drugim][106 drugo][6 drugog][3 drugom][2 drugu][1 drȕge][2 drȕgo][1 drȕgu]
 * [3 Ima][2 Imam][1 Imaš][7 im][13 ima][1 imale][1 imali][2 imam][1 imamo][1 imao][2 imaš][1 ime][1 Ìma][1 Ìmala][1 Ìmali][1 Ìmamo][1 Ìmām][1 Ìmō][1 ìmaju][3 ìmali][3 ìmo][1 ìmāš][9 Ȉma][1 Ȉmala][1 Ȉmam][17 ȉma][2 ȉmāš][1 ȋm]
 * [2 jedna][2 jedne][3 jedni][1 jednim][4 jedno][1 jednog][1 jednoga][1 jednoj][2 jednom][2 jednu][1 jednȍm][2 jèdne][1 jèdnim][3 jèdno][2 jèdnom][1 jèdnōg][1 jèdnōm][1 jédno]
 * [1 Neke][1 Nȅka][1 Nȅko][1 nek][1 neka][3 neke][3 neki][2 nekim][7 neko][7 nekog][15 nekoga][2 nekom][7 nekome][3 neku][3 nȅka][2 nȅke][3 nȅki][1 nȅkim][2 nȅkoga][4 nȅkome][2 nȅku]
 * [5 On][1 Ono][1 on][2 ona][3 one][1 oni][1 onim][4 ono][2 onoga][1 onoj][2 onom][1 onome][1 Òna][2 Òni][4 òna][6 òne][8 òni][5 òno][4 ònu][1 ònā][2 ònō][1 Ȍn][1 ȍn][3 Ȏn][8 ȏn]
 * [1 Propòlis][1 Propólis][1 Pròpolis][1 Prȍpolis][1 Prȍpolisom][1 propolis][1 propòlis][1 propólis][1 propólisa][1 propólisom][2 pròpolis][1 pròpolisa][1 prǒpolis][2 prȍpolis][1 про̀полис]
 * [1 seljački][2 seljȃčki][2 sèljāčka][7 sèljāčke][4 sèljāčki][1 sèljāčko][1 sèljāčkoj][4 sèljāčku][1 sèljāčkī][1 сѐља̄чки][1 сѐља̄чкӣ]

Random Groups:


 * [2 upreti][2 ùpreti][1 у̀прети]
 * [1 Máni][1 mana][1 mane][1 máno][1 mánuli]
 * [4 ištekan][1 ištekanu]
 * [5 naokolo][1 nâokolo][1 nȁokolo][1 на̏около]
 * [4 akribijski][1 akribijskijih]
 * [1 defecirah][1 defecirati]
 * [2 kartinški][1 kartinškijih]
 * [1 uokviriti][1 uokvíriti][1 uokʋǐːriti][1 уокви́рити]
 * [2 grd][1 grdog]
 * [1 Garaj][1 Garaji]
 * [1 dobivati][1 dobívati][1 dobǐːʋati][1 доби́вати]
 * [1 Holešek][1 Holešekem]
 * [1 kulinarstvima][2 kulinarstvo]
 * [1 centralnoatlaske][4 centralnoatlaski]
 * [3 mrkanjski][1 mrkanjskijemu]

Next Steps

 * Get speaker review of the mergers here. (DONE—looks good!)
 * Make any adjustments to the analysis chain if needed (none needed), and update the analysis config to use the new analysis chain, and deploy. (WAITING on refactoring of analysis plugin)
 * Re-index the Bosnian, Croatian, and Serbo-Croatian wikis.