Parallel Speech Corpus
Equivalent semantic information translated into a variety of languages. The higher the syllable count, the lower the information density. The studies mentioned below use two different means to represent information density:
- Calculating the proportion of syllables to a reference language (Vietnamese)
- Averaging the Shannon Entropy of each syllable-to-syllable possibility (including the probabilities of being first syllables).
Here, we will just provide the syllable count as the first method used can be intuited by just comparing the counts themselves and the second method is not possible without a significantly large corpus of text to calculate probabilities with.
Source
Multilingual Text Tools and Corpora for Central and Eastern European Languages. EU Copernicus Project COP106 (source) and the additional texts provided through this research paper (supplemental materials):
Christophe Coupé et al. ,Different languages, similar encoding efficiency: Comparable information rates across the human communicative niche. Sci. Adv. 5, eaaw2594 (2019). DOI: 10.1126/sciadv.aaw2594
The authors graciously provided some of the data on GitHub.
Passages
The passages for 6 languages are presented below, you can check out the details of 11 more in the paper and supporting materials.
Text O1
Number of Syllables:
Mandarin | English | Hîsyêô | Japanese | Spanish | Thai | Vietnamese |
---|---|---|---|---|---|---|
60 | 70 | 112 | 119 | 94 | 64 | 49 |
- Mandarin
- English
- Hîsyêô
- Japanese
- Spanish
- Thai
- Vietnamese
noyo cînlî îxôlô tô foko nulun xîmu. mîkdol xîmu li odigon cên ûn û ônî bucono xîmu wuîtsî zîgîl xîmu dîlê. ¿nîmû kôî ondo xe lufono ônî xîûfû hoî hêlxun lono yê lono mîhûon cî? ni li lono tôlkî fos noyo kôî tûu bi bîlûs hoî wêxôn ôfo hôn. noyo bît li konxo hôn fos nîmû bît wofok yôcno onô tô cukto.
Text O2
Number of Syllables:
Mandarin | English | Hîsyêô | Japanese | Spanish | Thai | Vietnamese |
---|---|---|---|---|---|---|
73 | 86 | 129 | 162 | 135 | 74 | 93 |
- Mandarin
- English
- Hîsyêô
- Japanese
- Spanish
- Thai
- Vietnamese
kûu lufono noyo mût yogô kûngîyo yê cînlî lôc. kon xîûfû yê môkôfo xîmu konbokbo xe li wokto yê niwos noyo, li sî funsût ûn û kûncîen yê bûmî sêl li sî în dûbono. yogô kûngîyo yê yoldûn xîmu et nîmû bi gonzîl zûtô yôk. môî zomo kon xîûfû bi wuktomû li xîyôcû lon dûî wêxôn uklo. ¿bêsnêhot fos noyo yôn kûncîen yê bûmî sêl misli zomo xîmu kon dodê mût wokût ulyô ko?
Text O3
Number of Syllables:
Mandarin | English | Hîsyêô | Japanese | Spanish | Thai | Vietnamese |
---|---|---|---|---|---|---|
73 | 85 | 125 | 153 | 111 | 85 | 55 |
- Mandarin
- English
- Hîsyêô
- Japanese
- Spanish
- Thai
- Vietnamese
foko yoldûn môtô fîmôsyôs li kôto. nûs dênêmêk xe yosten ônî xokûlû gongoxî xe li sî cok sûn kon xokûlû bi yôk xe cûdo dêtoî umo. nîo li xoînbo hoî nec boxô onô. nîo dî sî ûnîdû hoî onwonî kon xokûlû nûs 762 584. nûs bît li konxo yê dênêmêk mîoû yê fos wêtodû nîo nênko fos li xoînbo û fos nîo fuî buswen kotonhon.
Text O4
Number of Syllables:
Mandarin | English | Hîsyêô | Japanese | Spanish | Thai | Vietnamese |
---|---|---|---|---|---|---|
80 | 84 | 155 | 154 | 152 | 110 | 89 |
- Mandarin
- English
- Hîsyêô
- Japan
- Spanish
- Thai
- Vietnamese
kûu tûu sôlû kon fiyûxît til wûôt yê hêlxun hêlxun lôtfen. umo Esbencu yê tîton Cesnut xîwon xe hoî boxô kon wedo yê oûtô xîkô et nonkû yê sêdu Hîclôû cihôû yôk êfun kînsê yê suhot toû xe ilik lono mutyu. kon xîkô nîo li yôk cok mût êfun tîû dus yê suhot xêtî lêkin û nîo kûu sôlû til odîgon zuko. kûu belêxu ni misli sonkon solwôc kûu li gufis hôn cônkôk ye wokut gîk. nîo motsi oûtô hoî êfun niswî dus yê suhot tîû et cônkôk.
Text O6
Number of Syllables:
Mandarin | English | Hîsyêô | Japanese | Spanish | Thai | Vietnamese |
---|---|---|---|---|---|---|
64 | 67 | 105 | 129 | 103 | 78 | 80 |
- CMN
- ENG
- Hîsyêô
- JPN
- SPA
- Thai
- Vietnamese
noyo dênêmêk xe monodo umo Zîôlzu yê sinsî Sûindun ûn hûnsûon nîo. li sî nô sûn boxô 63 yê tîton Esbilûs Kilôs mût yogô dîzel yê sinsî Sûindun. ¿mût noyo kôî cûdo onwonî nêos nîo cî? nîo li sî nô bi êmê hoî niswî wuto ôhêl. oldis fisun noyo û nîo li yôk fonmot sûn golo onwonî.
Text O8
Number of Syllables:
Mandarin | English | Hîsyêô | Japanese | Spanish | Thai | Vietnamese |
---|---|---|---|---|---|---|
69 | 84 | 118 | 159 | 136 | 93 | 81 |
- CMN
- ENG
- Hîsyêô
- JPN
- SPA
- THA
- TUR
kûu yundôû noyo mût yogô kûngîyo yoldûn. ônî mônîso non noyo li sî kobût lon niswî wêxôn cokyen ûn û noyo buswen xe fisun wokut fos ke xîûfû ni hoî. nîmû gomî sî ni hoî lono telô bêmon fos li dukwêlit ilik wêxôn. noyo hêfîn fos nîmû fûî îxôlô yê bûzôk yogô lêkin ôfo li odigon lôîcôk. ¿mût noyo cûdo lono cônkôk bi îbûdû ko?
Text O9
Number of Syllables:
Mandarin | English | Hîsyêô | Japanese | Spanish | Thai | Vietnamese |
---|---|---|---|---|---|---|
57 | 67 | 98 | 83 | 79 | 60 | 52 |
- CMN
- ENG
- Hîsyêô
- JPN
- SPA
- THA
- TUR
¿nîmû mût noyo kôî cûdo zûnlo yê gubuyo kon mokon hoî boxô fêlkonô onô ko? noyo niwos hoî onwonî En Dubulyû Kut yê tîton Kilonsî. noyo sûko uyo xe li bolutê yê eswen yoûtî en sodolun. boxô yê nêxôdî Bolinêxun misli numûno cî. noyo bît sûko fos ni li yôk xûnyu oksûn.
Text P0
Number of syllables:
Mandarin | English | Hîsyêô | Japanese | Spanish | Thai | Vietnamese |
---|---|---|---|---|---|---|
100 | 92 | 152 | 156 | 153 | 103 | 102 |
- CMN
- ENG
- Hîsyêô
- JPN
- SPA
- THA
- VIE
hûnsûon noyo fuî yôcno wokût kon xîkô fonfûk hoî wuto uklo. ¿nîmû bi dôkcon ke yundôû noyo hôn yôcno yê fûnbêtsi ûcûmî êto ko? nîo fuî zûnlo yê mozulis sûn suhot eson xe ilik lono mutyu, mût suhot tîû xe cihôû mutyu, hoî sinsî Bolis, sînsî Buhûc, sinsî Filonkufûl, sinsî Lômo, ûn sinsî Honbûl hoî lono ûnîdû. ¿nîmû kôî bêsnêhot kon xîkô obunyun yê mûun lono ûn niwos êfun xôn ko? nîo sûko yôk niwos êfun cênbô yê bûzôk wîxês.
Text P1
Number of syllables:
Mandarin | English | Hîsyêô | Japanese | Spanish | Thai | Vietnamese |
---|---|---|---|---|---|---|
70 | 105 | 115 | 131 | 137 | 96 | 77 |
- CMN
- ENG
- Hîsyêô
- JPN
- SPA
- THA
- VIE
nûs sôlû ondo yê kon cûdo côûfon et kônên til mozulis yê cênbô êto. nûs bît buswen fos lufono sî mokon mût boxo bi fos bît cûlosun kon mokon mîoû. li yôk sîokbî til xe wêko côûfon til kon mokon hoî kûncîen bêsu. nûs gonîso yoûtî senwic, oksûn, îskô hôktun bukû, ûn kûôxi. ¿nîmû fuî wîlûwo kûngîyo wîxês til kûngîyo kon bêûdo ko?
Text P2
Number of syllables:
Mandarin | English | Hîsyêô | Japanese | Spanish | Thai | Vietnamese |
---|---|---|---|---|---|---|
65 | 76 | 130 | 142 | 120 | 79 | 81 |
- CMN
- ENG
- Hîsyêô
- JPN
- SPA
- THA
- VIE
kûu lufono oûtô kon bucono mût onwonî ses yê tîton Cotwik hoî zelen môî. umo nokdo li sî zîgîl lûcik hoî xîmu bukû li êo kobût ôlê gonbu nîo kôî li êo yôk nô ôlê cizi noyo. xe tuluti tîton onô, bi tôlkî tô tîton Cûlcu. boxô kon gîk yê tîton Bolku li sî bundu til kon xîûfû. ôlê îlê yê cîgîlsu kotonhon et Cesto Gilonzu fisun sî êo ûn ni motsi kon gîk.
Text P3
Number of syllables:
Mandarin | English | Hîsyêô | Japanese | Spanish | Thai | Vietnamese |
---|---|---|---|---|---|---|
77 | 91 | 152 | 152 | 119 | 95 | 90 |
- CMN
- ENG
- Hîsyêô
- JPN
- SPA
- THA
- VIE
yogô kûngîyo yê kôlmûdul yê sîkîn Kulismus lôtfen. noyo xîwon xe li êo kôlmûdul yê dus dibo yê bîek cencî otôs yê sîkîn Kulismus, tîû dibo yê bîek hûunhu, ûn niswî bîek sûsôn sûît cênbô yê sîkîn Kulismus. onwonî kon gîk li niwos yê ônî cûdo cîgîlsu Belnodô: boxô ses yê tîton Wobî Yokûntîk. ¿nîmû kôî bêmon kon lufono ilik lono dûî dus niswî yê wuhot bole ko? noyo bît li konxo hôn fos nîmû bît fisun yôk êo umo fos li êo kôlmûdul.
Text P8
Number of syllables:
Mandarin | English | Hîsyêô | Japanese | Spanish | Thai | Vietnamese |
---|---|---|---|---|---|---|
78 | 77 | 133 | 117 | 93 | 81 | 75 |
- CMN
- ENG
- Hîsyêô
- JPN
- SPA
- THA
- VIE
hoî lono xobêk û noyo li êo but ôlê zinkon fôhon til xe cûlosun fos mocko li wokto. ni li lono mûun hosîn lôîcôk bînê noyo bi sêl tuluti comen til kon wedo yê woyû nêôs. bînê noyo tenkîn cuskîdô hoî fos zinkon dî bundu hoî soden noyo. noyo yosten fos besol cizî noyo bi wokto. hoî solwôc môî û ônî cixîn doîcêl noyo hoî fos noyo dênêmêk xe ôlê zinkon li êo but foxo.
Text P9
Number of syllables:
Mandarin | English | Hîsyêô | Japanese | Spanish | Thai | Vietnamese |
---|---|---|---|---|---|---|
76 | 91 | 151 | 139 | 119 | 77 | 61 |
- CMN
- ENG
- Hîsyêô
- JPN
- SPA
- THA
- VIE
noyo hoî môî wokût yosten sî kutin conzodo hoî wûôt kîldo yê oûtô kîskô hoî fenûo Bitin. hôn kut û noyo hoî yôk wokut ôlê cizî noyo kôî li êo lohot hoî sityo. bînê ônî tuluti dîzel bi sodolun kôto bi oltû lôîcôk; yodo lôc môî lôîcôk: nîo kôs gônyumon conzodo. bi ûtok li cuskîdô cûnfû sînêxîs yê kûldû xe hoî tîton. hôn fos noyo bi bîlûs dî conzodo, ônî fohoso doînbî li sî gîk li êo wîlî ôlê noyo.
Text Q0
Number of syllables:
Mandarin | English | Hîsyêô | Japanese | Spanish | Thai | Vietnamese |
---|---|---|---|---|---|---|
68 | 88 | 142 | 150 | 126 | 73 | 56 |
- CMN
- ENG
- Hîsyêô
- JPN
- SPA
- THA
- VIE
zûtô fos noyo li gîk mût côûfon yê lono mûun hoî kônyêc wêxôn. li hîzon êto û xe dêko nîmû bi dîzel. bi kûyô û noyo cînlî sî zîgîl bi ubênus hoî xe ondo xe li cok. ni hoî fos noyo li sî nô til xe gomî dibo yê îskô kûôxi cûbû sûn kûncîen yê kon wuîtsî yê mokon. noyo fuî yôk sî zôtêstô fûnbêtsi til xe socok kûon, xobo wowoê mût gîsgûl sodilû hoî nêlô li êo kobût ôlê zûntûlu wowoê noyo.
Text Q1
Number of syllables:
Mandarin | English | Hîsyêô | Japanese | Spanish | Thai | Vietnamese |
---|---|---|---|---|---|---|
57 | 62 | 99 | 126 | 81 | 56 | 55 |
- CMN
- ENG
- Hîsyêô
- JPN
- SPA
- THA
- VIE
li tîton gosîl û fos tuluti tôxûtsi mût niwos noyo. yoûtî umo fêlkonô kôto fos tôxûtsi fuî lûok nîecni. xûnyu umo sûko xe tuluti comen ulyô cihôû nêlô. bi wuktomû û noyo îmon yôk ozûul dês fûnbêtsi hiklihos. noyo bi tôlkî sûko tîton yê dêko xe misli toswîl, gitno boxô.