IPA Phonetic dataset lexicon

136+ languages

languages not using spaces

(thus their dataset must contain sentences too):

Chinese
Japanese
Tibetan

Licensing information:

MIT Original data for the 15 languages taken from gruut databases
MIT To this the data for the 31 languages were added ipa dict files
CC0: Public Domain Chinese/Mandarin-IPA language sentence pairs were generated:
- from the chinese sentences taken from dataset from kaggle
- based on the above dictionary and MISTRAL-nemo made IPA dictionary which was paired with chinese sentences to ipa sentences using string substitution.
Mozilla Public License 2.0 Chinese/Mandarin Extra missing phrases added-on from Mozilla Common Voice 19.
Apache-2.0 Wikipron data were added for selected large languages from wikipron data
cc-by-nc-4.0 Tibetan taken from billingsmoore
cc-by-nc-4.0 Tibetan added more data at billingsmoore
MIT/Apache2 Slovak language is mostly self made, I hereby dedicate it under MIT/Apache2
CC-BY-SA 3.0: Text in Japanese corpus is licensed as follows. The text data were modified and pronunciation information is added. basic5000 is as follows:
- wikipedia wikipedia CC-BY-SA 3.0
- TANAKA corpus Tanaka_Corpus CC-BY 2.0
- JSUT (Japanese speech corpus of Saruwatari-lab., University of Tokyo) JSUT. CC-BY-SA 4.0
Mozilla Public License 2.0 Japanese City Names added-on from Mozilla Common Voice 19.
Apache-2.0 US/UK English data sourced from Kokoro Misaki
Unknown license Cantonese words and sentences soruced from the github
Apache-2.0 license English - Homographs data (multi.tsv) sourced mainly from: Homograph disambiguation data
cc-by-nc-sa-4.0 Hokkien Taiwanese Minnan - Data from sarahwei

Name		Name	Last commit message	Last commit date
Latest commit History 79 Commits
afrikaans		afrikaans
albanian		albanian
amharic		amharic
arabic		arabic
aragonese		aragonese
armenian		armenian
assamese		assamese
azerbaijani		azerbaijani
bashkir		bashkir
basque		basque
belarusian		belarusian
bengali		bengali
bishnupriyamanipuri		bishnupriyamanipuri
bosnian		bosnian
bulgarian		bulgarian
burmese		burmese
cantonese		cantonese
catalan		catalan
cebuano		cebuano
chechen		chechen
cherokee		cherokee
chichewa		chichewa
chinese/mandarin		chinese/mandarin
chuvash		chuvash
croatian		croatian
czech		czech
danish		danish
dutch		dutch
dzongkha		dzongkha
english		english
esperanto		esperanto
estonian		estonian
farsi		farsi
finnish		finnish
french		french
gaelic		gaelic
galician		galician
georgian		georgian
german		german
greek		greek
greenlandic		greenlandic
guarani		guarani
gujarati		gujarati
haitiancreole		haitiancreole
hausa		hausa
hawaiian		hawaiian
hebrew		hebrew
hebrew2		hebrew2
hindi		hindi
hungarian		hungarian
icelandic		icelandic
ido		ido
indonesian		indonesian
interlingua		interlingua
isan		isan
italian		italian
jamaican		jamaican
japanese		japanese
javanese		javanese
kannada		kannada
kazakh		kazakh
khmer/central		khmer/central
kiche		kiche
konkani		konkani
korean		korean
kurdish		kurdish
kyrgyz		kyrgyz
langbelta		langbelta
lao		lao
latgalian		latgalian
latin		latin
latvian		latvian
linguafrancanova		linguafrancanova
lithuanian		lithuanian
lojban		lojban
lulesaami		lulesaami
luxembourgish		luxembourgish
macedonian		macedonian
malay		malay
malayalam		malayalam
maltese		maltese
maori		maori
marathi		marathi
minnan		minnan
mongolian		mongolian
nahuatl		nahuatl
nepali		nepali
nogai		nogai
norwegian		norwegian
oromo		oromo
papiamento		papiamento
pashto		pashto
polish		polish
portuguese		portuguese
punjabi		punjabi
quechua		quechua
quenya		quenya
romanian		romanian
russian		russian
serbian		serbian

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

IPA Phonetic dataset lexicon

languages not using spaces

Licensing information:

About

Releases

Packages

Contributors 3

Languages

neurlang/dataset

Folders and files

Latest commit

History

Repository files navigation

IPA Phonetic dataset lexicon

languages not using spaces

Licensing information:

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Packages