Mozilla projekt Common Voice tegeleb kõneandmete korjamisega ühisloome teel. Erinevalt tekstiandmetest on kõneandmed palju harvemad ja kõneandmestikud palju väiksemad/kallimad. Teisest küljest sõltuvad nende kättesaadavusest ja suurusest kõnesünteesi ja kõnetuvastuse kvaliteet, eriti kui kasutada kaasaegseid süvaõppel põhinevaid lähenemisi. See on eriti oluline muu hulgas eesti keelele, mille puhul on kõneandmeid väga vähe.
Hiljuti lisasime eesti keele Common Voice keelte hulka. Siiani on projekt korjanud kokku üle 1000 tunni kõnet 19-le keelele. Suurem osa andmetest on inglise (592h), saksa (183h) ja prantsuse keeles (114h), keelte hulgas on samuti nt. katalaani, kirgiisi, iiri ja palju haruldasemaid keeli..
2018 a. alguses loodi TÜ arvutiteaduse instituudis närvivõrkudepõhine kõnesünteesidemo (http://neurokone.ee), mis kasutab just seda tüüpi andmeid. Saavutatud tulemused on väga head, arvestades väikset kasutatud treeningandmestiku: sünteeskõne intonatsioonid on väga inimlikud. Üldkvaliteedi tõstmiseks on aga palju rohkem kõneandmeid vaja.
Common Voice veebiliides on imelihtne ning võimaldab salvestada kõnet nii lauaarvutist kui nutitelefonist. Kuidas saab panustada: vaja on ainult mikrofoniga arvutit või nutitelefoni, ning siis saab:
- ette lugeda süsteemi poolt valitud lauseid, ning süsteem salvestab teie häält. Veelgi parem, kui saate ka süsteemile teada anda natuke infot oma hääle kohta (registreerumise teel).
- samuti saab kontrollida juba olemasolevaid lauseid, tagamaks, et teiste ette loetud laused on korrektsed.
- Kõik! Nii ette lugemine kui kontrollimine on imelihtsad, kiired ja valutud. Iga lause loeb, minge ja andke oma häält teaduse ja eesti keele keeletehnoloogilise arengu heaks!