Speech Annotation - Paul Micallef

Maltese Speech Annotation

Introduzzjoni

Hawn qiegħed npoġġi l-ewwel verżjoni ta' data Maltija annotata. Ħafna mix-xogħol sar bl'għajnuna ta'l-istudenti. Primarajament dan hu xoghol ta' Roberta Camilleri li ghamlet fit-teżi ta l-aħħar tal-kors ta' l-inġinerija. Però nixtieq nsemmi hawn wkoll lil Robert Ellul Micallef u lil Anthony Psaila għax-xogħol siewi li kienu għamlu jużaw l-HTK HMM bl-ingliż li serva biex nitgħallmu kif nappplikaw u nittrasferu xogħolhom għal-lingwa Maltija.
Is-sistema bbażata fuq serje ta' zip files. Kull wieħed minnhom fih il-kontenut segwenti.
Hemm il-vuċi, magħmula minn sett ta files, kull wieħed b'isem distint. Dawn huma tat-tip wav. Hemm is-sentenzi jew frażijiet tal-vuci li miktubin bil-UTF8 biex jistgħu jintużaw l-ittri maltin. U hemm excel fajl bid-dettalji ta' l-annotazzjoni għas-sett sħiħ ta' frażijiet marbutin mal-fajl tal-vuċi rispettiva. L-annotazzjoni hi għal kull fonema u hi relattiva mal-bidu ta' kull wav fajl. Kull entrata għandha ħames kolonni. L-ewwel waħda tagħti isem il-wav file, u l-bidu tal-fonema. It-tieni kolonna t-tmiem għal dik il-fonema partikulari. It-tielet kolonna turi t-tul tal-fonema. In-numri huma f'termini ta' sekondi. Ir-raba' kolonna turi l-fonema. Il-fonemi innifishom qegħdin f'fajl ieħor li jagħti dettalji fuqhom. Il-ħames kolonna tagħti l-kelma.
Ix-xogħol ġi ġenerat awtomatikament, u mhux kollu ċċekkjat. Pero' ma nbidilx minn dak li kien iġġenerat, u għalhekk jista jkun hemm żbalji. Fil-maġġoranza tax-xogħol kull valur m'għandux żball t'aktar minn 20 ms. L-ikbar eċċezzjonijiet huma il-'q', u 'silence' u 'breath' li sfortunatament jirrekjedu ħafna iktar xogħol biex jiġu eżatti. Nilqa' kull xorta ta' kumment u suġġeriment li jogħġobkom tibagħtu fuq ix-xogħol. Biex is-sistema taħdem hemm bżonn ta' dizzjunarju fonetiku.
Biex tista' tagħmel użu siewi, mhux biżżejjed il-Windows Media Player. Irid ikun hemm tip ta' applikazzjoni li thallik tara il-vuċi u ttik wkoll il-ħin f'terminu ta' samples jew sekondi. Il-vuċi kienet issempiljata b'16000 Hertz.

The system uses zipfiles. Each consists of three files. A set of spoken .wav files. Their corresponding text, and an excel file with the annotated phonemes corresponding, and referenced to each wav file. An excel entry consists of the name of the wav file and start of the phoneme, followed by the end of the phoneme, and the duration of the phoneme, (the numbers are in seconds), followed by the phoneme and the word to which the phoneme belongs. The results were obtained automatically and have been partially checked, but there can be errors. In most cases the error is not more than +- 20 ms. The worst cases are 'q', 'breath' and 'silence'. I welcome any comments or suggestions on the work. For the recognition system to work there is a need of a phonetically annotated dictionary.

The intention is to have a considerable number of files, from different users, which will be progressively added to the web page.

Zipfiles

FMM001.zip FMM002.zip FMM003.zip FMM004.zip FMM005.zip

* ( April 25 2012) _ I have altered slightly the naming structure inside the zip files FMM001.zip to FMM005.zip, (uploaded March 27), but the content is the same.

FMM006.zip FMM007.zip FMM008.zip FMM009.zip FMM010.zip

FSM001.zip FSM002.zip FSM003.zip