An FSR on Malayalam TTS

An FSR on Malayalam TTS

Harish Karumuthil

മലയാളം TTS ഉണ്ടാക്കാനായി കുറച്ചു ദിവസങ്ങൾ ശ്രമിച്ചതിൽ നിന്നും മനസ്സിലായ കാര്യങ്ങൾ ഇവിടെ കുറിക്കുന്നു.


1. ഇതിൽ machine learning ഉപയോഗിച്ച് പ്രവർത്തിക്കുന്നവയും അല്ലാതെ പ്രവർത്തിക്കുന്നവയും ഉണ്ട്.

2. ML ഉപയോഗിക്കാതെ പ്രവർത്തിക്കുന്ന സിസ്റ്റങ്ങളിലേക്ക് ഒരു പുതിയ ഭാഷ കൂട്ടിച്ചേർക്കുക എന്നത് ഗഹനമായ ഒരു ജോലിയാണ്. അതിനു ഭാഷയുടെ ശബ്ദശാസ്ത്രത്തെ ഒക്കെ പറ്റി നല്ല ധാരണ (‌‌ Domain specific knowledge ) ഉണ്ടായിരിക്കണം.

3. espeak പിന്തുടരുന്നത് , ഇത്തിരി പഴയ രീതിയാണ്. അതിലൂടെ മലയാളം വൃത്തിയായി കേൾക്കാൻ പറ്റുമെന്ന പ്രതീക്ഷ എനിക്കില്ല.

4. ML ഉപയോഗിക്കുന്ന സിസ്റ്റങ്ങൾ നല്ലരീതിയിൽ Compute intesive ആണ്. അതിൽ തന്നെ, റിയൽ ടൈം ആയി പ്രവർത്തിക്കാൻ പറ്റും എന്ന് ഉറപ്പുള്ള മോഡലുകൾ കുറവാണ്. മൊബൈലിന്റെ കാര്യം ചിന്ത്യം .

5. Festival TTS നല്ല ഒരു ഓപ്ഷനാണ്. നിലവിൽ മലയാളം ഒഴിച്ചുള്ള ഒട്ടുമിക്ക ഭാഷകൾക്കും ഇതിൽ‌സപ്പോർട്ട് ഉണ്ട്. മൊബൈൽ പോലുള്ള പ്ലാറ്റ്ഫോമുകളിക്കേക്ക് വേണ്ടി മാത്രം വളരെ light weight ആയ Flite എന്നൊരു engine ഇവർക്കുണ്ട്. output നു നല്ല ക്വാളിറ്റി ഉണ്ട്. 

 - പക്ഷേ ഇതിൽ പണിപഠിക്കാൻ ഭാഷയെ പറ്റിയും‌ സ്വരങ്ങളെ പറ്റിയും‌ നല്ല അറിവ് വേണം 

 - ഇത് ട്രെയിനിങ്ങ് ചെയ്യിക്കാൻ , പ്രൊഫഷണൽ ആയ , ഒരാൾ തന്നെ റെക്കോർഡ് ചെയ്ത ശബ്ദം ആണ് വേണ്ടത്.

 - Voice Data വളരെ അധികം വേണം എന്നില്ല. പക്ഷേ ഉള്ളത് ഭാഷയിലെ എല്ലാ സ്വര വൈവിധ്യങ്ങളേയും ഉൾക്കൊള്ളണം . ( ഉദാഹരണത്തിനു 1000 വാചകങ്ങളുടെ speech corpus ൽ നിന്നാണ് തെലുങ്ക് ഭാഷക്ക് വേണ്ടി ഉപയോഗിച്ചിട്ടുള്ളത് )

6. ഈ മേഖലയിൽ ചില റിസർച്ച് പേപ്പറുകള് ഒക്കെ കാണുന്നുണ്ട്. റിസർച്ച് പേപ്പറുകൾ പലതും paid സൈറ്റുകളിൽ ആണ്. eg: https://ieeexplore.ieee.org/document/7159332/authors

7. നിലവിൽ മലയാളത്തിനു ലഭ്യമായ ഡാറ്റാ സെറ്റുകൾ https://gitlab.com/smc/msc , https://openslr.org/63/ എന്നിവയാണ്.

 - ഇതുകൂടാതെ blizzard Challenge 2015 ൽ ( http://www.cstr.ed.ac.uk/projects/blizzard/data.html ) മലയാളം  ഡാറ്റ ഉണ്ട് എന്ന് പറയപ്പെടുന്നു. വാസ്തവം അറിയില്ല 


Report Page