An FSR on Malayalam TTS
Harish Karumuthilമലയാളം TTS ഉണ്ടാക്കാനായി കുറച്ചു ദിവസങ്ങൾ ശ്രമിച്ചതിൽ നിന്നും മനസ്സിലായ കാര്യങ്ങൾ ഇവിടെ കുറിക്കുന്നു.
1. ഇതിൽ machine learning ഉപയോഗിച്ച് പ്രവർത്തിക്കുന്നവയും അല്ലാതെ പ്രവർത്തിക്കുന്നവയും ഉണ്ട്.
2. ML ഉപയോഗിക്കാതെ പ്രവർത്തിക്കുന്ന സിസ്റ്റങ്ങളിലേക്ക് ഒരു പുതിയ ഭാഷ കൂട്ടിച്ചേർക്കുക എന്നത് ഗഹനമായ ഒരു ജോലിയാണ്. അതിനു ഭാഷയുടെ ശബ്ദശാസ്ത്രത്തെ ഒക്കെ പറ്റി നല്ല ധാരണ ( Domain specific knowledge ) ഉണ്ടായിരിക്കണം.
3. espeak പിന്തുടരുന്നത് , ഇത്തിരി പഴയ രീതിയാണ്. അതിലൂടെ മലയാളം വൃത്തിയായി കേൾക്കാൻ പറ്റുമെന്ന പ്രതീക്ഷ എനിക്കില്ല.
4. ML ഉപയോഗിക്കുന്ന സിസ്റ്റങ്ങൾ നല്ലരീതിയിൽ Compute intesive ആണ്. അതിൽ തന്നെ, റിയൽ ടൈം ആയി പ്രവർത്തിക്കാൻ പറ്റും എന്ന് ഉറപ്പുള്ള മോഡലുകൾ കുറവാണ്. മൊബൈലിന്റെ കാര്യം ചിന്ത്യം .
5. Festival TTS നല്ല ഒരു ഓപ്ഷനാണ്. നിലവിൽ മലയാളം ഒഴിച്ചുള്ള ഒട്ടുമിക്ക ഭാഷകൾക്കും ഇതിൽസപ്പോർട്ട് ഉണ്ട്. മൊബൈൽ പോലുള്ള പ്ലാറ്റ്ഫോമുകളിക്കേക്ക് വേണ്ടി മാത്രം വളരെ light weight ആയ Flite എന്നൊരു engine ഇവർക്കുണ്ട്. output നു നല്ല ക്വാളിറ്റി ഉണ്ട്.
- പക്ഷേ ഇതിൽ പണിപഠിക്കാൻ ഭാഷയെ പറ്റിയും സ്വരങ്ങളെ പറ്റിയും നല്ല അറിവ് വേണം
- ഇത് ട്രെയിനിങ്ങ് ചെയ്യിക്കാൻ , പ്രൊഫഷണൽ ആയ , ഒരാൾ തന്നെ റെക്കോർഡ് ചെയ്ത ശബ്ദം ആണ് വേണ്ടത്.
- Voice Data വളരെ അധികം വേണം എന്നില്ല. പക്ഷേ ഉള്ളത് ഭാഷയിലെ എല്ലാ സ്വര വൈവിധ്യങ്ങളേയും ഉൾക്കൊള്ളണം . ( ഉദാഹരണത്തിനു 1000 വാചകങ്ങളുടെ speech corpus ൽ നിന്നാണ് തെലുങ്ക് ഭാഷക്ക് വേണ്ടി ഉപയോഗിച്ചിട്ടുള്ളത് )
6. ഈ മേഖലയിൽ ചില റിസർച്ച് പേപ്പറുകള് ഒക്കെ കാണുന്നുണ്ട്. റിസർച്ച് പേപ്പറുകൾ പലതും paid സൈറ്റുകളിൽ ആണ്. eg: https://ieeexplore.ieee.org/document/7159332/authors
7. നിലവിൽ മലയാളത്തിനു ലഭ്യമായ ഡാറ്റാ സെറ്റുകൾ https://gitlab.com/smc/msc , https://openslr.org/63/ എന്നിവയാണ്.
- ഇതുകൂടാതെ blizzard Challenge 2015 ൽ ( http://www.cstr.ed.ac.uk/projects/blizzard/data.html ) മലയാളം ഡാറ്റ ഉണ്ട് എന്ന് പറയപ്പെടുന്നു. വാസ്തവം അറിയില്ല