Data Scientist
PythonDATA SCIENTIST (NLP ENGINEER)
Мы ищем высококвалифицированного специалиста по машинному обучению с опытом в обработке естественного языка (NLP), распознавании речи (ASR) и больших языковых моделях (LLMs). В этой роли вам предстоит работать с моделями распознавания и синтеза речи (ASR/TTS), а также с многоязычными языковыми моделями для создания передовых AI-решений для языков с ограниченными ресурсами, таких как узбекский и каракалпакский.
Обязанности:
Разработка, проектирование и оптимизация ML-пайплайнов для STT, TTS и LLM-решений.
Дообучение моделей распознавания речи и языковых моделей для редких языков и диалектов.
Взаимодействие с командой разметки данных для обеспечения качества данных для обучения моделей.
Конвертация ML-моделей и прототипов в готовые к продакшену пайплайны.
Оптимизация производительности моделей по точности, скорости и эффективности.
Требования:
- 2+ года опыта работы в ML или MLE в продакшен-проектах.
- Подтвержденный опыт работы с STT, TTS или NLP-проектами.
- Глубокие знания LLMs и дообучения моделей для редких языков.
- Уверенное владение Python и ML-библиотеками (TensorFlow, PyTorch, Hugging Face, Transformers и др.).
- Опыт интеграции ML-моделей в сложные, управляемые данными системы.
- Опыт управления процессами аннотирования данных и обеспечения их качества.
- Опыт работы с ASR-фреймворками (Wav2vec, Whisper и др.).
- Знание TTS-фреймворков (VITS, XTTS, Coqui TTS, Tacotron и др.).
- Опыт в многоязычном NLP (дообучение многоязычных моделей).
Формат работы: в офисе, возможен гибридный.
Зарплата: от $1000 до $2000
Откликнуться
