Data Scientist GenAI
PythonМы компания ЦРТ, расшифровываемся как Центр речевых технологий. Если сказать о ЦРТ кратко: российская, стабильная и прогрессивная компания, разработчик инновационных систем в сфере биометрии, высококачественной записи, обработки и анализа аудио-видео информации, синтеза и распознавания речи.
Существуем на рынке 35 лет, локационно наши офисы расположены в Москве, Санкт-Петербурге и Новосибирске.
Создали действительно нужные и значимые проекты для обеспечения безопасности людей! Также разработали мощные продукты для автоматизации работы бизнеса.
Мы заботимся о людях внутри компании, поддерживаем высокий уровень комфорта рабочих мест и разных бенефитов для сотрудников!
Создаём и поддерживаем многочисленные клубы по интересам, проводим весёлые и увлекательные праздники и занимаемся благотворительностью.
Сейчас у нас в компании открыты вакансии на позицию "Data Scientist".
Что нужно делать:
- Разработка и развитие пайплайнов подготовки датасетов, тестирования и дообучения NLP и LLM моделей
- Разработка и развитие пайплайнов инференса NLP и LLM моделей в продакшене
- Изучение публикации, мониторинг новых перспективных подходов
- Генерирование гипотез, постановка и проведение экспериментов, систематизация и визуализация результатов исследования
Требуется:
- Опыт работы в области Data Science от 2 лет
- Уверенное владение Python и основными библиотеками (NumPy, Pandas, scikit-learn)
- Опыт работы с библиотеками PyTorch, Transformers
- Понимание основ алгоритмов машинного обучения, статистической обработки данных, классических подходов NLP
- Понимание архитектур LSTM, Transformer, GPT, BERT
- Знание подходов автопромптинга, Few shot learning, Function call, Structured output
- Опыт работы с векторным поиском и RAG
- Знание SQL
- Опыт работы с Docker, Git
- Владение английским языком на уровне чтения технической документации
Будет плюсом:
- Опыт обучения адаптеров LLM (LoRA, QLoRA)
- Опыт оптимизации инференса и сервинга LLM
- Опыт квантизации, дистилляции моделей
- Опыт работы с графами знаний
- Опыт работы с методами дообучения RLHF, DPO, KTO
- Знание фреймворков инференса trtllm, vllm, tgi, lmdeploy
- Понимание архитектур MoE, multitoken prediction
Откликнуться
