Data Scientist GenAI

Data Scientist GenAI

Python

Мы компания ЦРТ, расшифровываемся как Центр речевых технологий. Если сказать о ЦРТ кратко: российская, стабильная и прогрессивная компания, разработчик инновационных систем в сфере биометрии, высококачественной записи, обработки и анализа аудио-видео информации, синтеза и распознавания речи.

Существуем на рынке 35 лет, локационно наши офисы расположены в Москве, Санкт-Петербурге и Новосибирске.

Создали действительно нужные и значимые проекты для обеспечения безопасности людей! Также разработали мощные продукты для автоматизации работы бизнеса.

Мы заботимся о людях внутри компании, поддерживаем высокий уровень комфорта рабочих мест и разных бенефитов для сотрудников!

Создаём и поддерживаем многочисленные клубы по интересам, проводим весёлые и увлекательные праздники и занимаемся благотворительностью.

Сейчас у нас в компании открыты вакансии на позицию "Data Scientist".


Что нужно делать:

  • Разработка и развитие пайплайнов подготовки датасетов, тестирования и дообучения NLP и LLM моделей
  • Разработка и развитие пайплайнов инференса NLP и LLM моделей в продакшене
  • Изучение публикации, мониторинг новых перспективных подходов
  • Генерирование гипотез, постановка и проведение экспериментов, систематизация и визуализация результатов исследования

Требуется:

  • Опыт работы в области Data Science от 2 лет
  • Уверенное владение Python и основными библиотеками (NumPy, Pandas, scikit-learn)
  • Опыт работы с библиотеками PyTorch, Transformers
  • Понимание основ алгоритмов машинного обучения, статистической обработки данных, классических подходов NLP
  • Понимание архитектур LSTM, Transformer, GPT, BERT
  • Знание подходов автопромптинга, Few shot learning, Function call, Structured output
  • Опыт работы с векторным поиском и RAG
  • Знание SQL
  • Опыт работы с Docker, Git
  • Владение английским языком на уровне чтения технической документации

Будет плюсом:

  • Опыт обучения адаптеров LLM (LoRA, QLoRA)
  • Опыт оптимизации инференса и сервинга LLM
  • Опыт квантизации, дистилляции моделей
  • Опыт работы с графами знаний
  • Опыт работы с методами дообучения RLHF, DPO, KTO
  • Знание фреймворков инференса trtllm, vllm, tgi, lmdeploy
  • Понимание архитектур MoE, multitoken prediction

Откликнуться

Report Page