Deep Learning Engineer (STT & TTS Uzbek Language)
Вакансия в
InfinBANK
( www.infinbank.com )
Аккаунт зарегистрирован с публичной почты *@gmail.com, не email компании!
Опыт работы от 1 года до 3х лет
InfinBank в поисках специалиста который будет работать над системами автоматического распознавания речи (ASR) и синтеза речи (TTS). Ожидается участие в выборе моделей, в обучении моделей, и в настройке пайплайнов для inference в реальном времени.
Будущие задачи:
• Разработка и оптимизация моделей ASR и/или TTS (на базе open-source и кастомных решений)
• Исследование и внедрение моделей на базе Whisper, NeMo, Vosk, FastSpeech, Tacotron и др.
• Обработка аудиоданных: препроцессинг, очистка, аугментации
• Оптимизация latency, обеспечение real-time inference
• Интеграция моделей в сервисы (API, gRPC, FastAPI)
• Мониторинг качества (WER, MOS и др.), A/B тестирование
• Обучение/Дообучение Моделей на данных
Требования:
• Опыт работы с задачами ASR и/или TTS в ML-продуктах
• Уверенное знание Python, PyTorch / TensorFlow
• Опыт с open-source решениями (Whisper, ESPNet, Mozilla TTS, Coqui, etc.)
• Знание алгоритмов работы с аудио: FFT, MelSpectrogram, MFCC и т.п.
• Навыки оптимизации inference (ONNX, quantization, streaming)
• Понимание задач real-time распознавания
• Опыт от 2-3 года в ML или DS проектах с голосом
Будет плюсом:
• Опыт развертывания моделей в реальном времени (в т.ч. на GPU / edge)
• Опыт с NeMo, HuggingFace Audio, Transformers (TTS/ASR модули)
• Работа с облачными STT/TTS API и кастомизация поверх них
АКБ "InFinBank" открывает широкие профессиональные перспективы для своих сотрудников:
• Корпоративное обучение за счёт работодателя
• Гибкость формата работы
• Возможность влияния на развитие проектов одного из крупнейшего банка UZ с 4+ млн. пользователей
• Команда, где ценится экспертиза, инициативность и инженерная культура
• Возможность карьерного роста
• Доход выше среднего по локальному рынку труда и индивидуально обсуждаем с каждым отдельным специалистом