ML DevOps Engineer
Прямой работодатель Vallettasoftware Software Development ( vallettasoftware.com )
Опыт работы от 3 до 5 летот 5 000 до 5 500 $
Position: ML DevOps
Level: Senior
Experience: 3+ (not freelance)
Working time zone: GMT+4
Location: Remote
Employment: Fulltime
Joining Valletta Software Development means:
🌍 A Global, Thriving Team
Join 100+ specialists from 20+ countries, united by a passion for outstanding IT solutions.
🚀Diverse projects: Fintech, MedTech, AI/ML, e-commerce, and more. Switch teams or industries to broaden your skills.
💡 Support at Every Step Client interview prep: We train you to succeed + give actionable feedback.
✔ ️ Strategic stability: Well-structured processes, strong management, and long- term vision.
✔️ Core values: Honesty, flexibility, innovation, and a people-first approach.
💸 Regular salary review based on your personal results.
✨ Paid rest days and sick leaves.
Responsibilities:
● Разработка и поддержка end-to-end ML pipeline (обучение, валидация, деплой, мониторинг, ретрейн)
● Построение и эксплуатация CI/CD для моделей (автоматизация тестирования, упаковки и выката)
● Проектирование LLM/RAG контуров, управление контекстом,
эмбеддинг-дашборды(дашборды качества/динамики эмбедингов), перегенерация индексов, тестирование промптов и проверок фактов(Grounding/citation)
● Настройка MLOps-платформы: experiment tracking, model registry, feature store, monitoring)
● Управление инфраструктурой и окружениями для ML (GPU/CPU-пулы, Kubernetes/EKS, Docker)
● Реализация стратегий выкатки: canary, shadow, A/B-тесты
● Обеспечение мониторинга качества моделей (accuracy drift, data drift, PSI, SLO/SLA)
● Управление артефактами (данные, модели, метаданные, версии)
● Обеспечение требований безопасности (шифрование, контроль доступа, аудит, работа в
приватных VPC)
● Интеграция ML моделей в backend-сервисы (API, gRPC, REST)
● Совместная работа с Data Engineering и Data Science командами
● Документирование процессов и best practices для ML-инфраструктуры
● Управление стоимостью и масштабированием ML-инфраструктуры в AWS
● Data governance: политики хранения (S3 lifecycle), контроль версий датасетов (DVC/LakeFS), data lineage (OpenLineage), quality-gates в CI/CD
Requirements for the candidate:
● ML Ops инструменты
● MLflow или Kubeflow (эксперименты, registry)
● Feature Store (Feast, Tecton или кастомный)
● Airflow, Prefect или Kubeflow Pipelines (оркестрация ML workflow)
Инфраструктура и контейнеризация
● Docker, Kubernetes/EKS
● AWS S3, ECR, EKS, IAM, KMS, VPC
● Terraform или Pulumi (IaC)
● GitHub Actions, GitLab CI или Jenkins (CI/CD)
● Автоскейлинг, AWS Batch/Step Functions для офлайн-обработок и ретрейна
● Мониторинг и наблюдаемость
● Prometheus, Grafana, CloudWatch, CloudTrail
● Метрики качества моделей (AUC, F1, Brier, logloss)
● Метрики стабильности (drift detection, PSI)
● LLM-специфичные метрики: tokens/sec, context length, prompt/response size, grounding rate, citation coverage, hallucination rate.
Желательно
● Опыт с AWS SageMaker или эквивалентными инструментами
● Опыт с OpenLineage или Marquez
● Опыт в настройке A/B-тестов и метрик эффекта (CUPED, guardrail metrics)
● Знание GovCloud ограничений и практик комплаенса в госсекторе
● Опыт работы с мультимодальными пайплайнами (OCR/ASR/NER) в продакшене
● Опыт работы с LLMOps: управление версиями промптов/инструкций, политики
безопасности вывода, валидация структурированных ответов (JSON-schema/Typed-decoding)
● Опыт работы с Neptune/Neo4j и OpenSearch/pgvector/Milvus для гибридного поиска и аудита поиска
Ключевые компетенции
● Построение стабильной и безопасной ML-инфраструктуры
● Автоматизация полного цикла ML: от данных до inference-сервисов
● Контроль качества и устойчивости моделей в продакшне
● Эффективная работа в связке с Data Science и Data Engineering командами
When responding, please include the following information in your cover letter:
Your telegram username
Your salary expectations
Thank you!