Data Scientist R, Econometrical researcher, RecSys, RL developer

Russia
Сеньор • Тимлид/Руководитель группы • Руководитель отдела/подразделения • Архитектор
Аналитика, Data Science, Big Data • Data scientist • Аналитик • Исследователь • R • Azure SQL
Релокация • Удаленная работа • Частичная занятость
Опыт работы более 5 лет
350 000 ₽
Есть файл резюме (защищен)
О себе

На данный момент DS RecSys.

Мои компетенции и опыт

Data Scientist - рекомендационные системы

RecSys DS - за время работы разработаны и доказаны легко внедряемые методы и подходы, не

требующие вложений в переделку состоявшейся IT архитектуры, для внедрения и улучшения

следующих функций:

**Поиск**

- главный поиск и подсказки

(оптимизация поиска, через угадывание вводимого запроса и вариаций)

**Рекомендаций**

(в рамках борьба со sparsity "разряженностью данных" внедряю подходы коллаб. фильтрации

и "обратного" метода , то есть подбора оптимального клиента исходя из совокупностей и свойств

товаров)

- Offline(классификации и рэнкинги) и online (при наличии мощностей) методы.

- похожие товары (определение схожести товаров по совокупности свойств или покупательских

активностей)

- с этим товаром покупали

- вам может понравиться (групповые и персональные предложения)

**Рэнкинг ассортимента**

- изобретение устойчивого способа определения популярности товаров всей матрицы, сотни

тысяч позиций (на основе данных которые массово логируются и есть в каждой компании) с

прекрасным преодолением проблемы "холодного старта"

- Разработка автоматизация поддержки ассортимента рекламных полок в зависимости от стоков

- Разработка вариаций оптимального микроассротимента для участия в промо акциях на

основе

эволюционного алгоритма оптимизации.

**Ассортиментная иерархия**

- Определение комплиментарных и субcтитутных позиций. (классификация... и иерархические

модели)

**Отзывы**

- Автоматизация работы с отзывами (определение эмоционального окраса отзыва

"позитив/негатив" и их градаций).

**Пользовательская аналитика**

- Кластеризация пользователей и описание на основе широко логируемого множества данных

(кластеризация в многомерном пространстве без потерь информации из-за снижения

размерностей) и последующее всеобъемлющее и точное описание аудитории с

визуализированной статистикой их предпочтений.

- Статистика и визуализация пользовательских интентов по поисковым запросам. (миллиарды

записей)

В рамках общего DS ML:

Extract - расчёт достаточности выборки, выгрузка данных из DWH на SQL или NoSQL.

Transform - Визуализация и тестирование данных на multicollinearity, heteroscedacity,

autoсorrelation, endogenity(omit/latent-variable,confounding) heterogeneity.

Dimensional Reduce(PCA, ICA, SVD,T-sne,U-map,SOM) или Feature extraction(нахождение

предикторов, RFE ,stepwise и др.),балансировка классов(over/undersamling, ввод синтетических).

Алгоритмы LM, RLM, Quantreg, GLM, SVM, survival, Genetic, NN, XGB, CatBoost, LightGBM, GBM,

RandomForest, C5.0, rpart, и тд.)

Настройка под bagging.

Настройка параметров в алгоритмах boosting'a.

Cross-validation и параметризация. Оптимизация гиперпараметров моделей с использованием

техник MC.

ML stacking в исследованиях потенциала точности.

ML ансамбли при выборе подходящей техники обучения.

Кластеризация(k-means, pam, KNN, HC, fuzzy clustering нужен доступ к резюме )

Исследовательские EDA и ML:

Смешанные модели дискриминантного анализа, EM и Bayes (MAP based).Исследование

истинных параметров при фикс. данных либо MLE || Bayes подтверждение адекватности

данных зафиксированным параметрам.

Энтропийные критерии в оценке аппроксимаций неизвестного распределения.

Оценка : коэф. тесты на точность (RSS,AIC,BIC- для количественных,ROC/AUC, Gini и пр.для

качественных моделей)

SOTA приёмы преодоления размерности в NLP.(similarity matrix, embeddings, LSH)

Тесты:

A/B,A/A,A/A/B тесты. расчет мощности, объема выборки.

Параметрические и не параметрические тесты гипотез.

На состоятельность, стат.значимость(проверка гипотез на наличие эффекта p-,F-,value,

критерии происхождения данных из согласующихся распределений и др.статистики)

Дизайн для улучшения качества тестов под CUPED и DiD.

Расчеты выборки для чувствительности устойчивых модификаций WMW и других

непараметрических тестов.

Propensity score - оценка предрасположенностей при исследованиях наличия эффекта

постфактум.

Маркетинговые:

uplift инкрементные доли прироста, Conjoint-связные события.

RFM - анализ, CJM исследования.

BTYD - моделирование.

Load - выгрузка результатов и визуализации в

EXCEL-like,SQL,HTML.(в том числе и интерактивные)

Shiny - сервер в перспективе.

Интересуюсь Reinforcement learning подходами в рамках online исполнения задач ML



Есть файл резюме (защищен)


Интересные кандидаты