+/ Middle Data Scientist

Москва, Россия
Джуниор • Миддл
Аналитика, Data Science, Big Data • Data scientist • Исследователь • Data Science • Machine Learning • Python • R • SQL
Удаленная работа • Частичная занятость
Опыт работы от 1 года до 3х лет
от 150 000 до 200 000 ₽
Есть файл резюме (защищен)
О себе

На данный момент научный сотрудник.

Мои компетенции и опыт

До 2024 г. работал научным сотрудником / аналитиком данных в МГИМО. Участвовал в разработке информационно-аналитической системы МГИМО аналитика на базе платформы TALISMAN ИСП РАН.

Стек/инструменты:

- сбор данных/парсинг (МГИМО аналитика на базе платформы TALISMAN ИСП РАН);
- разметка данных (МГИМО аналитика на базе платформы TALISMAN ИСП РАН);
- анализ данных: разведочный (EDA), статистический, корреляционный, регрессионный, кластерный, сентимент анализ(

- Excel: фильтрация, сортировка, группировка, сводные таблицы, функции;
- SPSS: Descriptive statistics, ANOVA, Correlate, Compare Means;
- R: tidyverse, dplyr, psych, lmtest, glmnet;
- Python: pandas, numpy, scipy, math, random, sklearn, nltk, CatBoost, LightGBM);

- визуализация данных (
- R: sjPlot, ggplot2, GGally, factoextra;
- Python: matplotlib, plotly, WordCloud);

Обязанности:

- Сбор, обработка и анализ данных.
- Проверка статистических гипотез, построение линейных моделей.
- Написание научных статей, аналитических записок и отчетов.
- Представление результатов исследований на конференциях.
- Развитие информационно-аналитической системы МГИМО: подготовка ТЗ для ИСП РАН и предоставление обратной связи пользователя системы (UX).

Достижения:

- Собраны и зарегистрированы в ФИСП 2 базы данных (пример: нужен доступ к резюме ).
- Построил модель оценки тональности упоминаний стран в новостях, которая ускорила подготовку аналитических записок на 25%.
- Разработал регрессионную модель модель, описывающую воздействие социальных расходов развивающихся стран на компоненты их индексов человеческого капитала.
- Кластерный анализ поименных результатов голосования парламента выявил структуру данных и дал переменную, которая повысила точность прогностической модели.
- Построил модель мультиклассовой классификации, прогнозирующую поведение депутатов при голосованиях по законопроектам. (Точность модели на тестовой выборке roc-auc score micro-averaged OvR = нужен доступ к резюме для голосов "За")

 

В 2024 г. окончил курсы OTUS NLP (учебный опыт)

Стек/инструменты:

- парсинг (request, bs4, Selenium, ChromiumPage).
- предобработка текстов: спелчекинг, токенизация, лемматизация, эмбеддинги (RegEx, nltk, pyaspeller, pymorphy2, pymystem3, gensim, word2vec, fastText, transformers, natasha, spacy).
- тематическое моделирование корпуса текстов (gensim, LSA, LDA).
- извлечение информации: сентимент анализ, NER, извлечение отношений, связывание сущностей (transformers, natasha, spacy).
- файн-тюнинг трансформеров под задачи text classification, summarization (Bert, RuBert, RuRoBerta, T5, PyTorch, Hugging Face).
- вопросно-ответные системы (transformers, RAG QA, LLM, LangChain, PyPDFLoader, RetrievalQA). - промпт инжиниринг LLM (YandexGPT).
- чат-бот в Telegram (YandexGPT API, Yandex Cloud, Functions).
- суммаризация больших текстов (YandexGPT, LangChain, PyPDFLoader, Recursive Character Text Splitter, map-reduce, refine, PyPDF2).

Достижения:


- Было выполнено 5 учебных проектов, с ними можно ознакомится по ссылке ( нужен доступ к резюме ).
- В качестве выпускного проекта написал класс для автоматической суммаризации книг на основе YandexGPT и LangChain.

 

В 2023 г. окончил курсы Яндекс Практикум (Специалист по Data Science). 

Стек/инструменты:

  • EDA, предобработка данных (python, numpy, scipy, matplotlib)
  • факторий, корреляционный, кластерный анализ (pandas, numpy, matplotlib, seaborn, sklearn, statsmodels, pandas_profiling, phik)
  • моделирование, ML (pandas, numpy, statsmodels, patsy, sklearn, catboost, lightgbm, prophet)
  • основы NLP, предобработка текстов, сентимент анализ (pandas, numpy, sklearn, nltk, re, torch, transformers, wordcloud)
  • основы CV (pandas, numpy, keras)
  • SQL: срезы данных, условия, подзапросы, группировка, сортировка, агрегирующие функции, оконные функции (PySpark

Достижения:

 За 9 месяцев обучения было выполнено 12 проектов (подробнее: нужен доступ к резюме )



Есть файл резюме (защищен)


Интересные кандидаты