+/ Middle Data Scientist
Москва, РоссияДжуниор • Миддл
Удаленная работа • Частичная занятость
Опыт работы от 1 года до 3х летот 150 000 до 200 000 ₽
Опыт работы от 1 года до 3х летот 150 000 до 200 000 ₽
Есть файл резюме (защищен)
Короткая ссылка: gkjb.ru/gqpC
О себе
На данный момент научный сотрудник.
Мои компетенции и опыт
До 2024 г. работал научным сотрудником / аналитиком данных в МГИМО. Участвовал в разработке информационно-аналитической системы МГИМО аналитика на базе платформы TALISMAN ИСП РАН.
Стек/инструменты:
- сбор данных/парсинг (МГИМО аналитика на базе платформы TALISMAN ИСП РАН);
- разметка данных (МГИМО аналитика на базе платформы TALISMAN ИСП РАН);
- анализ данных: разведочный (EDA), статистический, корреляционный, регрессионный, кластерный, сентимент анализ(
- Excel: фильтрация, сортировка, группировка, сводные таблицы, функции;
- SPSS: Descriptive statistics, ANOVA, Correlate, Compare Means;
- R: tidyverse, dplyr, psych, lmtest, glmnet;
- Python: pandas, numpy, scipy, math, random, sklearn, nltk, CatBoost, LightGBM);
- визуализация данных (
- R: sjPlot, ggplot2, GGally, factoextra;
- Python: matplotlib, plotly, WordCloud);
Обязанности:
- Сбор, обработка и анализ данных.
- Проверка статистических гипотез, построение линейных моделей.
- Написание научных статей, аналитических записок и отчетов.
- Представление результатов исследований на конференциях.
- Развитие информационно-аналитической системы МГИМО: подготовка ТЗ для ИСП РАН и предоставление обратной связи пользователя системы (UX).
Достижения:
- Собраны и зарегистрированы в ФИСП 2 базы данных (пример: нужен доступ к резюме ).
- Построил модель оценки тональности упоминаний стран в новостях, которая ускорила подготовку аналитических записок на 25%.
- Разработал регрессионную модель модель, описывающую воздействие социальных расходов развивающихся стран на компоненты их индексов человеческого капитала.
- Кластерный анализ поименных результатов голосования парламента выявил структуру данных и дал переменную, которая повысила точность прогностической модели.
- Построил модель мультиклассовой классификации, прогнозирующую поведение депутатов при голосованиях по законопроектам. (Точность модели на тестовой выборке roc-auc score micro-averaged OvR = нужен доступ к резюме для голосов "За")
В 2024 г. окончил курсы OTUS NLP (учебный опыт)
Стек/инструменты:
- парсинг (request, bs4, Selenium, ChromiumPage).
- предобработка текстов: спелчекинг, токенизация, лемматизация, эмбеддинги (RegEx, nltk, pyaspeller, pymorphy2, pymystem3, gensim, word2vec, fastText, transformers, natasha, spacy).
- тематическое моделирование корпуса текстов (gensim, LSA, LDA).
- извлечение информации: сентимент анализ, NER, извлечение отношений, связывание сущностей (transformers, natasha, spacy).
- файн-тюнинг трансформеров под задачи text classification, summarization (Bert, RuBert, RuRoBerta, T5, PyTorch, Hugging Face).
- вопросно-ответные системы (transformers, RAG QA, LLM, LangChain, PyPDFLoader, RetrievalQA). - промпт инжиниринг LLM (YandexGPT).
- чат-бот в Telegram (YandexGPT API, Yandex Cloud, Functions).
- суммаризация больших текстов (YandexGPT, LangChain, PyPDFLoader, Recursive Character Text Splitter, map-reduce, refine, PyPDF2).
Достижения:
- Было выполнено 5 учебных проектов, с ними можно ознакомится по ссылке ( нужен доступ к резюме ).
- В качестве выпускного проекта написал класс для автоматической суммаризации книг на основе YandexGPT и LangChain.
В 2023 г. окончил курсы Яндекс Практикум (Специалист по Data Science).
Стек/инструменты:
- EDA, предобработка данных (python, numpy, scipy, matplotlib)
- факторий, корреляционный, кластерный анализ (pandas, numpy, matplotlib, seaborn, sklearn, statsmodels, pandas_profiling, phik)
- моделирование, ML (pandas, numpy, statsmodels, patsy, sklearn, catboost, lightgbm, prophet)
- основы NLP, предобработка текстов, сентимент анализ (pandas, numpy, sklearn, nltk, re, torch, transformers, wordcloud)
- основы CV (pandas, numpy, keras)
- SQL: срезы данных, условия, подзапросы, группировка, сортировка, агрегирующие функции, оконные функции (PySpark)
Достижения:
За 9 месяцев обучения было выполнено 12 проектов (подробнее: нужен доступ к резюме )
Есть файл резюме (защищен)
Интересные кандидаты
- врremote parttime office
- ад
аналитик данных, data scientist
remote parttime office - ТПremote
- Ссrelocate remote parttime office
- Са
Стажёр аналитик данных Data Scientist
remote parttime office - Са
Стажер/Младший аналитик данных Data Analyst
remote parttime - СА
Стажер Аналитик данных / Data Analyst Intern
remote parttime office - Спremote parttime office
- Спrelocate remote parttime office
- СDremote parttime office
Мы используем куки, потому что без кук наш сайт не работал бы, другие сайты не работали бы, да и вообще весь
интернет не работал бы