Рубрика «data mining» - 26

Мы продолжаем серию интервью с выпускниками Newprolab, в которой они рассказывают о своей истории перехода в data science. Истории разные и будут интересны тем, кто задумывается о смене карьерной траектории или о том, как новые знания могут помочь решать в том числе текущие задачи. Недавно встретились с Яной Чаруйской, Product Owner в МТС. Яна рассказала, как она пришла в большие данные, как профессионально росла, вспомнила о своем любимом проекте, подарившем ей помимо знаний и опыта, еще и друзей. Рассказала о рабочей атмосфере в МТС, о проектах, которые делает ее команда, о своей мечте, планах на будущее и пр.

— Яна, расскажи немного о себе и своем бэкграунде.

— Меня зовут Яна Чаруйская, я Product Owner в МТС. Интересуюсь областью Big Data и занимаюсь ею уже порядка двух лет. Если вкратце про мою историю: я закончила ВШЭ по направлению «Бизнес-информатика», училась 6 лет, затем год училась на психолога. Четыре года я проработала в IT-консалтинге, три из них занималась хранилищами данных, витринами данных, построением управленческой отчетности в основном для крупных банков. Последний год в консалтинге занималась машинным обучением и предиктивной аналитикой. Сейчас я работаю в МТС менеджером по продукту, у меня команда из 6 человек, и она растет, в ближайшее время нанимаю еще 7. В целом, компания тоже расширяется, сейчас в МТС более 150 Big Data специалистов и еще открыто множество вакансий (планируем увеличить штат практически в 2 раза!). Мы с командой разрабатываем несколько продуктов одновременно, в настоящий момент они на разных стадиях реализации: есть продукты, которые находятся в стадии R&D, какие-то — в стадии продуктивизации.
Читать полностью »

Миграция данных в кровавом энтерпрайзе: что анализировать, чтобы не завалить проект - 1

Типичный проект системной интеграции для нас выглядит так: у заказчика вагон систем для учета клиентов, задача — собрать клиентские карточки в единую базу. И не только собрать, а еще очистить от дублей и мусора. Чтобы на выходе получились чистые, структурированные, полные карточки клиентов.

Для начинающих поясню, что миграция идет по такой схеме: источники → преобразование данных (отвечает ETL или шина) → приемник.

На одном проекте мы потеряли три месяца просто потому, что сторонняя команда интеграторов не изучала данные в системах-источниках. Самое обидное, что этого можно было избежать.
Читать полностью »

Представьте, что вам надо вызвать такси. Вы открываете приложение, видите, что машина приедет минут через семь, нажимаете «Заказать» — и… автомобиль в 15 минутах от вас, если вообще найден. Согласитесь, неприятно?

Под катом поговорим о том, как методы машинного обучения помогают Яндекс.Такси более качественно прогнозировать ETA (Estimated Time of Arrival — ожидаемое время прибытия).

Чем поможет машинное обучение, когда каждая минута на счету. Прогнозируем ETA в Яндекс.Такси - 1
Читать полностью »

Представьте, что вам надо вызвать такси. Вы открываете приложение, видите, что машина приедет минут через семь, нажимаете «Заказать» — и… автомобиль в 15 минутах от вас, если вообще найден. Согласитесь, неприятно?

Под катом поговорим о том, как методы машинного обучения помогают Яндекс.Такси более качественно прогнозировать ETA (Estimated Time of Arrival — ожидаемое время прибытия).

Как Яндекс.Такси прогнозирует время подачи автомобиля с помощью машинного обучения - 1
Читать полностью »

Мы продолжаем серию интервью с выпускниками Newprolab, в которой они рассказывают о своей истории перехода в область работы с большими данными. Истории разные и будут интересны тем, кто задумывается о смене карьерной траектории или о том, как новые знания могут помочь решать в том числе текущие задачи. Знакомьтесь — Олег Хомюк, Head of R&D в Lamoda.

Олег рассказал про свой карьерный путь, ценности, почему выбрал Lamoda, а не компанию в Долине, про текущие проекты, свою команду, про самый успешный и самый неудачный проекты, про отношение к data science и многое другое.

image
Читать полностью »

Всем добрый день!

И у нас снова открыт новый поток на доработанный курса «Data scientist»: ещё один отличный преподаватель, чуть доработанная исходя из обновлений программа. Ну и как обычно интересные открытые уроки и подборки интересных материалов. Сегодня мы начнём разбор seq2seq моделей от Tensor Flow.

Поехали.

Как уже обсуждалось в туториале RNN (рекомендуем ознакомиться с ним перед чтением этой статьи), рекуррентные нейронные сети можно научить моделировать язык. И возникает интересный вопрос: возможно ли обучение сети на определенных данных для генерации осмысленного ответа? Например, можем ли мы научить нейронную сеть переводить с английского языка на французский? Оказывается, что можем.

Это руководство покажет вам, как создать и обучить такую систему end-to-end. Скопируйте основной репозиторий Tensor Flow и репозиторий моделей TensorFlow с GitHub. Затем, можно начать с запуска программы перевода:

cd models/tutorials/rnn/translate
python translate.py --data_dir [your_data_directory]

Модели Sequence-to-Sequence Ч.1 - 1Читать полностью »

Data Science проект от исследования до внедрения на примере Говорящей шляпы - 1

Месяц назад Лента запустила конкурс, в рамках которого та самая Говорящая Шляпа из Гарри Поттера определяет предоставивших доступ к социальной сети участников на один из четырех факультетов. Конкурс сделан неплохо, звучащие по-разному имена определяются на разные факультеты, причем схожие английские и русские имена и фамилии распределяются схожим образом. Не знаю, зависит ли распределение только от имен и фамилий, и учитывается ли как-то количество друзей или другие факторы, но этот конкурс подсказал идею этой статьи: попробовать с нуля обучить классификатор, который позволит распределять пользователей на различные факультеты.

Читать полностью »

Data Engineering и не только: видеозаписи и слайды с митапа - 1

15 ноября в офисе Wrike прошел митап «Data Engineering и не только». Поговорили об инженерах данных как об отдельной специальности, наметили отличия процессов в софтверном и дата-инжениринге, посмотрели, как можно писать тесты для Apache Spark, и чуть-чуть коснулись особенностей семантических технологий.

Для тех, кто не смог прийти, мы публикуем видеозаписи докладов.
Читать полностью »

В предыдущих статьях (I, II, III) я подробно рассказывал о разработке сервиса для поиска выгодных б/у автомобилей в РФ.
Поездив продолжительное время на различных б/у машинах, я задумался о приобретении нового авто и решил этот вопрос подробно изучить. В крупных городах существует огромное количество официальных дилеров, по крайней мере для популярных брендов. Дилеры отличаются друг от друга перечнем автомобилей в наличии и размером предоставляемых скидок на различные модели. В поисках интересующих меня автомобилей мне не хотелось обзванивать и посещать всех дилеров подряд. На мой взгляд, разумно было предварительно отобрать по априорной информации только тех дилеров, которые предоставляют самые низкие цены на интересующие меня модели и комплектации. Тот факт, что при личном общении, если уметь торговаться, размер скидки может существенно возрасти никак не противоречит цели в первую очередь посетить дилеров, предоставляющих наиболее выгодные цены на рынке.
Я собрал данные о новых автомобилях, проанализировал, оформил в виде сервиса, и под конец года, когда скидки у дилеров максимальны, решил поделиться им с вами.

Как программист новую машину подбирал - 1

Читать полностью »

В этом году я побывал на конференции Data Crunch в Будапеште посвященной аналитике данных и Data Engeneering. На эту конференцию приглашают спикеров из Linkedin, Uber, Github и множества компаний "второго эшелона", где люди делятся своим опытом или же рассказывают об инструментах по работе с данными. Ну и что мне так же интересно — это пообщаться с участниками конференции по понять, насколько наша российская действительность отличается от Европы и США.

Из того, чтобы я отметил это:

  1. Full Stack Data Sceince — 2 доклада были посвящены примерно той же теме, что я писал раньше. Сделайте DS/DA человеком, кто может решать задачи от начала и до конца. Не делите работу по "функциям", а делите DS по "топикам". Т.е. работа с данными это не разделение на части между теми, кто готовит, обрабатывает, анализирует, строит модели и визуализирует, а это разделение "топиков" между специалистами, кто может сделать все полностью.
  2. From zero to hero — ребята рассказывали по то, как строили свой отдел DS с нуля. В целом как обычно, обычные здравые идеи работают:Читать полностью »

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js