Рубрика «data science» - 17

В середине октября в рамках проходящего в Томске молодежного форума U-NOVUS мы провели воркшоп, посвященный Data Science.

Томск в принципе заслуженно пользуется славой города ученых и студентов, все-таки 15 НИИ, 9 вузов и несколько бизнес-инкубаторов — это серьезно. Поэтому мы решили пригласить к участию как студентов, так и экспертов из различных компаний.

U-NOVUS 2018: воркшоп - 1

Кейс мы давали из жизни (читай — с производства), это была задача по продвинутой аналитике на нефтехимическом предприятии.

О том, как это было — под катом.
Читать полностью »

Мы продолжаем серию интервью с выпускниками Newprolab, в которой они рассказывают о своей истории перехода в data science. Истории разные и будут интересны тем, кто задумывается о смене карьерной траектории или о том, как новые знания могут помочь решать в том числе текущие задачи. Недавно встретились с Яной Чаруйской, Product Owner в МТС. Яна рассказала, как она пришла в большие данные, как профессионально росла, вспомнила о своем любимом проекте, подарившем ей помимо знаний и опыта, еще и друзей. Рассказала о рабочей атмосфере в МТС, о проектах, которые делает ее команда, о своей мечте, планах на будущее и пр.

— Яна, расскажи немного о себе и своем бэкграунде.

— Меня зовут Яна Чаруйская, я Product Owner в МТС. Интересуюсь областью Big Data и занимаюсь ею уже порядка двух лет. Если вкратце про мою историю: я закончила ВШЭ по направлению «Бизнес-информатика», училась 6 лет, затем год училась на психолога. Четыре года я проработала в IT-консалтинге, три из них занималась хранилищами данных, витринами данных, построением управленческой отчетности в основном для крупных банков. Последний год в консалтинге занималась машинным обучением и предиктивной аналитикой. Сейчас я работаю в МТС менеджером по продукту, у меня команда из 6 человек, и она растет, в ближайшее время нанимаю еще 7. В целом, компания тоже расширяется, сейчас в МТС более 150 Big Data специалистов и еще открыто множество вакансий (планируем увеличить штат практически в 2 раза!). Мы с командой разрабатываем несколько продуктов одновременно, в настоящий момент они на разных стадиях реализации: есть продукты, которые находятся в стадии R&D, какие-то — в стадии продуктивизации.
Читать полностью »

Достижения в области искусственного интеллекта у всех на слуху, объемы рынка оцениваются в 1,2 трлн долл. США к концу 2018 года. В пятилетней перспективе большинство специалистов говорит об увеличении рынка чуть ли не на порядок.

И вот совсем лаконичный факт — количество патентов только по точному запросу в наименовании «artificial intelligence»/искусственный интеллект, т.е. даже не принимая в расчет сходные термины «neural network»/нейронные сети, «machine learning»/машинное обучение и пр., по состоянию на начало ноября 2018 г.:

  • Google (Alphabet) — 1 430 патентов,
  • Apple — 592 патента,
  • Китай всего — более 7 000 патентов,
  • Всего в мире — более 100 тыс. патентов (эти и аналогичные данные можно увидеть и проанализировать на открытом ресурсе Google Patent или других агрегаторах).

И, внимание(!!!):

  • Россия – 17 патентов (база данных Роспатента, также есть в открытом доступе), содержащих в наименовании термин «искусственный интеллект» и 657 патентов (это с учетом незавершенных и отмененных), содержащих термин «искусственный интеллект» в описании.

Искусственный интеллект. Интеллектуальная собственность. Danger - 1

Читать полностью »

Представьте, что вам надо вызвать такси. Вы открываете приложение, видите, что машина приедет минут через семь, нажимаете «Заказать» — и… автомобиль в 15 минутах от вас, если вообще найден. Согласитесь, неприятно?

Под катом поговорим о том, как методы машинного обучения помогают Яндекс.Такси более качественно прогнозировать ETA (Estimated Time of Arrival — ожидаемое время прибытия).

Чем поможет машинное обучение, когда каждая минута на счету. Прогнозируем ETA в Яндекс.Такси - 1
Читать полностью »

Представьте, что вам надо вызвать такси. Вы открываете приложение, видите, что машина приедет минут через семь, нажимаете «Заказать» — и… автомобиль в 15 минутах от вас, если вообще найден. Согласитесь, неприятно?

Под катом поговорим о том, как методы машинного обучения помогают Яндекс.Такси более качественно прогнозировать ETA (Estimated Time of Arrival — ожидаемое время прибытия).

Как Яндекс.Такси прогнозирует время подачи автомобиля с помощью машинного обучения - 1
Читать полностью »

Мы продолжаем серию интервью с выпускниками Newprolab, в которой они рассказывают о своей истории перехода в область работы с большими данными. Истории разные и будут интересны тем, кто задумывается о смене карьерной траектории или о том, как новые знания могут помочь решать в том числе текущие задачи. Знакомьтесь — Олег Хомюк, Head of R&D в Lamoda.

Олег рассказал про свой карьерный путь, ценности, почему выбрал Lamoda, а не компанию в Долине, про текущие проекты, свою команду, про самый успешный и самый неудачный проекты, про отношение к data science и многое другое.

image
Читать полностью »

Data Science проект от исследования до внедрения на примере Говорящей шляпы - 1

Месяц назад Лента запустила конкурс, в рамках которого та самая Говорящая Шляпа из Гарри Поттера определяет предоставивших доступ к социальной сети участников на один из четырех факультетов. Конкурс сделан неплохо, звучащие по-разному имена определяются на разные факультеты, причем схожие английские и русские имена и фамилии распределяются схожим образом. Не знаю, зависит ли распределение только от имен и фамилий, и учитывается ли как-то количество друзей или другие факторы, но этот конкурс подсказал идею этой статьи: попробовать с нуля обучить классификатор, который позволит распределять пользователей на различные факультеты.

Читать полностью »

Data Engineering и не только: видеозаписи и слайды с митапа - 1

15 ноября в офисе Wrike прошел митап «Data Engineering и не только». Поговорили об инженерах данных как об отдельной специальности, наметили отличия процессов в софтверном и дата-инжениринге, посмотрели, как можно писать тесты для Apache Spark, и чуть-чуть коснулись особенностей семантических технологий.

Для тех, кто не смог прийти, мы публикуем видеозаписи докладов.
Читать полностью »

В этом году я побывал на конференции Data Crunch в Будапеште посвященной аналитике данных и Data Engeneering. На эту конференцию приглашают спикеров из Linkedin, Uber, Github и множества компаний "второго эшелона", где люди делятся своим опытом или же рассказывают об инструментах по работе с данными. Ну и что мне так же интересно — это пообщаться с участниками конференции по понять, насколько наша российская действительность отличается от Европы и США.

Из того, чтобы я отметил это:

  1. Full Stack Data Sceince — 2 доклада были посвящены примерно той же теме, что я писал раньше. Сделайте DS/DA человеком, кто может решать задачи от начала и до конца. Не делите работу по "функциям", а делите DS по "топикам". Т.е. работа с данными это не разделение на части между теми, кто готовит, обрабатывает, анализирует, строит модели и визуализирует, а это разделение "топиков" между специалистами, кто может сделать все полностью.
  2. From zero to hero — ребята рассказывали по то, как строили свой отдел DS с нуля. В целом как обычно, обычные здравые идеи работают:Читать полностью »

Есть такой популярный класс задач, в которых требуется проводить достаточно глубокий анализ всего объема цепочек работ, регистрируемых какой-либо информационной системой (ИС). В качестве ИС может быть документооборот, сервис деск, багтрекер, электронный журнал, складской учет и пр. Нюансы проявляются в моделях данных, API, объемах данных и иных аспектах, но принципы решения таких задач примерно одинаковы. И грабли, на которые можно наступить, тоже во многом похожи.

Для решения подобного класса задач R подходит как нельзя лучше. Но, чтобы не разводить разочарованно руками, что R может и хорош, но о-о-очень медленный, важно обращать внимание на производительность выбираемых методов обработки данных.

Является продолжением предыдущих публикаций.Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js