Рубрика «Блог компании New Professions Lab»

На днях мы решили пообщаться c Дмитрием Бугайченко (dmitrybugaychenko), одним из наших преподавателей программы "Анализ данных на Scala", и обсудить с ним актуальные вопросы использования Scala в задачах Data Science и Data Engineering. Дмитрий является инженером-аналитиком в "Одноклассниках".

image

Читать полностью »

Мы продолжаем серию интервью с выпускниками Newprolab, в которой они рассказывают о своей истории перехода в data science. Истории разные и будут интересны тем, кто задумывается о смене карьерной траектории или о том, как новые знания могут помочь решать в том числе текущие задачи. Недавно встретились с Яной Чаруйской, Product Owner в МТС. Яна рассказала, как она пришла в большие данные, как профессионально росла, вспомнила о своем любимом проекте, подарившем ей помимо знаний и опыта, еще и друзей. Рассказала о рабочей атмосфере в МТС, о проектах, которые делает ее команда, о своей мечте, планах на будущее и пр.

— Яна, расскажи немного о себе и своем бэкграунде.

— Меня зовут Яна Чаруйская, я Product Owner в МТС. Интересуюсь областью Big Data и занимаюсь ею уже порядка двух лет. Если вкратце про мою историю: я закончила ВШЭ по направлению «Бизнес-информатика», училась 6 лет, затем год училась на психолога. Четыре года я проработала в IT-консалтинге, три из них занималась хранилищами данных, витринами данных, построением управленческой отчетности в основном для крупных банков. Последний год в консалтинге занималась машинным обучением и предиктивной аналитикой. Сейчас я работаю в МТС менеджером по продукту, у меня команда из 6 человек, и она растет, в ближайшее время нанимаю еще 7. В целом, компания тоже расширяется, сейчас в МТС более 150 Big Data специалистов и еще открыто множество вакансий (планируем увеличить штат практически в 2 раза!). Мы с командой разрабатываем несколько продуктов одновременно, в настоящий момент они на разных стадиях реализации: есть продукты, которые находятся в стадии R&D, какие-то — в стадии продуктивизации.
Читать полностью »

Мы продолжаем серию интервью с выпускниками Newprolab, в которой они рассказывают о своей истории перехода в область работы с большими данными. Истории разные и будут интересны тем, кто задумывается о смене карьерной траектории или о том, как новые знания могут помочь решать в том числе текущие задачи. Знакомьтесь — Олег Хомюк, Head of R&D в Lamoda.

Олег рассказал про свой карьерный путь, ценности, почему выбрал Lamoda, а не компанию в Долине, про текущие проекты, свою команду, про самый успешный и самый неудачный проекты, про отношение к data science и многое другое.

image
Читать полностью »

Интересно, как много программистов и разработчиков открыли для себя data science или data engineering, и строят успешную карьеру в области больших данных. Илья Маркин, Software engineer в Directual, — как раз один из разработчиков, перешедших в data engineering. Поговорили об опыте в роли тимлида, любимом инструменте в data engineering, Илья рассказал о конференциях и интересных профильных каналах джавистов, о Directual с пользовательской стороны и технической, о компьютерных играх и пр.

image

— Илья, спасибо, что нашел время встретиться. Поздравляю и с относительно недавним переходом в новую компанию, и с рождением дочки, хлопот и забот у тебя сейчас много. Сразу же первый вопрос: чем таким интересным тебе предложили заниматься в Directual, что ты ушел из DCA?

— Наверное, прежде надо рассказать, чем я в DCA занимался. В DCA (Data-Centric Alliance) я попал после прохождения программы «Специалист по большим данным». В тот момент я активно интересовался темой big data и понял, что это именно та область, в которой я хочу развиваться. Ведь там, где много данных, интересных инженерных проблем, которые необходимо решать, тоже предостаточно. Программа помогла мне довольно быстро погрузиться в экосистему мира биг дата, там я получил необходимые начальные знания о Hadoop, YARN, парадигме Map-Reduce, HBase, Spark, Flink, и многом другом, и о том, как это работает под высокой нагрузкой.
Читать полностью »

Привет! Data Science уже давно стала привлекательной областью, и все больше и больше людей хотят сменить свою профессиональную траекторию и начать работать с большими данными. Своей историей перехода в data science, советами для начинающих и продвинутых data scientist’ов поделился Кирилл Данилюк, Data Scientist компании RnD Lab. Кроме этого, поговорили о необходимых качествах data scientist’а, о разметке данных, отличие ML Engineer от data scientist, текущих проектах, крутых командах и людях, чья работа вдохновляет.

image

— Как ты пришел в data science? Чем тебя изначально привлекала область работы с данными?

— У меня довольно нетипичный бэкграунд: в дату я пришел из мира яндексового PM’ства (Project Management — прим. автора), когда меня позвали в ZeptoLab, пожалуй, лучшую российскую игровую компанию. Я сделал им прототип аналитической системы, дэшборды, фактически в первый раз начав писать код, который использовал кто-то другой. Код был ужасный, но это была реальная практика. Формально, конечно, я координировал работу двух аутсорсеров, но код они писали именно по этому прототипу. Я тогда еще не знал, что примерно это и есть data science, что я им и занимаюсь, пусть парт-тайм. Так что знакомство случилось довольно органически.

Уже тогда было видно, что идет целый сдвиг в парадигме разработки — вместо классического императивного программирования, когда ты жестко задаешь условия, наступает эра, когда машина сама с помощью данных сможет себя обучать. Видеть эту смену было невероятно круто, и очень хотелось попасть в число тех разработчиков новой эпохи.
Читать полностью »

Привет! Мы, наконец, дождались еще одной части серии материалов от выпускника наших программ “Специалист по большим данным” и “Deep Learning”, Кирилла Данилюка, об использовании популярных на сегодняшний день нейронных сетей Mask R-CNN как части системы для классификации изображений, а именно оценки качества приготовленного блюда по набору данных с сенсоров.

Рассмотрев в предыдущей статье игрушечный набор данных, состоящий из изображений дорожных знаков, теперь мы можем перейти к решению задачи, с которой я столкнулся в реальной жизни: «Возможно ли реализовать Deep Learning алгоритм, который мог бы отличить блюда высокого качества от плохих блюд по одной фотографии?». Вкратце, бизнес хотел вот это:

ConvNets. Создание прототипа проекта с помощью Mask R-CNN - 1

Что представляет бизнес, когда думает о машинном обучении:
Читать полностью »

Способность data scientist-а извлекать ценность из данных тесно связана с тем, насколько развита инфраструктура хранения и обработки данных в компании. Это значит, что аналитик должен не только уметь строить модели, но и обладать достаточными навыками в области data engineering, чтобы соответствовать потребностям компании и браться за все более амбициозные проекты.

При этом, несмотря на всю важность, образование в сфере data engineering продолжает оставаться весьма ограниченным. Мне повезло, поскольку я успел поработать со многими инженерами, которые терпеливо объясняли мне каждый аспект работы с данными, но не все обладают такой возможностью. Именно поэтому я решил написать эту статью — введение в data engineering, в которой я расскажу о том, что такое ETL, разнице между SQL- и JVM-ориентированными ETL, нормализации и партиционировании данных и, наконец, рассмотрим пример запроса в Airflow.

Введение в Data Engineering. ETL, схема «звезды» и Airflow - 1
Читать полностью »

Во время своей недавней поездки в Сан-Франциско я встретился с выпускниками нашей программы «Специалист по большим данным», эмигрировавшими в США — Евгением Шапиро (Airbnb) и Игорем Любимовым (ToyUp), а также с Артемом Родичевым (Replika), нашим партнером. Ребята рассказали массу интересных вещей: зачем Airbnb выкладывает свои проекты в open-source; как устроена Replika — нейросетевой чат-бот, способный стать твоим другом; про миссию стартапов Кремниевой Долины и предпринимательскую экосистему.

Стартапы, чат-боты, Кремниевая долина. Интервью с российскими разработчиками в Сан-Франциско - 1
Читать полностью »

Сегодня замечательный день (if you know what I mean), чтобы анонсировать нашу новую программу — Специалист по разметке данных.

На текущий момент в сфере искусственного интеллекта сложилась такая ситуация, при которой для обучения сильной нейронной сети нужны несколько компонентов: железо, софт и, непосредственно, данные. Много данных.

Железо, в общем-то, доступно каждому через облака. Да, оно может быть недешевым, но GPU-инстансы на EC2 вполне по карману большинству исследователей. Софт опенсорсный, большинство фреймворков можно скачать себе куда-то и работать с ними. Некоторые сложнее, некоторые проще. Но порог для входа вполне приемлемый. Остается только последний компонент — это данные. И вот здесь и возникает загвоздка.

Deep learning требует действительно больших данных: сотни тысяч–миллионы объектов. Если вы хотите заниматься, например, задачей классификации изображений, то вам, помимо самих данных, нужно передать нейронке информацию, к какому классу относится тот или иной объект. Если у вас задача связана еще и с сегментацией изображения, то получение хорошего датасета — это уже фантастически сложно. Представьте, что вам нужно на каждом изображении выделить границы каждого объекта.

Специалист по разметке данных - 1

В этом посте хочется сделать обзор тех инструментов (коммерческих и бесплатных), которые пытаются облегчить жизнь этих прекрасных людей — разметчиков данных.
Читать полностью »

Несколько дней назад мы публиковали обзор первого дня Data Science Weekend 2018, который прошел 2-3 марта на Мансарде Rambler&Co. Изучив практику использования алгоритмов машинного обучения, теперь перейдем к обзору второго дня конференции, в течении которого спикеры рассказывали об использовании различных инструментов дата инженера для нужд дата-платформ, ETL, сервисах подсказок при поиске и многом другом.

Обзор второго дня Data Science Weekend 2018. Data Engineering, ETL, поисковые сервисы и многое другое - 1
Читать полностью »