Рубрика «Блог компании Open Data Science» - 6

Профессиональная деформация дата саентистов

2019-04-11 в 11:03, admin, рубрики: data mining, data science, Блог компании Open Data Science, Карьера в IT-индустрии, мир вокруг нас, мозг, Научно-популярное, рациональное мышление

Профессиональная деформация дата саентистов - 1

“Если в ваших руках молоток, все вокруг кажется гвоздями”

Как практикующие дата саентисты мы занимаемся анализом данных, их сбором, очисткой, обогащением, строим и обучаем модели окружающего мира, основываясь на данных, находим внутренние взаимосвязи и противоречия между данными, порою даже там, где их нет. Безусловно такое погружение не могло не сказаться на нашем видении и понимании мира. Профессиональная деформация присутствует в нашей профессии точно также, как и в любой другой, но что именно она нам приносит и как влияет на нашу жизнь?

Читать полностью »

Quick Draw Doodle Recognition: как подружить R, C++ и нейросетки

2019-03-25 в 16:09, admin, рубрики: c++, deep learning, image classification, kaggle, keras, monetdb, R, rcpp, Администрирование баз данных, Блог компании Open Data Science, машинное обучение, обработка изображений

Quick Draw Doodle Recognition: как подружить R, C++ и нейросетки - 1

Привет!

Осенью прошлого года на Kaggle проходил конкурс по классификации нарисованных от руки картинок Quick Draw Doodle Recognition, в котором среди прочих поучаствовала команда R-щиков в составе Артема Клевцова, Филиппа Управителева и Андрея Огурцова. Подробно описывать соревнование не будем, это уже сделано в недавней публикации.

С фармом медалек в этот раз не сложилось, но было получено много ценного опыта, поэтому о ряде наиболее интересных и полезных на Кагле и в повседневной работе вещей хотелось бы рассказать сообществу. Среди рассмотренных тем: нелегкая жизнь без OpenCV, парсинг JSON-ов (на этих примерах рассматривается интеграции кода на С++ в скрипты или пакеты на R посредством Rcpp), параметризация скриптов и докеризация итогового решения. Весь код из сообщения в пригодном для запуска виде доступен в репозитории.

Содержание:

Эффективная загрузка данных из CSV в базу MonetDB
Подготовка батчей
Итераторы для выгрузки батчей из БД
Выбор архитектуры модели
Параметризация скриптов
Докеризация скриптов
Использование нескольких GPU в облаке Google Cloud
Вместо заключения

Читать полностью »

Deep Learning — не только котики на мобилках или как мы производим дефектовку тележек локомотивов

2019-03-11 в 11:02, admin, рубрики: machine learning, python, Алгоритмы, Блог компании Open Data Science, машинное обучение, обработка изображений

Deep Learning — не только котики на мобилках или как мы производим дефектовку тележек локомотивов - 1

Буквально пару дней назад компания Aurorai передала в опытную эксплуатация систему распознавания дефектов и контроля состояния тележек для локомотивов Ермак. Задача нетривиальная и очень интересная, первым этапом которой было предложено оценить состояние тормозных колодок и ширины бандажа. Нам удалось решить задачу с точность до 1мм при скорости локоматива до 30 км/ч! Хочу отметить, что благодаря специфики можно было использовать “TTA (test-time augmentation)” – яркий пример kaggle-style хака из соревнований, который плохо ложится на прод и семантическую сегментацию на базе se_resnext50 encoder, которая даёт поразительный по точности результат в предсказании маски.
Читать полностью »

Знакомство с Neural ODE

2019-03-04 в 11:02, admin, рубрики: deep learning, neural networkds, neural ode, python, pytorch, recurrent neural network, resnet, Алгоритмы, Блог компании Open Data Science, математика, машинное обучение

Neural Ordinary Differential Equations

Значительная доля процессов описывается дифференциальными уравнениями, это могут быть эволюция физической системы во времени, медицинское состояние пациента, фундаментальные характеристики фондового рынка и т.д. Данные о таких процессах последовательны и непрерывны по своей природе, в том смысле, что наблюдения — это просто проявления какого-то непрерывно изменяющегося состояния.

Есть также и другой тип последовательных данных, это дискретные данные, например, данные NLP задач. Состояния в таких данных меняется дискретно: от одного символа или слова к другому.

Сейчас оба типа таких последовательных данных обычно обрабатываются рекуррентными сетями, несмотря на то, что они отличны по своей природе, и похоже, требуют различных подходов.

На последней NIPS-конференции была представлена одна очень интересная статья, которая может помочь решить эту проблему. Авторы предлагают подход, который они назвали Нейронные Обыкновенные Дифференциальные Уравнения (Neural ODE).

Здесь я постарался воспроизвести и кратко изложить результаты этой статьи, чтобы сделать знакомство с ее идеей чуть более простым. Мне кажется, что эта новая архитектура вполне может найти место в стандартном инструментарии дата-сайентиста наряду со сверточными и рекуррентными сетями.

Читать полностью »

Kaggle-подходы для CV в проде: внедрить нельзя выпилить

2019-02-20 в 11:25, admin, рубрики: kaggle, ods.ai, Блог компании Open Data Science, искусственный интеллект, Компьютерное зрение, машинное обучение, никто не читает теги, обработка изображений, управление проектами

Kaggle-подходы для CV в проде: внедрить нельзя выпилить - 1
Среди дата сайнтистов ведется немало холиваров, и один из них касается соревновательного машинного обучения. Действительно ли успехи на Kaggle показывают способности специалиста решать типичные рабочие задачи? Арсений arseny_info (R&D Team Lead @ WANNABY, Kaggle Master, далее в тексте A.) и Артур n01z3 (Head of Computer Vision @ X5 Retail Group, Kaggle Grandmaster, далее в тексте N.) отмасштабировали холивар на новый уровень: вместо очередного обсуждения в чате взяли микрофоны и устроили публичное обсуждение на митапе, по мотивам которого и родилась эта статья.
Читать полностью »

Открытый курс «Deep Learning на пальцах»

2019-02-05 в 8:05, admin, рубрики: computer vision, deep learning, machine learning, MOOC, nlp, opendatascience, reinforcement learning, Блог компании Open Data Science, машинное обучение, обработка изображений

После 18-го февраля начнется открытый и бесплатный курс "Deep Learning на пальцах".

Курс предназначен для того, чтобы разобраться с современным deep learning с нуля, и не требует знаний ни нейросетей, ни machine learning вообще. Лекции стримами на Youtube, задания на Питоне, обсуждения и помощь в лучших русскоязычных чат-сообществах — ODS.ai и ClosedCircles.

После него вы не станете экспертом, но поймете про что все это, сможете применять DL на практике и будете способны разбираться дальше сами. Ну, в лучшем случае.

Одновременно и в том же объеме курс будет читаться для магистрантов Новосибирского Государственного Университета, а также студентов CS центра Новосибирска.

Выглядеть объяснение на пальцах будет примерно так:

Открытый курс «Deep Learning на пальцах» - 1

Главная ссылка — dlcourse.ai. Подробности ниже.

Читать полностью »

Proof of Concept: целесообразность внутреннего ML проекта

2019-02-01 в 11:02, admin, рубрики: Анализ и проектирование систем, Блог компании Open Data Science, машинное обучение, управление разработкой, финансы в IT

Недавно в уютном чатике дата сатанистов подняли вопрос, как правильно "продавать" внутренние проекты по машинному обучению. Оказалось, что многие из нас весьма брезгливо относятся к экономическому обоснованию своей деятельности. Меж тем, чтобы провести минимальную оценку рентабельности проекта, никакого MBA не нужно — в небольшой статье (10 страниц текста, ке-ке-ке) я расскажу вам, что такое рентабельность инвестиций, как оценить её для внутреннего проекта, какую роль в этом играет Proof of Concept, и почему в реальной жизни всё может пойти не так. Делать мы всё это будем вокруг вымышленного проекта по автоматизации составления расписаний для колл-центра. Добро пожаловать под кат!

Я сделяль! Читать полностью »

Proof of Concept: Как проверить, что внедрение ML стоит свеч

Я сделяль! Читать полностью »

Анализ результатов 2018 Kaggle ML & DS Survey

2019-01-09 в 11:00, admin, рубрики: kaggle, machine learning, ods, python, visualization, Блог компании Open Data Science, визуализация данных, демография, Исследования и прогнозы в IT, машинное обучение

Анализ результатов 2018 Kaggle ML & DS Survey - 1

Kaggle — известная платформа для проведения соревнований по машинному обучению на которой количество зарегистрированных пользователей перевалило за 2.5 миллиона. В соревнованиях участвуют тысячи data scientist из разных стран, и Kaggle стал интересоваться тем, что из себя представляет аудитория. В октябре 2018 года был организован уже второй опрос и на него ответило 23859 людей из 147 стран.

В опросе было несколько десятков вопросов на самые разные темы: пол и возраст, образование и сфера работы, опыт и навыки, используемые языки программирования и софт и многое другое.
Но Kaggle — не просто площадка для соревнований, там также можно публиковать исследования данных или решения соревнований (они называются кернелы и похожи на Jupyter Notebook), поэтому датасет с результатами опроса был выложен в открытый доступ, и было организовано соревнование на лучшее исследование этих данных. Я тоже принимал участие и пусть денежный приз не получил, но мой кернел занял шестое место по количеству голосов. Я хотел бы поделиться результатами моего анализа.

Данных довольно много и их можно рассматривать с разных сторон. Меня заинтересовали различия между людьми из разных стран, поэтому большая часть исследования будет сравнивать людей из России (поскольку мы тут живём), Америки (как самая продвинутая страна в плане DS), Индии (как бедная страна с большим количеством DS) и других стран.

Большая часть графиков и анализа взята из моего кернела (желающие могут там увидеть код на Python) но есть и новые идеи.

Читать полностью »

Как мы не выиграли хакатон

2018-12-26 в 11:02, admin, рубрики: computer vision, GAN, Hackathon, Блог компании Open Data Science, искусственный интеллект, машинное обучение, обработка изображений, Хакатоны

С 30 ноября по 2 декабря в Москве прошел PicsArt AI hackathon c призовым фондом — 100,000$. Основной задачей было сделать AI решение для обработки фото или видео, которое можно будет использовать в приложение PicsArt. Коллега по работе(на тот момент) Артур Кузин предложил поучаствовать, заинтересовав меня идеей — анонимизация личных фотографий пользователей с сохранением деталей(мимики и т.д). Также Артур позвал Илью Кибардина — студента МФТИ (кому-то же нужно было писать код). Название родилось очень быстро: DeepAnon.

Это будет рассказ про наше решение, его ~~деградацию~~ развитие, хакатон, и как не надо подстраиваться под жюри.

Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «Блог компании Open Data Science» - 6

Профессиональная деформация дата саентистов

Quick Draw Doodle Recognition: как подружить R, C++ и нейросетки

Содержание:

Deep Learning — не только котики на мобилках или как мы производим дефектовку тележек локомотивов

Знакомство с Neural ODE

Neural Ordinary Differential Equations

Kaggle-подходы для CV в проде: внедрить нельзя выпилить

Открытый курс «Deep Learning на пальцах»

Proof of Concept: целесообразность внутреннего ML проекта

Proof of Concept: Как проверить, что внедрение ML стоит свеч

Анализ результатов 2018 Kaggle ML & DS Survey

Как мы не выиграли хакатон

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «Блог компании Open Data Science» - 6

Содержание:

Neural Ordinary Differential Equations

Новости

Актуальные темы

Архив