Рубрика «data mining» - 18

Галерея лучших блокнотов по ML и Data Science

2019-07-16 в 21:32, admin, рубрики: big data, data mining, data science, jupyter, ml, python, машинное обучение

Привет, читатель.

Представляю пост который идёт строго (!) в закладки и передаётся коллегам. Он с подборкой примечательных файлов формата Jupyter Notebook по Machine Learning, Data Science и другим сферам, связанным с анализом данных. Эти блокноты Jupyter, будут наиболее полезны специалистам по анализу данных — как обучающимся новичкам, так и практикующим профи.

Итак, приступим.

Вводные курсы в Jupyter Notebook

Читать полностью »

Собаку съел на нейронных сетях

2019-07-16 в 15:17, admin, рубрики: data mining

Вот видишь ты на улице пёсика. Ты всегда видишь на улице пёсиков. Вот кто-то вообще их не замечает и не имеет хлопот, вот нет этих душевных терзаний, и вообще можно считать, что им на улице норм. Но ты же! И заметил, и глаза у тебя на мокром месте, такой думаешь: «пёсик. уаа, такой миленький, взял бы но не могу. Но вот прям точно, но никак». И пошёл такой дальше. Но пофотал его, погладил.

Вот таким добрым малым нужно кидать нам в систему геопозицию животинки на данный момент и пару фото.
Читать полностью »

Как мы обучили нейронную сеть классифицировать шурупы

2019-07-16 в 12:00, admin, рубрики: computer vision, data mining, machine learning, u-net, usedataconf, Алгоритмы, Блог компании Конференции Олега Бунина (Онтико), классификация, машинное обучение, обработка изображений, распознавание образов

Нейронная сеть может опознать котика на фотографии, найти диван, улучшить видеозапись, нарисовать картинку из щенят или простого наброска. К этому мы уже привыкли. Новости о нейросетях появляются почти каждый день и стали обыденными. Компании Grid Dynamics поставили задачу не обыденную, а сложную — научить нейросеть находить специфический шуруп или болт в огромном каталоге интернет-магазина по одной фотографии. Задачка сложнее, чем найти котика.

Как мы обучили нейронную сеть классифицировать шурупы - 1

Проблема интернет-магазина шурупов — в ассортименте. Тысячи или десятки тысяч моделей. У каждого шурупа свое описание и характеристики, поэтому на фильтры нет надежды. Что делать? Искать вручную или искать в гипермаркете на полках? В обоих случаях это потеря времени. В итоге клиент устанет и пойдет забивать гвоздь. Чтобы помочь ему, воспользуемся нейросетью. Если она может находить котиков или диваны, то пусть занимается чем-то полезным — подбирает шурупы и болты. Как научить нейросеть подбирать для пользователя шурупы быстро и точно, расскажем в расшифровке доклада Марии Мацкевичус, которая в компании Grid Dynamics занимается анализом данных и машинным обучением.
Читать полностью »

Построение анимационного линейного графика скользящего среднего в R. Получение данных через NBA API

2019-07-15 в 12:41, admin, рубрики: data mining

Продолжим анализировать баскетбольные данные с помощью R.

В отличие от прошлой статьи, носившей исключительно развлекательный характер, графики, которые будут построены в данной заметке, могут быть интересны с точки зрения анализа игры команды походу сезона.

А строить мы будем графики скользящего среднего для трёх видов рейтинга команд НБА: атакующего, оборонительного и net-рейтинга (т.е. разницы между первыми двумя). В двух словах о них. Атакующий и оборонительный рейтинги — это количество очков, набранных/пропущенных командой за 100 владений. NET рейтинг — это их разница также на сто владений. Кому интересно узнать о них более подробно, могут прочитать глоссарий на сайте basketball-reference. Там есть формула расчёта, которую я тоже реализовал с помощью R, но так пока и не опубликовал статью об этом.

Читать полностью »

Подборка сервисов на основе ИИ, которые облегчат вам жизнь уже сегодня (1-3)

2019-07-14 в 20:34, admin, рубрики: big data, data mining, искусственный интеллект, машинное обучение, подборка, Программирование

Привет, читатель. Думаю, что ненужно рассказывать в который раз о том, что такое искусственный интеллект, какую пользу он несёт и для чего нужен. Перейду сразу к делу. Ниже собрал подборку сервисов на основе ИИ, которые могут упростить вам жизнь уже сегодня.

Свою статью я разделю на 3 части:

ИИ инструменты для личного использования;
Инструменты ИИ для бизнеса;
Инструменты ИИ для отраслевых бизнесов.

Меньше слов, больше данных.

Подборка сервисов на основе ИИ для личного использования:

Дом

Bridge Kitchen — помощник на кухне для пошагового приготовления еды;
UnifyID — автоматическая аутентификация пользователя в цифровой и физической среде.

Читать полностью »

Что я узнал о машинном обучении, поработав в 12 стартапах

2019-07-12 в 12:06, admin, рубрики: big data, data mining, ml, python, Лайфхаки для гиков, личный опыт, машинное обучение

Всем привет.

Поработав в 12 стартапах в сфере машинного обучения, я сделал восемь полезных выводов о продуктах, данных и людях.

Все стартапы были из разных сфер (финтех, биотехнологии, здравоохранение, технологии обучения) и на разных этапах: и на этапе pre-seed, и на этапе приобретения крупной компанией. Менялась и моя роль. Я был стратегическим консультантом, главой отдела анализа данных, заваленный делами штатным сотрудником. Все эти компании старались создать хороший продукт, и многим это удалось.

За время работы я пришел к таким выводам:

Продукт важнее ИИ

Эти стартапы разрабатывают продукты, а не изучают искусственный интеллект. Меня, как убежденного математика, сначала больше интересовало машинное обучение и создание новых методов и алгоритмов.

Вскоре я понял, что даже точные модели машинного обучения не ценны сами по себе. Ценность ИИ и машинного обучения напрямую зависит от ценности продукта, в котором они используются. Цель стартапа – научиться создавать продукты, основанные на машинном обучении.

При таком подходе иногда выясняется, что машинное обучение – не самый эффективный инструмент. Иногда дело не в поставленной задаче, а в процессе решения. Даже в таких ситуациях полезно обратиться к ученым: они используют научный, основанный на данных подход. Тем не менее, не тратьте время на ИИ там, где нужно исправить процесс. Читать полностью »

Как студенты из Перми попали в финал международного чемпионата по анализу данных Data Mining Cup 2019

2019-07-09 в 12:34, admin, рубрики: big data, data analysis, data mining, Data Mining Cup, data science, kaggle, machine learning, python, анализ данных, визуализация данных, машинное обучение, Соревнования по машинному обучению

Всем привет. В этой статье я расскажу о нашем опыте участия в соревновании по анализу данных Data Mining Cup 2019 (DMC) и о том, как нам удалось войти в ТОП-10 команд и принять участие в очном финале чемпионата в Берлине.

Читать полностью »

Организуем ML-проект с помощью Ocean

2019-07-09 в 12:08, admin, рубрики: data mining, ml, SURF, surfstudio, Блог компании Surf, машинное обучение

Вступление

За годы разработки ML- и DL-проектов у нашей студии накопились и большая кодовая база, и много опыта, и интересные инсайты и выводы. При старте нового проекта эти полезные знания помогают увереннее начать исследование, переиспользовать полезные методы и получить первые результаты быстрее.

Очень важно, чтобы все эти материалы были не только в головах разработчиков, но и в читаемом виде на диске. Это позволит эффективнее обучить новых сотрудников, ввести их в курс дела и погрузить в проект.

Конечно, так было не всегда. Мы столкнулись с множеством проблем на первых этапах

Каждый проект был организован по-разному, особенно если их инициировали разные люди.
Недостаточно отслеживали, что делает код, как его запустить и кто его автор.
Не использовали виртуализацию в должной степени, зачастую мешая своим коллегам установкой существующих библиотек другой версии.
Забывались выводы, сделанные по графикам, которые осели и умерли в горé jupyter-тетрадок.
Теряли отчеты по результатам и прогрессу в проекте.

Для того, чтобы эти проблемы решить раз и навсегда, мы решили, что нужно работать как над единой и правильной организаций проекта, так и над виртуализацией, абстракцией отдельных компонентов и переиспользуемостью полезного кода. Постепенно весь наш прогресс в этой области перерос в самостоятельный фреймворк — Ocean.

Вишенка на торте — логи проекта, которые агрегируются и превращаются в красивый сайт, автоматически собранный с помощью выполнения одной команды.

В статье мы расскажем на маленьком искусственном примере, из каких частей состоит Ocean и как его использовать.

Читать полностью »

Машинное обучение vs. аналитический подход

2019-07-08 в 12:32, admin, рубрики: big data, data mining, kaggle, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, Блог компании Школа Данных, искусственный интеллект, математика, машинное обучение, нейронные сети, нейросети, рекомендательные системы, Чат-боты, школа данных

Машинное обучение vs. аналитический подход - 1

Какое-то время назад мы нашли свои старые материалы, по которым обучали первые потоки на наших курсах машинного обучения в Школе Данных и сравнили их с теперешними. Мы удивились, сколько всего мы добавили и поменяли за 5 лет обучения. Осознав, почему мы это сделали и как, на самом деле, поменялся подход к решению задач Data Science, мы решили написать вот эту публикацию.Читать полностью »

Сэмплирование и точность вычислений

2019-07-07 в 7:17, admin, рубрики: data mining, аналитика данных, Аналитика мобильных приложений, биноминальное распределение, бутстреппинг, доверительный интервал, конверсия, сэмплирование, точность, Управление продуктом

Ряд моих коллег сталкиваются с проблемой, что для расчета какой-то метрики, например, коэффициента конверсии, приходится кверить всю базу данных. Или нужно провести детальное исследование по каждому клиенту, где клиентов миллионы. Такого рода квери могут работать довольно долго, даже в специально сделанных для этого хранилищах. Не очень-то прикольно ждать по 5-15-40 минут, пока считается простая метрика, чтобы выяснить, что тебе нужно посчитать что-то другое или добавить что-то еще.

Одним из решений этой проблемы является сэмплирование: мы не пытаемся вычислить нашу метрику на всем массиве данных, а берем подмножество, которое репрезентативно представляет нам нужные метрики. Это сэмпл может быть в 1000 раз меньше нашего массива данных, но при этом достаточно хорошо показывать нужные нам цифры.

В этой статье я решил продемонстрировать, как размеры выборки сэмплирования влияют на ошибку конечной метрики.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «data mining» - 18

Галерея лучших блокнотов по ML и Data Science

Вводные курсы в Jupyter Notebook

Собаку съел на нейронных сетях

Как мы обучили нейронную сеть классифицировать шурупы

Построение анимационного линейного графика скользящего среднего в R. Получение данных через NBA API

Подборка сервисов на основе ИИ, которые облегчат вам жизнь уже сегодня (1-3)

Подборка сервисов на основе ИИ для личного использования:

Что я узнал о машинном обучении, поработав в 12 стартапах

Продукт важнее ИИ

Как студенты из Перми попали в финал международного чемпионата по анализу данных Data Mining Cup 2019

Организуем ML-проект с помощью Ocean

Вступление

Машинное обучение vs. аналитический подход

Сэмплирование и точность вычислений