Рубрика «data mining» - 10

Машинное обучение на Android

2020-02-09 в 18:12, admin, рубрики: data mining, DataLearner, open source, алгоритм, Алгоритмы, визуализация данных, извлечение данных, искусственный интеллект, приложение

Привет! Представляю вашему внимаю перевод статьи из журнала APC.

Машинное обучение и интеллектуальный анализ данных – это практические разработки ИИ, благодаря которым появляются приложения различных тематик, начиная от воздухоплавания и заканчивая зоологией. Эти процессы чаще всего выполняются в облаке, на ПК или ноутбуке, гораздо реже – в смартфоне.

Однако недавно в Google Play появилось новое бесплатное приложение под названием «DataLearner», с помощью которого можно добывать данные. Оно не требует внешних ресурсов и доступа с полномочиями суперпользователя.

Вычислительные ресурсы смартфонов

Многие ошибочно полагают, что для машинного обучения и добычи данных требуется много ресурсов облачной вычислительной системы или по меньшей мере мощный компьютер. Однако в конечном счёте всё сводится к размеру анализируемых данных и типу машинного обучения, которое вы хотите применить.

У компьютерного обучения есть свои уровни сложности. Если представить, что такая недавно появившаяся техника глубокого обучения, как свёрточная нейросеть (CNN) – это автомобиль с высокой удельной мощностью, то другие техники, например, дерево поиска решений и многие прочие «лесные» методы обучения – это горячие «хэтчбеки». Они показывают отличные результаты, быстры и легки даже при ограниченных вычислительных возможностях CPU.
Читать полностью »

Анализ рынка недвижимости на основе данных с msgr.ru

2020-02-08 в 15:35, admin, рубрики: big data, data mining, python, scrapy, аналитика, визуализация данных, Исследования и прогнозы в IT, недвижимость, недвижимость и цены

Недавно столкнулся с проблемой выбора квартиры и конечно первым делом решил узнать, что происходит на рынке недвижимости и, как это обычно бывает, половина экспертов с youtube.com говорят, что недвижимость будет расти, другая утверждает, что наоборот цена будет падать. В итоге решил разобраться сам, и вот, что из этого вышло.

Анализ рынка недвижимости на основе данных с msgr.ru - 1
© Designed by upklyak / Freepik

Читать полностью »

Зачем хардверному стартапу софтовый хакатон

2020-02-08 в 10:53, admin, рубрики: data mining, IoT, watts battery, Интернет вещей, хакатон, Хакатоны, экология, Энергия и элементы питания

В декабре прошлого года мы с шестью другими сколковскими компаниями провели собственный стартап-хакатон. Без корпоративных спонсоров и какой-либо внешней поддержки, силами программерского сообщества мы собрали две сотни участников из 20 городов России. Ниже я расскажу как нам это удалось, какие мы встретили по пути подводные камни и почему сходу начали сотрудничать с одной из команд-победительниц.

Зачем хардверному стартапу софтовый хакатон - 1 Интерфейс приложения, управляющего модулями Watts Battery от финалистов трека, «Мокрые волосы»

Компания

Наша компания Watts Battery создаёт модульные портативные электростанции. Продукт – портативная электростанция 46x36x11 см, способная давать от 1,5 до 15 киловатт в час. Четыре таких модуля могут обеспечивать энергопотребление небольшого загородного дома на протяжении двух суток.

Хотя в прошлом году мы начали отгрузку серийных образцов, по всем параметрам Watts Battery – стартап. Компания основана в 2016-м и с этого же года – резидент Кластера энергоэффективных технологий «Сколково», сегодня у нас 15 сотрудников и огромный бэклог того, что мы хотели бы на каком-то этапе сделать, но прямо сейчас не до этого.

Туда входят и чисто софтовые задачи. Почему?

Основная задача модуля – обеспечить бесперебойное сбалансированное энергоснабжение по оптимальной стоимости. Если у вас возникает отключение электричества по независящим от вас причинам, у вас всегда должен быть резерв для того, чтобы полностью запитать необходимую нагрузку сети на время выключения. А когда с электроснабжением всё в порядке, вы можете использовать солнечную энергию, чтобы экономить.

Читать полностью »

Туториал по Uplift моделированию. Часть 2

2020-02-04 в 12:23, admin, рубрики: causal effect, causal Inference, causal tree, causality, causalml, data mining, data science, net lift, uplift, аплифт, Блог компании МТС, искусственный интеллект, математика, машинное обучение

В первой части мы познакомились с uplift моделированием и узнали, что метод позволяет выбирать оптимальную стратегию коммуникации с клиентом, а также разобрали особенности сбора данных для обучения модели и несколько базовых алгоритмов. Однако эти подходы не позволяли оптимизировать uplift напрямую. Поэтому в этой части разберем более сложные, но не менее интересные подходы.
Читать полностью »

Что делает Free API Московской биржи в Google Таблицах

2020-02-04 в 1:45, admin, рубрики: api, data mining, Google API, Google Sheets, google таблицы, акции, Алгоритмы, биржа, биржевая торговля, инвестиции, котировка, Московская Биржа, облигации, парсинг, статистика, финансы в IT, ценные бумаги

Количество частных инвесторов на Московской бирже удвоилось за последний год и составило 3,86 млн: за 2019 счета на Мосбирже открыли 1,9 млн человек. Санкт-Петербургская биржа, специализирующаяся на торгах акциями иностранных компаний, в прошлом году зафиксировала трехкратный прирост счетов – с 910 000 до 3,06 млн шт.

Что делает Free API Московской биржи в Google Таблицах - 1

Это означает, что на рынок пришло почти 2 млн новичков, которые никогда не занимались трейдингом и не использовали специализированный софт для торгов и учета позиций.

Читать полностью »

Туториал по uplift моделированию. Часть 1

2020-01-30 в 13:15, admin, рубрики: causal effect, causal Inference, causality, causalml, data mining, data science, net lift, true lift, uplift, uplift modelling, аплифт, Блог компании МТС, интернет-маркетинг, маркетинг, машинное обучение, Повышение конверсии, реклама

Команда Big Data МТС активно извлекает знания из имеющихся данных и решает большое количество задач для бизнеса. Один из типов задач машинного обучения, с которыми мы сталкиваемся – это задачи моделирования uplift. С помощью этого подхода оценивается эффект от коммуникации с клиентами и выбирается группа, которая наиболее подвержена влиянию.

Такой класс задач прост в реализации, но не получил большого распространения в литературе про машинное обучение. Небольшой цикл статей, подготовленный Ириной Елисовой (iraelisova) и Максимом Шевченко (maks-sh), можно рассматривать как руководство к решению таких задач. В рамках него мы познакомимся с uplift моделями, рассмотрим, чем они отличаются от других подходов, и разберем их реализации.
Читать полностью »

Учёт собственных публикаций

2020-01-27 в 1:54, admin, рубрики: data mining, Google API, Google Sheets, google таблицы, Управление медиа, управление проектами, управление разработкой

Если вы используете публикации на различных сайтах и в СМИ как один из инструментов продвижения, то рано или поздно перед вами возникнет вопрос их систематизации. Тогда же появляется и обратная связь, которая обычно включает в себя:

просмотры;
комментарии с разным эмоциональным оттенком;
сохранения (сколько пользователей этого сайта добавили материал в свои закладки);
рейтинги (сколько пользователей этого сайта проголосовали за или против).

Учёт собственных публикаций - 1

Если все ваши статьи размещены на одном ресурсе, то особых проблем с учетом не возникает. Вышеперечисленные показатели обычно сведены в админке (как на картинке ниже) и всегда можно наглядно оценить какая из собственных тем более популярна. У меня же публикации по одной теме часто «размазаны» по разным ресурсах, таких как Хабр, виси.ру, Medium, Яндекс Дзен и (если корректно отнести к публикациям) GitHub. И передо мной была проблема увидеть общую картину по проектам и темам «в одном окне».Читать полностью »

Поисковик Google по датасетам вышел из беты

2020-01-26 в 9:02, admin, рубрики: data mining, Dataset Search, Google, ITSumma, schema, Блог компании ITSumma, машинное обучение, метаданные, Наташа Ной, Научно-популярное, онтологии, поисковые технологии, семантический веб

Для машинного обучения и научных исследований требуется много данных. В помощь разработчикам и исследователям, Наташа Ной с коллегами из исследовательского подразделения Google Research в сентябре 2018 года выпустили специализированную поисковую систему Dataset Search. 23 января 2020 года поисковик вышел из беты, с новыми инструментами для лучшей фильтрации поиска и доступом почти к 25 миллионам наборов данных.

Датасеты публикуют в открытом доступе многие учреждения: университеты, государственные организации и лаборатории. Но зачастую их трудно найти с помощью традиционного поиска. Поисковик Dataset Search обрабатывает теги метаданных в формате Schema, тут наборы данных самой разной тематики: от лыжных травм до популяции пингвинов.
Читать полностью »

SVM. Объяснение с нуля, имплементация и подробный разбор

2020-01-23 в 11:00, admin, рубрики: classification, data mining, loss function, machine learning, margin, ods, ods.ai, open data science, python, support vectors, SVM, Алгоритмы, Блог компании Open Data Science, машинное обучение, опорные вектора

Привет всем, кто выбрал путь ML-самурая!

Введение:

В данной статье рассмотрим метод опорных векторов (англ. SVM, Support Vector Machine) для задачи классификации. Будет представлена основная идея алгоритма, вывод настройки его весов и разобрана простая реализация своими руками. На примере датасета $Iris$ будет продемонстрирована работа написанного алгоритма с линейно разделимыми/неразделимыми данными в пространстве $R^2$ и визуализация обучения/прогноза. Дополнительно будут озвучены плюсы и минусы алгоритма, его модификации.

Рисунок 1. Фото цветка ириса из открытых источников

Читать полностью »

Как посчитать «похожесть» номеров в паспортах. И найти одинаковые даже с опечатками

2020-01-15 в 10:52, admin, рубрики: cdi, data mining, data quality, Алгоритмы, Анализ и проектирование систем, Блог компании HFLabs, дедупликация, документы, информационная безопасность, качество данных, номера паспортов, паспорта

Как посчитать «похожесть» номеров в паспортах. И найти одинаковые даже с опечатками - 1

Продукты HFLabs ищут дублированных клиентов в базах федеральных компаний. Очевиднейший способ найти одинаковые клиентские карточки — сравнить паспорта или другие документы, удостоверяющие личность.

Раньше мы сравнивали номера документов строго: одинаковые — отлично, нет — извините. На ручной разбор из-за опечатки в номере уходили даже те карточки, у которых совпадали ФИО и адреса́ проживания. Такой подход излишне нагружал персонал заказчиков.

Поэтому мы с головой залезли в данные, изучили статистику и вывели критерии — когда разные номера действительно разные, а когда дело в опечатках. Рассказываю, как работает алгоритм.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «data mining» - 10

Машинное обучение на Android

Вычислительные ресурсы смартфонов

Анализ рынка недвижимости на основе данных с msgr.ru

Зачем хардверному стартапу софтовый хакатон

Компания

Туториал по Uplift моделированию. Часть 2

Что делает Free API Московской биржи в Google Таблицах

Туториал по uplift моделированию. Часть 1

Учёт собственных публикаций

Поисковик Google по датасетам вышел из беты

SVM. Объяснение с нуля, имплементация и подробный разбор

Как посчитать «похожесть» номеров в паспортах. И найти одинаковые даже с опечатками