Рубрика «data mining» - 39

Привет! Сегодня мы расскажем о том, как нашей команде из Smart Engines удалось победить на международном конкурсе по бинаризации документов DIBCO17, проводимом в рамках конференции ICDAR. Данный конкурс проводится регулярно и уже имеет солидную историю (он проводится 9 лет), за время которой было предложено множество невероятно интересных и безумных (в хорошем смысле) алгоритмов бинаризации. Несмотря на то, что в своих проектах по распознаванию документов при помощи мобильных устройств мы по возможности не используем подобные алгоритмы, команде показалось, что нам есть что предложить мировому сообществу, и в этом году мы впервые приняли решение участвовать в конкурсе.

История победы на международном соревновании по распознаванию документов команды компании SmartEngines - 1Читать полностью »

Пролог


Порой у каждого из нас возникает вопрос, который не даёт нам покоя. И как правило ответ на такой вопрос можно получить лишь проанализировав опыт большого количества людей. У меня возник такой вопрос: «Какие факторы влияют на IQ и является ли он хоть чуточку преимуществом?». Конечно, читатель может воскликнуть, что всем давно уже все известно и можно прочитать статьи на эту тему. В какой-то степени вы окажитесь правы, но увы, статьи на тему IQ оказались крайне противоречивыми и навязали мне еще большее количество вопросов. Поэтому я и решил провести своё скромное исследование на эту тему.

Корреляция IQ с нашей жизнью (Feature ranking) - 1
Читать полностью »

Приглашаем на итоги конкурса по анализу данных - 1

В эту пятницу (15 декабря) мы приглашаем читателей Хабра присоединиться к онлайн трансляции награждения победителей конкурса по прогнозированию невозврата кредита. Состязание длилось 4 месяца, задача была предоставлена Банком Хоум Кредит (собственно, как и данные).

Мы наградим победителей и призеров, послушаем презентации их решений.

  • 1 место и Академический приз — Анзор Березгов
  • 2 место — Иван Тимошилов
  • 3 место — Александр Дьяконов
  • Приз SAS — Дарья Соболева

Читать полностью »

Есть ли у вас та штука, что называется pet project или side project? Тот самый проект, который бы вы делали в свое удовольствие и для себя, для саморазвития или расширения портфолио. Лично у меня долгое время не было ничего, что можно было бы показать. Однако, в рамках стартовавшего этой осенью конкурса Atos IT Challenge 2018, у меня как раз появилась возможность начать такой проект.

Читать полностью »

Анализируй это — Lenta.ru - 1

Анализируй это. Lenta.ru (часть 1)

What, How, Why

What — анализ статей новостного ресурса Lenta.ru за последние 18 лет (с 1 сентября 1999 года). How — средствами языка R (с привлечением программы MySterm от Yandex на отдельном участке). Why… В моем случае, коротким ответом на вопрос "почему" будет "получение опыта" в Big Data. Более развернутым же объяснением будет "выполнение какого-либо реального задания, в рамках которого я смогу применить навыки, полученные во время обучения, а так же получить результат, который я бы смог показывать в качестве подтверждения своих умений".

Читать полностью »

1. Вступление

В очень сильно нагруженных порталах или API может возникать потребность в применении алгоритмов машинного обучения, например, с целью классификации пользователей. В рамках данной заметки будет показан процесс реализации некоторых высокопроизводительных линейных моделей, а также даны объяснения основных теоретических принципов.

Читать полностью »

SAS: мы анализировали данные и обучали модели задолго до того, как это стало модным - 1

Наша аналитическая платформа работает в WalMart, Bank of America, Bank of China, Сбербанке, МТС. SAS как предмет преподают в МГУ, ВШЭ, МИФИ, МГТУ им. Баумана, МЭИ, МИИТ и других ВУЗах. А под катом — наша краткая история-знакомство, с которой мы хотим открыть наш блог на Хабре.
Читать полностью »

Приветствую коллеги! Пришло время продолжить наш спонтанный мини цикл статей, посвящённый основам машинного обучения и анализа данных.

В прошлый раз мы разбирали с Вами задачку применения линейной регрессии к открытым данным правительства Москвы, а в этот раз данные тоже открыты, но их уже пришлось собирать вручную.

Итак, сегодня мы с Вами поднимем животрепещущую тему – обращения граждан в органы исполнительной власти Москвы, нас с вами сегодня ждет: краткое описание набора данных, примитивный анализ данных, применение к ним модели линейной регрессии, а также краткая отсылка к учебным курсам для тех, кто совсем ничего не поймет из материала статьи. Ну и конечно же останется пространство для самостоятельного творчества.

Напомню, что наша статья рассчитана в первую очередь на начинающих любителей Python и его распространённых библиотек из области DataScience. Готовы? Тогда, милости прошу под кат.

«Пишите письма…» или тренируемся работать с данными по обращениям граждан в правительство Москвы (DataScience) - 1

Читать полностью »

Диагностика промышленных электродвигателей и генераторов по спектру потребляемого тока и предотвращение аварий - 1
Анализатор спектра тока

Представьте себе ТЭЦ с турбинами, скажем, 50–60-х годов выпуска. Это примерно половина мощностей нашей страны. Там есть огромные насосы с электродвигателями и такие же огромные генераторы, которые тоже суть электродвигатели, только «перевёрнутые». У них нет встроенной телеметрии, и диагностируются они методами последовательных обходов. Это было нормальным на конец 70-х, но не сегодня.

На ТЭЦ, на крупных буровых, на насосных станциях и во множестве других мест, где отказ электродвигателя или генератора обходится очень дорого, как правило, есть специальные люди, которые имеют огромный опыт обслуживания конкретно этого экземпляра оборудования. Например, там может быть дедушка, который по звуку запуска определяет состояние движка. Или мужик-нос, который умеет обнюхивать насос так, что чувствует даже малейшие утечки масла.

Современная диагностика делается немного иначе — в основном по вибродатчикам. Проблема вибродатчиков в том, что их нужно поставить на железку, а железка на той же буровой или подлодке не очень-то доступна. Поэтому мы очень живо исследовали тему изучения снятия данных с движка путём снятия информации с питающего контура. Электромагнитное поле передаёт куда больше информации, которую раньше считали шумом. Теперь его можно анализировать.
Читать полностью »

При изучении технологий Deep Learning я столкнулся с нехваткой относительно простых примеров, на которых можно относительно легко потренироваться и двигаться дальше.

В данном примере мы построим рекуррентную нейронную сеть, которая получив на вход текст романа Толстого «Анна Каренина», будет генерировать свой текст, чем-то напоминающий оригинал, предсказывая, какой должен быть следующий символ.

Структуру изложения я старался делать такой, чтобы можно было повторить все шаги новичку, даже не понимая в деталях, что именно происходит внутри этой сети. Профессионалы Deep Learning скорее всего не найдут тут ничего интересного, а тех, кто только изучает эти технологии, прошу под кат.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js