Рубрика «data mining» - 34

Битва при MERGE. Хроника с выводами и моралью

2018-05-31 в 9:27, admin, рубрики: data mining, dbms, postgres, postgresql, базы данных, Блог компании Postgres Professional, разработка, СУБД

Несколько недель перед важным комитфестом — последним перед feature freeze версии PostgreSQL 11 — читатели рассылки hackers, сжимая в левой пакет с чипсами, следили за триллером MERGE. Режиссер триллера, глава компании 2ndQuadrant Саймон Риггс (Simon Riggs), с впечатляющей настойчивостью и изобретательностью пытался протащить в версию патч, реализующий синтаксис команды MERGE. Риггс комитер с 2009 года, а со статусом комитера можно самому утверждать патчи. Ему противостояли не менее уважаемые комитеры и ветераны PostgreSQL. Страсти кипели явно и подспудно, до прямых оскорблений все же не дошло — факт удивительный для завсегдатаев многих отечественных форумов. Однако некоторое напряжение осталось до сих пор, когда вопрос утрясли, и спорить уже не о чем.Читать полностью »

Машинное обучение и экструдер полипропилена: история 3 места на хакатоне Сибура

2018-05-29 в 18:23, admin, рубрики: data mining, data science, machine learning, predictive maintenance, python, машинное обучение, прототипирование, Сибур, хакатон, Хакатоны

Хакатон "Цифровой завод", организованный Сибуром и AI Community, состоялся на прошлых выходных. Одна из двух задач хакатона была на тему predictive maintenance — нужно было предсказывать проблемы в работе экструдера. Её мы и решили. Рассказ сосредоточен в основном на data science'ной части решения, и о том, как нам удалось научиться неплохо прогнозировать довольно редкие события.
Машинное обучение и экструдер полипропилена: история 3 места на хакатоне Сибура - 1
Читать полностью »

Интеллектуальные системы поддержки принятия решений — краткий обзор

2018-05-28 в 9:30, admin, рубрики: AI, architecture, big data, data mining, deep learning, DSS, ECM/СЭД, python, Блог компании Open Data Science, ИСППР, машинное обучение, сппр, теория игр

Дисклеймер

Целью написания этой статьи было сделать краткий обзор принципов построения Интеллектуальных Систем Поддержки Принятия Решений (ИСППР), роли машинного обучения, теории игр, классического моделирования и примеров их использования в СППР. Целью статьи не является забуриться вглубь тяжелой теории автоматов, самообучаемых машин, равно как и инструментов BI.

Введение

Существет несколько определений ИСППР, которые, в общем-то, крутятся вокруг одного и того же функционала. В общем виде, ИСППР — это такая система, которая ассистирует ЛПР (Лицам, Принимающим Решения) в принятии этих самых решений, используя инструментарии дата майнинга, моделирования и визуализации, обладает дружелюбным (G)UI, устойчива по качеству, интерактивна и гибка по настройкам.

Зачем нужны СППР:

Сложность в принятии решений
Необходимость в точной оценке различных альтернатив
Необходимость предсказательного функционала
Необходимость мультипотокового входа (для принятия решения нужны выводы на основе данных, экспертные оценки, известные ограничения и т.п.)

Читать полностью »

Python Selenium и Krisha.kz. Первые в Big Data

2018-05-27 в 19:28, admin, рубрики: big data, data mining

Предисловие

Изучать что-то новое всегда интересно, это захватывает тебя полностью, по крайней мере у меня так. Вот и в этот раз, увлёкшись изучением программирования на языке Python, задался вопросом, где его можно применить, кроме как при создании фотосепаратора (статья про него будет чуть позже) и программы учета продаж, и натолкнулся на статью про большие данные (Big Data). Изучив материалы по Big Data, понял, что направление это весьма перспективно и стоит потратить время на его изучение.

Читать полностью »

Постановка Data Science задач и взаимодействие с бизнесом

2018-05-23 в 8:39, admin, рубрики: big data, data mining, data science, python, Блог компании ID Finance, машинное обучение

Привет. В этот раз снова о Data Science. Думаю, многим знакома методология CRISP-DM, о которой говорят на большинстве курсов, но вот про первый пункт (business understanding) информации достаточно мало, в зря, ведь он очень важный.

Поэтому в этой статье мы поговорим о взаимодействии с бизнесом и о том, какие обычно бывают проблемы и сложности в этом вопросе. Давайте разберем все на примере.Читать полностью »

Исправление опечаток, взгляд сбоку

2018-05-23 в 6:18, admin, рубрики: data mining, misspellings, nlp, python, word embedding, Блог компании Singularis, машинное обучение, обработка естественного языка, Семантика

Мы поговорим об использовании модных «Word embedding» не совсем по назначению — а именно для исправления опечаток (строго говоря, и ошибок тоже, но мы предполагаем, что люди грамотные и опечатываются). На хабре была довольно близкая статья, но здесь будет немного о другом.

Исправление опечаток, взгляд сбоку - 1
Визуализация Word2Vec модели, полученная студентом. Обучалась на «Властелине колец». Явно что-то на черном наречии.
Читать полностью »

Обработка изображений: Tensorflow Object Detection API

2018-05-19 в 15:04, admin, рубрики: data mining, TensorFlow, машинное обучение, обработка изображений

Последние несколько лет в развитии глубоких нейронных сетей происходит настоящая революция: возникают новые архитектуры, совершенствуются фреймворки для разработчиков, а железо для экспериментов можно получить совершенно бесплатно — например, в рамках проекта Google colaboratory. Всем, кому интересно как применить предобученные модели из репозитория Tensorflow Object Detection API к решению своей задачи, используя мощности Colaboratory — добро пожаловать под кат.
Читать полностью »

Нахождение числа комиссий, «рисовавших» целые значения явки на президентских выборах РФ 2018 года

2018-05-19 в 1:48, admin, рубрики: big data, data mining, highcharts, php, анализ данных, визуализация данных, выборы президента, открытые данные

Графики с необычными пиками мы теперь видим после каждых федеральных выборов. Впервые в массы они вышли после выборов в 2011 году, когда люди и увидели фальсификации, и ознакомились в целом с анализом данных по выборам и с проблемой целочисленного деления в частности.

У распределений даже стали появляться свои имена. Это и «борода Чурова» для выборов 2011, и «пик Володина» для знаменитых 62.2% в Саратове. Поскольку до сих пор даже на хабре появляются статьи, не знакомые с решением проблемы целочисленного деления и не согласные "добавлять мусор" небольшой случайной добавки в данные, давайте посмотрим на результаты совсем иначе. Мы зайдём к построению графиков с противоположной стороны, где проблемы целочисленного деления вообще нет. И тоже увидим пики на целых значениях.

Нахождение числа комиссий, «рисовавших» целые значения явки на президентских выборах РФ 2018 года - 1

Читать полностью »

Обработка текстов на естественных языках

2018-05-18 в 7:31, admin, рубрики: data mining, data science, machine learning, natural language processing, nlp, Блог компании Mail.Ru Group, машинное обучение, Семантический анализ текста

Обработка текстов на естественных языках - 1

Сегодня мы затрагиваем такую интересную тему, как естественные языки. Сейчас в эту область вкладываются очень большие деньги и в ней решают немало разнообразных задач. Она привлекает внимание не только индустрии, но и научного сообщества.
Читать полностью »

Женские сети: кто делает за нас выбор?

2018-05-15 в 8:01, admin, рубрики: big data, data mining, Блог компании ГК ЛАНИТ, Ланит, машинное обучение, нейронные сети

Взлет интереса к машинному обучению во многом связан с тем, что модели способны дать ощутимый прирост прибыли в областях, связанных с предсказанием поведения сложных систем. В частности, той сложной системой, чье поведение предсказывать выгодно, является человек. Обнаружить мошенничество на ранней стадии, выявить склонность клиентов к оттоку – эти задачи возникают регулярно и уже стали классическими в Data Science. Безусловно, их можно решать различными методами, в зависимости от пристрастий конкретного специалиста и от требований бизнеса.

У нас была возможность использовать нейронные сети для решения задачи по предсказанию поведения людей, а специфика области применения была связана с индустрией красоты. Основной аудиторией для “опытов” стали женщины. Мы по сути пришли к вопросу: может ли искусственная нейронная сеть понять настоящую нейронную сеть (человека) в той области, в которой даже сам человек еще не осознал своего поведения. Как мы ответили на этот вопрос и что у нас получилось в итоге, можно узнать далее.

Женские сети: кто делает за нас выбор? - 1

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «data mining» - 34

Битва при MERGE. Хроника с выводами и моралью

Машинное обучение и экструдер полипропилена: история 3 места на хакатоне Сибура

Интеллектуальные системы поддержки принятия решений — краткий обзор

Дисклеймер

Введение

Python Selenium и Krisha.kz. Первые в Big Data

Предисловие

Постановка Data Science задач и взаимодействие с бизнесом

Исправление опечаток, взгляд сбоку

Обработка изображений: Tensorflow Object Detection API

Нахождение числа комиссий, «рисовавших» целые значения явки на президентских выборах РФ 2018 года

Обработка текстов на естественных языках

Женские сети: кто делает за нас выбор?