Рубрика «data mining» - 29

Анализ тональности текстов с помощью сверточных нейронных сетей - 1

Представьте, что у вас есть абзац текста. Можно ли понять, какую эмоцию несет этот текст: радость, грусть, гнев? Можно. Упростим себе задачу и будем классифицировать эмоцию как позитивную или как негативную, без уточнений. Есть много способов решать такую задачу, и один из них — свёрточные нейронные сети (Convolutional Neural Networks). CNN изначально были разработаны для обработки изображений, однако они успешно справляются с решением задач в сфере автоматической обработки тестов. Я познакомлю вас с бинарным анализом тональности русскоязычных текстов с помощью свёрточной нейронной сети, для которой векторные представления слов были сформированы на основе обученной Word2Vec модели.

Статья носит обзорный характер, я сделал акцент на практическую составляющую. И сразу хочу предупредить, что принимаемые на каждом этапе решения могут быть неоптимальными. Перед прочтением рекомендую ознакомиться с вводной статьей по использованию CNN в задачах обработки естественных языков, а также прочитать материал про методы векторного представление слов.
Читать полностью »

SmartData 2018: Первая отменённая конференция JUG.ru Group - 1

Мы множество раз рассказывали на Хабре о том, какие IT-конференции проведём. А теперь впервые за историю этого блога сообщаем, что уже анонсированная конференция не состоится. Несмотря на то, что мы уже пригласили спикеров, забронировали площадку, сделали дизайн и поработали над многим другим, мы были вынуждены принять решение об отмене SmartData 2018.

Для тех, кому SmartData небезразлична, и для тех, кому интересно «почему мероприятие отменяется на такой стадии подготовки», под катом больше подробностей. Например, там можно узнать умное выражение «sunk cost fallacy», получив от печального события хоть какую-то пользу!
Читать полностью »

Рассмотрим один из сценариев, при котором ваша модель машинного обучения может быть бесполезна.

Есть такая поговорка: «Не сравнивайте яблоки с апельсинами». Но что делать, если нужно сравнить один набор яблок с апельсинами с другим, но распределения фруктов в двух наборах разное? Сможете работать с данными? И как будете это делать?
Насколько данные для обучения модели (не)похожи на тестовую выборку? - 1
Читать полностью »

«Наши сайнтисты сгенерировали кучу графиков, а мы совершенно не знаем, куда их девать. Давайте попробуем их хоть как-то пристроить». (с) подслушано

«Плохие графики везде. В моей работе я постоянно встречаю крайне сомнительные визуализации данных. Никто не делает плохие графики намеренно. Но это происходит. Опять и опять. В каждой компании во всех отраслях экономики сотрудниками всех уровней. Это происходит в СМИ. Это происходит там, где вы ожидаете, что люди должны уметь визуализировать данные». (с) автор книги

Это происходит и здесь, на Хабре: просматривая статьи в потоке «Визуализация данных», часто ловлю себя на мысли, что не понимаю и не могу схватить суть того, что отображено. В статье рассмотрим несколько примеров. И что самое неприятное для меня, это происходит и в моей работе тоже. Не постоянно, но чаще, чем хотелось бы.

«Storytelling with Data», Cole Nussbaumer Knaflic: неформальный обзор-конспект книги - 1

Название книги «Storytelling with Data» звучало убедительно. Выбрал её для вечернего чтения и не пожалел. В книге нет формул, хитрых и необычных графиков, сложных кейсов. Понятный английский. Качественная печать. Читается как художественная литература. Книга будет полезна всем, кому приходится делать презентации на основе данных. Думаю, что особенную пользу она принесёт тем, кто занимается аналитикой данных.

Этот обзор очень неформальный: вперемешку идут мысли автора книги, мои мысли, ситуации из моей работы, а также шпаргалки по matplotlib по ссылкам. Будет много картинок. Почти все иллюстрации перерисованы из книги на Python.
Читать полностью »

Пара мыслей об особенностях Российского Data Science - 1

Сегодня на Moscow Data Science Major рассказывал про приватность, этичный Data Science, и много интересных технических новинок. Люди внимательно слушали, задавали вопросы, благодарили. Но то что произошло потом было очень показательно. Об этом под катом.

Читать полностью »

Автор материала провел серию бесед с экспертами в области анализа и обработки данных и сделал выводы о перспективах и направлениях развития дата-сайентистов.

Чем на самом деле занимаются специалисты по анализу данных? Выводы из 35 интервью - 1

Теория и методы обработки данных упростили решение самых разных задач в сфере технологий. Сюда относится оптимизация поисковой выдачи Google, рекомендации в LinkedIn, формирование заголовков материалов на Buzzfeed. Однако работа с данными может ощутимо повлиять и на многие сектора экономики: от розничной торговли, телекоммуникаций, сельского хозяйства до здравоохранения, грузовых перевозок и пенитенциарных систем.
 
И все же термины «наука о данных», «теория и методы анализа данных» и «специалист по анализу данных» (data scientist) остаются понятны не до конца. На практике они употребляются для описания широкого спектра методов работы с информацией.
 
Что на самом деле делают специалисты по data science? Как ведущий подкаста DataFramed я получил замечательную возможность провести интервью более чем с 30 специалистами в области анализа данных из разнообразных отраслей и академических дисциплин. В числе прочего я всякий раз спрашивал, в чем именно состоит их работа.
 
Наука о данных — это действительно обширная область. Мои гости подходили к нашим беседам со всевозможных позиций и точек зрения. Они описывали самую разную деятельность, в том числе масштабные онлайн-фреймворки для разработки продуктов на booking.com и Etsy, используемые Buzzfeed методы решения задачи многорукого бандита в ходе оптимизации заголовков материалов и влияние, которое машинное обучение оказывает на принятие бизнес-решений в Airbnb.Читать полностью »

Неделю назад я делал здесь обзор существующих алгоритмов рекомендаций. В этой статье я продолжу данный обзор: расскажу об item-based варианте коллаборативной фильтрации, о методах, основанных на матричных разложениях, проблемах тестирования, а также о менее «раскрученных» (но не менее интересных) алгоритмах.

Анатомия рекомендательных систем. Часть вторая - 1

Читать полностью »

На Google и Facebook легко свалить вину, но на самом деле компании собирали, продавали и повторно использовали наши личные данные в течение десятилетий, а теперь, когда общественность наконец заметила, уже слишком поздно. Война за приватность давно закончилась, и мы проиграли.

Добро пожаловать в эпоху нигилизма приватности - 1
Месторождение природного газа в Дервезе (Туркменистан) провалилось в подземную пещеру, создав непрерывно горящий кратер диаметром 69 м. Его называют «Врата в ад». Фото: Giles Clarke / Getty

Бариста обжигается на работе, покупает крем для ожогов в магазине Target, а позже в тот день видит рекламу этого продукта в Facebook. В другом Target кто-то кричит товарищу взять Red Bull; по дороге домой Instagram выводит спонсорское сообщение с этим напитком. Женщина занимается выпечкой и вслух восклицает, что хорошо бы купить миксер KitchenAid — и через несколько мгновений видит рекламу на телефоне. Два друга говорят о недавних поездках в Японию, а вскоре одному из них предлагают билеты со скидкой. Охрана аэропорта конфисковала у девушки флакон духов, а по приезду она видит рекламу местных парфюмерных магазинов в Facebook. Это лишь некоторые из многих странных совпадений, которые вызывают у современных пользователей неприятное чувство слежки и потери приватности. Причины иногда безобидны, а иногда и нет. По мере того как эти технологии выходят на свет, некоторые из них требуют нормативного или правового регулирования.
Читать полностью »

KDD 2018, день пятый, завершающий - 1

Вот и завершился пятый, последний день KDD. Удалось услышать несколько интересных докладов от Facebook и Google AI, помайнить футбольные тактики и погенерировать немного химикатов. Об этом и не только — под катом. До встречи через год в Анкоридже, столице Аляски!
Читать полностью »

image

Сейчас все очень много говорят про искусственный интеллект и его применение во всех сферах работы компании. Однако есть некоторые области, где еще с давних времён главенствует один вид модели, так называемый «белый ящик» — логистическая регрессия. Одна из таких областей – банковский кредитный скоринг.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js