В этой статье мы поговорим о понимании языка (о лингвистических вычислениях, таких как назначение меток, синтаксический анализ и так далее) и обратим особое внимание на два API: Linguistic Analysis API и интеллектуальную службу распознавания речи (LUIS). Если вы любите английский язык так же как русский и увлекаетесь обучением искусственного интеллекта, добро пожаловать под кат.
Рубрика «машинное обучение» - 243
Cognitive Services & LUIS: Введение в распознавание естественного языка
2017-02-10 в 8:27, admin, рубрики: AI, artificial intelligence, data mining, LUIS, machine learning, microsoft, microsoft cognitive services, ml, Алгоритмы, Блог компании Microsoft, искусственный интеллект, когнитивные сервисы, машинное обучениеКак получать пятёрки с помощью анализа данных?
2017-02-09 в 23:46, admin, рубрики: анализ данных, визуализация, визуализация данных, машинное обучение
Привет! Я уверен, что среди нас есть много студентов и, наверное, все из них признают, что на своём студенческом пути встречали такие науки, о гранит которых можно сломать зубы. Вот поэтому хочу вам рассказать о том, как хобби — наука о данных, помогло мне сдать один из самых сложных предметов в семестре на пятёрку. Если вам интересно — прошу под кат.
Читать полностью »
Машинный поиск аномалий в поведении интернет-магазинов и покупателей
2017-02-09 в 13:55, admin, рубрики: антифрод, безопасность платежей, Блог компании Яндекс.Деньги, информационная безопасность, машинное обучение, платежные системы
Какое-то время назад мы подключили модуль машинного обучения к системе, которая защищает платежи и переводы в Яндекс.Деньгах от мошенничества. Теперь она понимает, когда происходит нечто подозрительное, даже без явных инструкций в настройках.
В статье я расскажу о методиках и сложностях поиска аномалий в поведении покупателей и магазинов, а также о том, как использовать модели машинного обучения, чтобы все это взлетело.Читать полностью »
Черновик книги Эндрю Ына «Жажда машинного обучения», главы 1-7
2017-02-08 в 15:35, admin, рубрики: big data, data mining, машинное обучение, стратегии для инженеров, Эндрю Ын, метки: Эндрю ЫнВ декабре прошлого года в переписке американских коллег по data science прокатилась волна обсуждения долгожданного черновика новой книги гуру машинного обучения Эндрю Ына (Andrew Ng) «Жажда машинного обучения: стратегии для инженеров в эпоху глубинного обучения». Долгожданного, потому что книга была анонсирована ещё летом 2016 года, и вот, наконец, появилось несколько глав.

Представляю вниманию Хабра-сообщества перевод первых семи глав из доступных в настоящий момент четырнадцати. Замечу, что это не финальный вариант книги, а черновик. В нем есть ряд неточностей. Эндрю Ын предлагает писать свои комментарии и замечания сюда. Начинает автор с вещей, которые кажутся очевидными. Дальше ожидаются более сложные концепции.
Читать полностью »
Нейробайесовский подход к задачам машинного обучения. Лекция Дмитрия Ветрова в Яндексе
2017-02-08 в 12:02, admin, рубрики: байесовские сети, байесовский вывод, байесовский подход, Блог компании Яндекс, задача оптимизации, латентность, математика, машинное обучение, метод главных компонент, нейронные сети, регуляризация, теорема БайесаЭтим постом мы завершаем серию лекций с Data Fest. Одним из центральных событий конференции стал доклад Дмитрия Ветрова — профессора факультета компьютерных наук НИУ ВШЭ. Дмитрий входит в число самых известных в России специалистов по машинному обучению и, начиная с прошлого года, работает в Яндексе ведущим исследователем. В докладе он рассказывает об основах байесовского подхода и объясняет, какие преимущества дает этот подход при использовании нейронных сетей.
Под катом — расшифровка и часть слайдов.
Техносфере Mail.Ru — три года
2017-02-08 в 11:45, admin, рубрики: big data, data mining, mail.ru, Блог компании Mail.Ru Group, машинное обучение, разработка, Техносфера, учебные материалы
Сегодня исполнилось три года с момента запуска одного из наших образовательных проектов — Техносферы Mail.Ru, появившийся совместно с факультетом ВМК МГУ им. Ломоносова. Программа Техносферы рассчитана на подготовку специалистов в сфере больших данных. Изначально она была рассчитана на один год и состояла из шести дисциплин. Однако спустя год мы пересмотрели программу и сделали её двухгодичной. В течение четырёх семестров студенты изучают 12 дисциплин, выполняя большой объём практических работ. Заодно был разработан подготовительный курс «Алгоритмы и структуры данных».
В Техносферу принимают студентов 2—4-х курсов. Несмотря на то что схема вступительных экзаменов во все наши образовательные проекты одинакова (студенты сдают онлайн-тест и проходят очное собеседование), в Техносфере мы больше ориентируемся на базовые знания по высшей математике. Помимо чтения лекций мы создали лабораторию, где студенты работают с реальными задачами, с которыми мы сталкиваемся в Mail.Ru Group. Например, пытаются улучшить аналитические алгоритмы, создать определённые эвристики. То есть делают всё то же самое, что они делали бы во время обычной стажировки в компании. С осени 2015 года в лаборатории начали проводить и научные исследования. Например, изучаются возможности применения нейронных сетей для решения тех или иных бизнес-задач.
И в честь дня рождения мы выкладываем список учебных материалов, которые рекомендованы к изучению нашим студентам на протяжении всего двухлетнего курса.
Читать полностью »
Neurostream — новый чип для глубокого обучения
2017-02-07 в 7:33, admin, рубрики: deep learning, Neurostream, Блог компании 1cloud.ru, машинное обучение, метки: NeurostreamВысокопроизводительные вычислительные системы уже находят применение для памяти с высокой пропускной способностью (HBM) и технологии Hybrid Memory Cube (HMC). В этом направлении активно ведутся разработки.
Ученые из Болонского университета в конце января представили архитектуру для вычислений в памяти (PIM), способную эффективно работать с глубокими свёрточными нейронными сетями. Она получила название Neurostream.
Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации
2017-02-06 в 13:36, admin, рубрики: Алгоритмы, биология, искусственный интеллект, математика, машинное обучение, нейрон, нейронные сети, параллельное программирование, Программирование, смысл, сознание
В предыдущей части были сформулированы требования к процедуре универсального обобщения. Одно из требований гласило, что результат обобщения должен не просто содержать набор понятий, кроме этого полученные понятия обязаны формировать некое пространство, в котором сохраняются представление о том, как полученные понятия соотносятся между собой.
Если рассматривать понятия как «точечные» объекты, то такую структуру можно отчасти описать матрицей взаимных расстояний и представить в виде взвешенного графа, где вершины — это понятия, а каждому ребру сопоставлено число, соответствующее расстоянию между понятиями, которые это ребро соединяет.
Ситуация несколько усложняется, когда понятия имеют природу множеств (рисунок ниже). Тогда возможны формулировки типа: «понятие C содержит понятия A и B», «понятия A и B различны», «понятия A и B имеют нечто общее». Если положить, что близость определяется в интервале от 0 до 1, то про рисунок слева можно сказать: «близость A и C равна 1, близость B и C равна 1, близость A и B равна 0).
Читать полностью »
Интересные алгоритмы кластеризации, часть первая: Affinity propagation
2017-02-06 в 5:38, admin, рубрики: affinity propagation, clustering, data mining, graphs, Алгоритмы, математика, машинное обучение, метки: affinity propagationЕсли вы спросите начинающего аналитика данных, какие он знает методы классификации, вам наверняка перечислят довольно приличный список: статистика, деревья, SVM, нейронные сети… Но если спросить про методы кластеризации, в ответ вы скорее всего получите уверенное «k-means же!» Именно этот золотой молоток рассматривают на всех курсах машинного обучения. Часто дело даже не доходит до его модификаций (k-medians) или связно-графовых методов.
Не то чтобы k-means так уж плох, но его результат почти всегда дёшев и сердит. Есть более совершенные способы кластеризации, но не все знают, какой когда следует применять, и очень немногие понимают, как они работают. Я бы хотел приоткрыть завесу тайны над некоторыми алгоритмами. Начнём с Affinity propagation.

Нейронные сети, генетические алгоритмы и прочее… Мифы и реальность
2017-02-03 в 13:04, admin, рубрики: Алгоритмы, машинное обучение, проблемы искусственного интеллекта, Семантика, метки: проблемы искусственного интеллектаВ продолжение статьи «Сравнение технологических подходов к решению задач по извлечению данных» рассмотрим технологии, наиболее часто упоминающиеся в связи с понятием «искусственный интеллект» в контексте поисковых задач. На habrahabr.ru опубликовано множество статей на эту тему, например, об использовании нейросетей в поиске Яндкса, в которой говорится что «Фактически, формулу ранжирования пишет машина (получалось около 300 мегабайт)», о глубоком обучении, о вероятностном программировании и т.д.
Хотелось бы рассмотреть данную тему с точки зрения философии логики, определить границы и проблемы применимости и немного порассуждать о возможности решения с помощью нейронных сетей задач машинного обучения?
В качестве основы для наших рассуждений мы можем выбрать любую из приведенных ниже технологий. Ввиду того, что наиболее часто упоминается нейронные сети, их и возьмем. Набрав что-то про нейросети в поисковой строке, мы получим огромную массу статей о «невообразимых» успехах, достигнутых нейронными сетями. Это и сообщения о новых аппаратных решениях, например, и спиновые электронные устройства, и заявления IBM, о том что нейронные сети по анализу слов смогут выявлять психические болезни, и «супергеройское» зрение, и множество других чудес науки. Поэтому, попробуем сделать краткий обзор текущего положения дел.
Читать полностью »


