Рубрика «machine learning» - 21

Математика для Data Science. Новый курс от OTUS

2019-10-08 в 13:11, admin, рубрики: data science, machine learning, Блог компании OTUS. Онлайн-образование, Карьера в IT-индустрии, математика, машинное обучение, образование

Всем привет, сегодня хотим поговорить о запуске нового курса «Математика для Data Science», а точнее целой серии курсов, подробнее об этом в нашей публикации.

Математика для Data Science. Новый курс от OTUS - 1

Не все, учась в школе, понимают, как в жизни им пригодится математика. Самый распространенный ответ – считать деньги, но не все рождаются крутыми финансистами. Это понимают и учителя математики, поэтому часто преподают через пень-колоду. И вот человек школу закончил, зачем нужна математика, так и не понял, но деньги считать (и свои, и чужие) научился, посчитал и захотел работать в IT, например, в сфере машинного обучения, чтобы зарабатывать немало. Тут-то и стало ясно, для чего нужна математика! Но школа, как и институт, уже давно прошли...Читать полностью »

Как создать модель точнее transfermarkt и не предсказывать или что больше всего влияет на стоимость трансферов

2019-09-19 в 15:33, admin, рубрики: deep learning, Fast.AI, football transfers, machine learning, машинное обучение

Я постараюсь рассказать вам насколько легко получить интересные результаты, просто применив совершенно стандартный подход из тьюториала курса по машинному обучению к не самым используемым в Deep Learning данным. Суть моего поста в том, это может каждый из нас, надо просто посмотреть на тот массив информации, который вы хорошо знаете. Для этого, фактически, гораздо важнее просто хорошо понимать свои данные, чем быть экспертом в новейших структурах нейросетей. То есть, на мой взгляд, мы находимся в той золотой точке развития DL, когда с одной стороны это уже инструмент, которым можно пользоваться без необходимости быть PhD, а с другой — еще полно областей, где его просто особо никто не применял, если посмотреть чуть дальше традиционных тем.

Как создать модель точнее transfermarkt и не предсказывать или что больше всего влияет на стоимость трансферов - 1

Читать полностью »

How we made landmark recognition in Cloud Mail.ru, and why

2019-09-18 в 14:22, admin, рубрики: computer vision, deep learning, landmark recognition, machine learning, Блог компании Mail.Ru Group, искусственный интеллект, машинное обучение, обработка изображений

How we made landmark recognition in Cloud Mail.ru, and why - 1

With the advent of mobile phones with high-quality cameras, we started making more and more pictures and videos of bright and memorable moments in our lives. Many of us have photo archives that extend back over decades and comprise thousands of pictures which makes them increasingly difficult to navigate through. Just remember how long it took to find a picture of interest just a few years ago.

One of Mail.ru Cloud’s objectives is to provide the handiest means for accessing and searching your own photo and video archives. For this purpose, we at Mail.ru Computer Vision Team have created and implemented systems for smart image processing: search by object, by scene, by face, etc. Another spectacular technology is landmark recognition. Today, I am going to tell you how we made this a reality using Deep Learning.
Читать полностью »

Угадай меня, если сможешь: прогнозирование рейтинга фильма до его выхода

2019-09-10 в 20:13, admin, рубрики: data mining, data science, machine learning, open data, python, sklearn, машинное обучение, открытые данные

Недавно мне на глаза попался датасет на Kaggle с данными о 45 тысячах фильмов с Full MovieLens Dataset. Данные содержали не только информацию об актерах, съемочной команде, сюжете и т.п., но и оценки, выставленные фильмам пользователями ресурса (26 миллионов оценок от 270 тыс.пользователей).

Стандартная задача для таких данных — это рекомендательная система. Но мне в голову почему-то пришло прогнозирование рейтинга фильма на основе информации, доступной до его выхода. Я не знаток кинематографа, и поэтому обычно ориентируюсь на рецензии, выбирая что посмотреть из новинок. Но ведь рецензенты тоже несколько biased — они-то смотрят гораздо больше разных фильмов, чем рядовой зритель. Поэтому спрогнозировать, как оценит фильм обычная публика, показалось занятным. Читать полностью »

Треугольник Паскаля vs цепочек типа «000…-111…» в бинарных рядах и нейронных сетях

2019-09-09 в 13:23, admin, рубрики: ata analysis, big data, binary Lyndon words, binomial coefficient, Binomial Theorem, boolean, data mining, machine learning, neural network, Pascal's Triangle, rules-based, tests of randomness, Алгоритмы, анализ данных, белый шум, бинарная последовательность, биномиальный коэффициент, вероятность ошибки, ГСПЧ, кластеризация данных, марковский процесс, математика, нейрон, нейронная сеть, открытые данные, ошибки первого и второго рода, Перцептрон, поиск закономерностей, последовательность, проверка гипотезы, распределение вероятностей, синапс, слова Линдона, случайный процесс, статистика, теорема Эрдёша-Реньи, треугольник Паскаля, фрактальные свойства, экспертные системы

Серия «Белый шум рисует черный квадрат»

История цикла этих публикаций начинается с того, что в книге Г.Секей «Парадоксы в теории вероятностей и математической статистике» (стр.43), было обнаружено следующее утверждение:

Треугольник Паскаля vs цепочек типа «000…-111…» в бинарных рядах и нейронных сетях - 1
Рис. 1.

По анализу комментарий к первым публикациям (часть 1, часть 2) и последующими рассуждениями созрела идея представить эту теорему в более наглядном виде.

Большинству из участников сообщества знаком треугольник Паскаля, как следствие биноминального распределения вероятностей и многие сопутствующие законы. Для понимания механизма образования треугольника Паскаля развернем его детальнее, с развертыванием потоков его образования. В треугольнике Паскаля узлы формируются по соотношению 0 и 1, рисунок ниже.

Треугольник Паскаля vs цепочек типа «000…-111…» в бинарных рядах и нейронных сетях - 2
Рис. 2.

Для понимания теоремы Эрдёша-Реньи составим аналогичную модель, но узлы будут формироваться из значений, в которых присутствуют наибольшие цепочки, состоящие последовательно из одинаковых значений. Кластеризации будет проводиться по следующему правилу: цепочки 01/10, к кластеру «1»; цепочки 00/11, к кластеру «2»; цепочки 000/111, к кластеру «3» и т.д. При этом разобьём пирамиду на две симметричные составляющие рисунок 3.

Треугольник Паскаля vs цепочек типа «000…-111…» в бинарных рядах и нейронных сетях - 3
Рис. 3.

Первое что бросается в глаза это то, что все перемещения происходят из более низкого кластера в более высокий и наоборот быть не может. Это естественно, так как если цепочка размера j сложилась, то она уже не может исчезнуть.
Читать полностью »

Линейная регрессия и методы её восстановления

2019-09-09 в 7:15, admin, рубрики: distributed computing, machine learning, math, математика, машинное обучение, распределенные системы

Источник: xkcd

Линейная регрессия является одним из базовых алгоритмов для многих областей, связанных с анализом данных. Причина этому очевидна. Это очень простой и понятный алгоритм, что способствует его широкому применению уже многие десятки, если не сотни, лет. Идея заключается в том, что мы предполагаем линейную зависимость одной переменной от набора других переменных, а потом пытаемся эту зависимость восстановить.

Но в этой статье речь пойдет не про применение линейной регрессии для решения практических задач. Здесь будут рассмотрены интересные особенности реализации распределенных алгоритмов её восстановления, с которыми мы столкнулись при написании модуля машинного обучения в Apache Ignite. Немного базовой математики, основ машинного обучения и распределенных вычислений помогут разобраться, как восстанавливать линейную регрессию, даже если данные распределены между тысячами узлов.
Читать полностью »

Как я учил змейку играть в себя с помощью Q-Network

2019-08-29 в 13:35, admin, рубрики: deep learning, machine learning, python, Q-learning, reinforcement learning, искусственный интеллект, машинное обучение

Однажды, исследуя глубины интернета, я наткнулся на видео, где человек обучает змейку с помощью генетического алгоритма. И мне захотелось так же. Но просто взять все то же самое и написать на python было бы не интересно. И я решил использовать более современный подход для обучения агентных систем, а именно Q-network. Но начнем с начала.

Обучение с подкреплением

В машинном обучении RL(Reinforcement Learning) достаточно сильно отличается от других направлений. Отличие состоит в том, что классический ML алгоритм обучается уже на готовых данных, в то время как RL, так сказать, сам создает себе эти данные. Идея RL состоит в том, что помимо самого алгоритма, который называют агентом, существует среда(environment), в которую этот агент и помещается. На каждом этапе агент должен совершать какое-то действие(action), а среда отвечает на это наградой(reward) и своим состоянием(state), на основе которого агент и совершает действие.

DQN

Здесь должно быть объяснение того, как алгоритм работает, но я оставлю ссылку на то, где это объясняют умные люди.

Читать полностью »

Интерпретируемая модель машинного обучения. Часть 2

2019-08-28 в 15:02, admin, рубрики: artificial intelligence, big data, data science, machine learning, Towards Data Science, Блог компании OTUS. Онлайн-образование, машинное обучение

Всем привет. Считанные дни остаются до старта курса «Machine Learning». В преддверии начала занятий мы подготовили полезный перевод, который будет интересен как нашим студентам, так и всем читателям блога. И сегодня делимся с вами завершающей частью данного перевода.

Интерпретируемая модель машинного обучения. Часть 2 - 1

Partial Dependence Plots

Partial Dependence Plots (графики частичной зависимости или же PDP, PD-графики) показывают незначительное влияние одного или двух признаков на прогнозируемый результат модели машинного обучения ( J. H. Friedman 2001 ). PDP может показать связь между целью и выбранными признаками с помощью 1D или 2D графиков.Читать полностью »

Компьютерное зрение видит эмоции, пульс, дыхание и ложь — но как построить на этом стартап. Разговор с Neurodata Lab

2019-08-27 в 14:32, admin, рубрики: machine learning, moikrug.ru, neurodata lab, Блог компании Мой круг, где работать в ит, Карьера в IT-индустрии, машинное обучение, Мой круг, Развитие стартапа, распознавание лиц, управление персоналом

Компьютерное зрение видит эмоции, пульс, дыхание и ложь — но как построить на этом стартап. Разговор с Neurodata Lab - 1

Наши отношения с компьютерным зрением не были такими шумными, пока оно не научилось творить чудеса с человеческими лицами. Алгоритмы подменяют людей на фото и видео, меняют возраст, расу и пол. Это и главное интернет-развлечение последних лет, и источник тревог. Сегодня приложения штурмуют чарты, завтра протестующие пилят столбы с камерами, распознающими лица. И, кажется, мы только в самом начале пути. Того, что компьютер может считать с нашего лица, будет все больше и больше.

В начале месяца мы посетили офис Neurodata Lab. Основное направление для компании — распознавание человеческих эмоций. Мы постарались выяснить как это делается и зачем нужно.

Neurodata Lab получила на «Моём круге» среднюю оценку 4,6 и среднюю рекомендацию 95% от своих сотрудников, которые выше всего оценили такие критерии, как профессиональный рост, интересные задачи, хорошие отношения с коллегами и то, что компания делает мир лучше.

Читать полностью »

Напиши свою песню за 10 минут (модуль textgenrnn Python3)

2019-08-26 в 13:28, admin, рубрики: data mining, machine learning, python, python3

Напиши свою песню за 10 минут (модуль textgenrnn Python3) - 1

Сегодня попробуем обучить свою собственную нейронную сеть, чтобы писала текст для песен. Обучающей выборкой будут тексты группы "Руки Вверх". Ничто не мешает чтобы поменять данные на тексты своих любимых групп. Для извлечения данных с веб-сайтов используем Python3 (модуль BeautifulSoup).

Задача будет состоять в том, чтобы выгрузить данные(тексты) c веб-сайтов а потом на их основе обучить нейронную сеть.

На самом деле, можно разбить работу на 2 этапа:
Этап 1: выгрузить и сохранить тексты песни в удобном формате.
Этап 2: обучить свою собственную нейронную сеть.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «machine learning» - 21

Математика для Data Science. Новый курс от OTUS

Как создать модель точнее transfermarkt и не предсказывать или что больше всего влияет на стоимость трансферов

How we made landmark recognition in Cloud Mail.ru, and why

Угадай меня, если сможешь: прогнозирование рейтинга фильма до его выхода

Треугольник Паскаля vs цепочек типа «000…-111…» в бинарных рядах и нейронных сетях

Серия «Белый шум рисует черный квадрат»

Линейная регрессия и методы её восстановления

Как я учил змейку играть в себя с помощью Q-Network

Обучение с подкреплением

DQN

Интерпретируемая модель машинного обучения. Часть 2

Partial Dependence Plots

Компьютерное зрение видит эмоции, пульс, дыхание и ложь — но как построить на этом стартап. Разговор с Neurodata Lab

Напиши свою песню за 10 минут (модуль textgenrnn Python3)