Рубрика «классификация» - 4

Спортивный анализ данных, или как стать специалистом по data science

2017-04-26 в 14:05, admin, рубрики: adam, big data, black box, data mining, data science, ImageNet, inceptionV3, kaggle, mxnet, Q-learning, resnet, xgboost, аугментация данных, блендинг, Блог компании Яндекс, валидация, классификация, конкурсы разработчиков, контест, машинное обучение, нейронные сети, распознавание изображений, Спортивное программирование, стекинг, тренировки, черный ящик

Меня зовут Пётр Ромов, я — data scientist в Yandex Data Factory. В этом посте я предложу сравнительно простой и надежный способ начать карьеру аналитика данных.

Многие из вас наверняка знают или хотя бы слышали про Kaggle. Для тех, кто не слышал: Kaggle — это площадка, на которой компании проводят конкурсы по созданию прогнозирующих моделей. Её популярность столь велика, что часто под «кэглами» специалисты понимают сами конкурсы. Победитель каждого соревнования определяется автоматически — по метрике, которую назначил организатор. Среди прочих, Kaggle в разное время опробовали Facebook, Microsoft и нынешний владелец — Google. Яндекс тоже несколько раз отметился. Как правило, Kaggle-сообществу дают решать задачи, довольно близкие к реальным: это, с одной стороны, делает конкурс интересным, а с другой — продвигает компанию как работодателя с солидными задачами. Впрочем, если вам скажут, что компания-организатор конкурса задействовала в своём сервисе алгоритм одного из победителей, — не верьте. Обычно решения из топа слишком сложны и недостаточно производительны, а погони за тысячными долями значения метрики не настолько и нужны на практике. Поэтому организаторов больше интересуют подходы и идейная часть алгоритмов.

Спортивный анализ данных, или как стать специалистом по data science - 1

Kaggle — не единственная площадка с соревнованиями по анализу данных. Существуют и другие: DrivenData, DataScience.net, CodaLab. Кроме того, конкурсы проводятся в рамках научных конференций, связанных с машинным обучением: SIGKDD, RecSys, CIKM.

Для успешного решения нужно, с одной стороны, изучить теорию, а с другой — начать практиковать использование различных подходов и моделей. Другими словами, участие в «кэглах» вполне способно сделать из вас аналитика данных. Вопрос — как научиться в них участвовать?

Читать полностью »

Как мы анализируем уязвимости с помощью нейронных сетей и нечеткой логики

2017-03-07 в 14:30, admin, рубрики: Анализ и проектирование систем, Блог компании Positive Technologies, информационная безопасность, классификация, математика, нечеткая логика

Изображение: Daniel Friedman, Flickr

В нашем блоге на Хабре мы много пишем о внедрении практик DevOps в процессы разработки и тестирования создаваемых в компании систем информационной безопасности. Задача инженера-автоматизатора не всегда заключается только в установке и поддержки какого-то сервиса, иногда необходимо решать трудоемкие исследовательские задачи.

Для решения одной из таких задач — разбора уязвимостей в ходе тестов конкурентного анализа, мы разработали собственный универсальный классификатор. О том, как работает этот инструмент, и каких результатов позволяет добиваться, и пойдет речь в нашем сегодняшнем материале. Читать полностью »

Конкурс по программированию на JS: Классификатор слов (специальные призы)

2016-10-20 в 11:23, admin, рубрики: hola, javascript, node.js, nodejs, Алгоритмы, Блог компании Hola, занимательная задача, занимательная задачка, занимательные задачи, Занимательные задачки, итоги конкурса, ищем таланты, классификатор, классификация, конкурс, конкурсы, конкурсы разработчиков, нужны разработчики, результат, результаты, соревнование, соревнования, соревнования по программированию, Спортивное программирование, требуются программисты

Мы приносим глубочайшие извинения за длинную задержку при подготовке этого поста. Сегодня мы публикуем анализ самообучающихся решений, присланных на конкурс по программированию, и вручаем два специальных приза.

Английская версия этой записи — на GitHub.

Итак, 9 из присланных решений оказались самообучающимися. Идея самообучения такова: поскольку все слова выбираются из конечного словаря, а не-слова генерируются случайно, то всякая строка, которая была представлена тестируемой программе повторно, с большей вероятностью окажется словом, чем не-словом. При достаточно продолжительном тестировании большинство слов из словаря успеют повториться, тогда как для не-слов случайные повторения встречаются гораздо реже.

Чтобы пронаблюдать поведение самообучающихся решений, мы протестировали их на 1 000 000 блоков. Тестировать на таком количестве блоков все решения было бы нереально, но эти девять оказались достаточно быстрыми.

На графике ниже показана зависимость процента правильных ответов от числа обработанных блоков. Обратите внимание, что горизонтальная шкала — логарифмическая.

Читать полностью »

Нейросеть машинного зрения обучают на реалистичных компьютерных играх

2016-09-12 в 11:14, admin, рубрики: игры, искусственный интеллект, классификация, распознавание объектов, робототехника, свёрточная нейросеть

Нейросеть машинного зрения обучают на реалистичных компьютерных играх - 1
Кадры из компьютерной игры Grand Theft Auto V и семантическая разметка для обучения нейросети машинного зрения

Нейросети ставят новые рекорды почти на всех соревнованиях по компьютерному зрению, а также всё шире используются в других приложениях ИИ. Один из ключевых компонентов такой невероятной эффективности нейросетей — доступность больших наборов данных для их обучения и оценки. Например, для оценки современных нейросетей используется Imagenet Large Scale Visual Recognition Challenge (ILSVRC) с более чем 1 миллионом изображений. Но судя по последним результатам (ResNet показател результат всего лишь 3,57% ошибок), скоро исследователям придётся составлять более обширные наборы данных. А потом — ещё более обширные. Между прочим, аннотирование таких фотографий — немалая работа, часть которой приходится делать вручную.

Некоторые разработчики систем компьютерного зрения предлагают альтернативный способ обучения и проверки таких систем. Вместо ручного аннотирования тренировочных изображений они используют синтезированные кадры из реалистичных компьютерных игр.
Читать полностью »

Конкурс по программированию на JS: Классификатор слов (окончательные результаты)

2016-06-20 в 9:55, admin, рубрики: hola, javascript, node.js, nodejs, Алгоритмы, Блог компании Hola, занимательная задача, занимательная задачка, занимательные задачи, Занимательные задачки, итоги конкурса, ищем таланты, классификатор, классификация, конкурс, конкурсы, конкурсы разработчиков, нужны разработчики, окончательный результат, результат, результаты, соревнование, соревнования, соревнования по программированию, Спортивное программирование, требуются программисты

Сегодня мы публикуем окончательные результаты конкурса по программированию и награждаем победителей.

По случайности, все трое призёров предпочли участвовать под псевдонимами. Мне кажется, с такими результатами им нечего стесняться. Если вы хотите представиться в комментариях, милости просим!

Итак, призовые места заняли:

Antelle — 83.67% правильных ответов. Приз 3000 USD.
SHB — 83.11% правильных ответов. Приз 2000 USD.
chianti — 83.00% правильных ответов. Приз 1000 USD.

Читать полностью »

Конкурс по программированию на JS: Классификатор слов (предварительные результаты)

2016-06-13 в 17:25, admin, рубрики: hola, javascript, node.js, nodejs, Алгоритмы, Блог компании Hola, занимательная задача, занимательная задачка, занимательные задачи, Занимательные задачки, итоги конкурса, ищем таланты, классификатор, классификация, конкурс, конкурсы, конкурсы разработчиков, нужны разработчики, результат, результаты, результаты тестирования, результаты тестов, соревнование, соревнования, соревнования по программированию, Спортивное программирование, требуются программисты

Спасибо за ожидание! Публикуем предварительные результаты конкурса по программированию.

Протестировано 312 решений, из них 50 упало или зависло, ещё 3 оказались слишком медленными, чтобы пройти все тесты. Из оставшихся 259 решений 12 по разным причинам были объявлены «вне конкурса»: решения не работали без поправки типа файла данных (авторы забыли галочку «gzip») или были присланы сотрудниками Hola.

Нынешние результаты — предварительные. Мы надеемся, что не допустили ошибок при подведении итогов, и тогда 20 июня 2016 эти результаты станут окончательными. Тогда же вместо идентификаторов решений будут опубликованы имена или псевдонимы их авторов.

Решение победителя конкурса показало результат в 83.67% правильных ответов. Полные списки решений с результатами тестирования находятся в английской версии поста на GitHub.

Там же мы публикуем «сырые» машиночитаемые результаты тестирования каждого из решений, где разнообразной информации больше, чем в сводных таблицах. На основе этих данных Вы можете провести собственный анализ результатов, чему мы будем очень рады.
Читать полностью »

Конкурс по программированию на JS: Классификатор слов (о ходе тестирования)

2016-06-08 в 16:38, admin, рубрики: hola, javascript, node.js, nodejs, Алгоритмы, Блог компании Hola, занимательная задача, занимательная задачка, занимательные задачи, Занимательные задачки, ищем таланты, классификатор, классификация, конкурс, конкурсы, конкурсы разработчиков, нужны разработчики, соревнование, соревнования, соревнования по программированию, Спортивное программирование, требуются программисты

Прежде всего, мы приносим всем участникам конкурса по программированию извинения за задержку с результатами. Сегодня мы публикуем все присланные решения и официальные скрипты для генерации тестов и тестирования, а также рассказываем, как идут дела с проверкой решений.

Английская версия этого поста размещена на GitHub.

Протестировать 312 решений

Большое спасибо всем участникам! Мы получили 603 решения от 312 участников. Поскольку мы принимаем к тестированию самое последнее из присланных в срок решений, то протестировать надо 312 решений. Это был неожиданный результат. Надеюсь, это немного объясняет, почему это занимает так много времени.
Читать полностью »

Конкурс по классификации слов от Hola или «где взять ещё один процент?»

2016-05-31 в 9:01, admin, рубрики: javascript, JS, Алгоритмы, классификация, конкурс, контест, лингвистика, Программирование, Спортивное программирование, эвристики

Увидел пост о конкурсе, когда прошло уже две недели после начала. Но задача показалась крайне увлекательной, и я не ошибся в этом, нырнув в решение с головой. Хочу поделиться решением на 80+% и своими впечатлениями в этом посте.

Всё моё участие прошло под вопросом «где взять ещё один процент?», но в ответ я чаще получал сотые доли процента или ничего. Итак, обо всём по порядку.
Читать полностью »

Не мы такие — жизнь такая: Тематический анализ для самых нетерпеливых

2016-05-26 в 19:15, admin, рубрики: big data, data mining, nlp, relap, Блог компании Surfingbird, классификация, машинное обучение, нативная реклама, рекомендательные системы, Семантика, тематическое моделирование, формула Байеса, метки: формула Байеса

bayesian

Почему?

Сейчас Relap.io генерирует 40 миллиардов рекомендаций в месяц на 2000 медиаплощадках Рунета. Почти любая рекомендательная система, рано или поздно, приходит к необходимости брать в расчет содержимое рекомендуемого контента, и довольно быстро упирается в необходимость как-то его классифицировать: найти какие-то кластеры или хотя бы понизить размерность для описания интересов пользователей, привлечения рекламодателей или еще для каких-то темных или не очень целей.

Задача звучит довольно очевидно и существует немало хорошо зарекомендовавших себя алгоритмов и их реализаций: Латентное размещение Дирихле (LDA), Вероятностный латентно-семантический анализ (pLSA), явный семантический анализ (ESA), список можно продолжить. Однако, мы решили попробовать придумать что-нибудь более простое, но вместе с тем, жизнеспособное.
Читать полностью »

Конкурс по программированию на JS: Классификатор слов (дополнение)

2016-05-20 в 15:50, admin, рубрики: hola, javascript, node.js, nodejs, Алгоритмы, Блог компании Hola, дополнение, занимательная задача, занимательная задачка, занимательные задачи, Занимательные задачки, ищем таланты, классификатор, классификация, конкурс, конкурсы, конкурсы разработчиков, нужны разработчики, соревнование, соревнования, соревнования по программированию, Спортивное программирование, требуются программисты

Спасибо всем, кто уже поучаствовал или собирается участвовать в нашем конкурсе по программированию!

Мы решили опубликовать ряд важных разъяснений к правилам, чтобы помочь участникам избежать типичных ошибок. Обидно было бы дисквалифицировать интересное решение из-за чисто технической ошибки.

По многочисленным просьбам мы также публикуем официальный скрипт для тестирования. С помощью него Вы можете самостоятельно проверить, работает ли Ваша программа в условиях нашей тестовой системы. Запустите скрипт без аргументов, чтобы узнать, как им пользоваться.

Для отправки работ осталась ещё неделя. Если этот пост помог Вам найти ошибку, ещё есть время её исправить.

Часто задаваемые вопросы

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «классификация» - 4

Спортивный анализ данных, или как стать специалистом по data science

Как мы анализируем уязвимости с помощью нейронных сетей и нечеткой логики

Конкурс по программированию на JS: Классификатор слов (специальные призы)

Нейросеть машинного зрения обучают на реалистичных компьютерных играх

Конкурс по программированию на JS: Классификатор слов (окончательные результаты)

Конкурс по программированию на JS: Классификатор слов (предварительные результаты)

Конкурс по программированию на JS: Классификатор слов (о ходе тестирования)

Протестировать 312 решений

Конкурс по классификации слов от Hola или «где взять ещё один процент?»

Не мы такие — жизнь такая: Тематический анализ для самых нетерпеливых

Почему?

Конкурс по программированию на JS: Классификатор слов (дополнение)

Часто задаваемые вопросы