Рубрика «обучение без учителя»

Пару лет назад мы рассказали о том, как в системе Антиплагиат устроен поиск русского перевода английских статей. Естественно, без машинного переводчика в алгоритме не обойтись. В основе машинного переводчика, конечно, лежит машинное обучение, которое, в свою очередь, требует весьма значительного количества «параллельных предложений», т.е. одинаковых по смыслу предложений, написанных на двух языках. Значительное количество — это миллионы предложений, и чем больше, тем лучше. Понятно, что для русско-английской пары найти такую базу (в том числе и в открытом доступе) реально. А что делать с теми языковыми парами, для которых параллельных предложений принципиально не может быть слишком много?

Казалось бы, не имея в распоряжении большого объема обучающих примеров, обучить систему машинного перевода невозможно. Но на помощь приходит идеология Unsupervised Learning, или «обучение без учителя». Ну а чтобы задача была действительно интересной (особенно порадует она фанатов вселенной Стартрека), мы будем обучать наш машинный переводчик для пары языков «английский – клингонский».

Самоучитель клингонского - 1Источник картинки: Собственное творчество от команды Антиплагиата

А самым подходящим девизом к дальнейшему рассказу о применении Unsupervised Learning будет знаменитая выдержка из Инструкции клингонского почетного караула «Если не можешь контролировать себя, тебе не дано командовать другими».

Читать полностью »

IGNG — инкрементальный алгоритм растущего нейронного газа - 1

При написании статьи о разработке детектора аномалий я реализовывал один из алгоритмов, который называется "Инкрементальный растущий нейронный газ".
В советской литературе российском сегменте Интернета эта тема освещена достаточно слабо, и нашлась только одна статья, да и то с прикладным применением данного алгоритма.

Итак, что же такое — алгоритм инкрементального растущего нейронного газа?

Читать полностью »

На самом деле три — четыре года назад мне совершенно не хотелось становиться тестировщиком. Я даже не слышал о такой профессии и не имел совершенно никакого представления, чем эти самые тестировщики занимаются. Читать полностью »

Привет! Задача снижения размерности является одной из важнейших в анализе данных и может возникнуть в двух следующих случаях. Во-первых, в целях визуализации: перед тем, как работать с многомерными данными, исследователю может быть полезно посмотреть на их структуру, уменьшив размерность и спроецировав их на двумерную или трехмерную плоскость. Во-вторых, понижение размерности полезно для предобработки признаков в моделях машинного обучения, поскольку зачастую неудобно обучать алгоритмы на сотне признаков, среди которых может быть множество зашумленных и/или линейно зависимых, от них нам, конечно, хотелось бы избавиться. Наконец, уменьшение размерности пространства значительно ускоряет обучение моделей, а все мы знаем, что время — это наш самый ценный ресурс.

UMAP (Uniform Manifold Approximation and Projection) — это новый алгоритм уменьшения размерности, библиотека с реализацией которого вышла совсем недавно. Авторы алгоритма считают, что UMAP способен бросить вызов современным моделям снижения размерности, в частности, t-SNE, который на сегодняшний день является наиболее популярным. По результатам их исследований, у UMAP нет ограничений на размерность исходного пространства признаков, которое необходимо уменьшить, он намного быстрее и более вычислительно эффективен, чем t-SNE, а также лучше справляется с задачей переноса глобальной структуры данных в новое, уменьшенное пространство.

В данной статье мы постараемся разобрать, что из себя представляет UMAP, как настраивать алгоритм, и, наконец, проверим, действительно ли он имеет преимущества перед t-SNE.

Обзор нового алгоритма уменьшения размерности UMAP. Действительно ли он лучше и быстрее, чем t-SNE? - 1
Читать полностью »

image

18 декабря стартовал отборочный тур для участия в хакатоне DeepHack.Babel от Лаборатории нейронных систем и глубокого обучения МФТИ. Акцент будет сделан на нейросетевой машинный перевод, набирающий популярность в исследовательском сообществе и уже использующийся в коммерческих продуктах. Причем обучить систему машинного перевода нужно будет, вопреки общепринятой практике, на непараллельных данных — то есть, в терминах машинного обучения, без привлечения учителя. Если вы еще размышляете над регистрацией, рассказываем, зачем это нужно.
Читать полностью »

В моей прошлой статье посвящённой освоению науки о данных (или по заграничному — Data Science) с абсолютного нуля (даже ниже чем -273 градуса по Кельвину) я обещал, что подготовлю материал о том, как я осваивал kaggle (буду писать с маленькой буквы, как у них на логотипе).

Для тех, кто так же, как и я только начинает знакомится с данным вопросом, поясню что как я понял kaggle это сайт, посвящённый соревнованиям и в некоторой степени обучению в области Data Science, где каждый может совершенно бесплатно и используя любые доступные инструменты, сделать прогноз по той или иной задаче.

Слов на ветер бросать не люблю, раз уж пообещал, то хочешь не хочешь — пиши, поэтому если вам интересно что же в итоге у меня из всего это вышло прошу под кат.

«Айсберг вместо Оскара!» или как я пробовал освоить азы DataScience на kaggle - 1
Читать полностью »

Положительная реакция читателей на предыдущие статьи про перепитии разработки нашей настольной игры «Битва Големов. Учимся программировать роботов» и о том, как мы пытались вместить в нее большое методическое наполнение, а также комментарии к ним настроили на лад написать продолжение, которое касается «внутренностей» игры и «кухни» разработки.

Битва Големов. Как дополнения могут изменить игру и надо ли бояться разрабатывать новинки, не выпустив старое… - 1

Но на этот раз речь пойдет о дополнениях к игре. Вы можете справедливо возмутиться — какие дополнения, если игра еще не «окоробилась» (она только собирает деньги на это)? Вот выпустите первый вариант, посмотрите на успех, а затем…
Читать полностью »

Битва Големов – как играя обучить детей и взрослых программированию и робототехнике без компьютера - 1

Мы (команда ПРОСТОРОБОТ) уже писали о настольной игре, разработке которой посвятили последние два года, в нашей статье, предостерегающих начинающих «гемдизайнеров» от подводных камней и рифов выхода на рынок. Мы сами также находимся на финишном пути и путь нам указывает маяк уверенности в востребованности игры и поддержка ее поклонников.

Теперь же хочется рассказать о самой идее игры, процессе достижения результата и показать, что даже с помощью простых механик при достаточной методической и дизайнерской проработке можно добиться хороших результатов и достигнуть поставленной цели.
Читать полностью »

image

Сегодня нам хотелось бы затронуть такую тему как создание сайта для проведения онлайн-курсов. Онлайн-обучение становится все более и более востребованным – посмотрите хотя бы какой популярностью пользуются курсы, предлагаемые Нетологией! Мы вовсе не планируем открывать Америку, просто хотим поделиться интересной статьей про один из инструментов, которым только начинаем пользоваться в своей ежедневной деятельности компании, готовящей к сдаче тестов на английском языке.

Ниже представлен адаптированный перевод статьи Шэрон Харли Холл о том, как с помощью плагина CoursesPress можно создать оптимизированный сайт для проведения онлайн-курсов. Итак, поехали.
Читать полностью »

О бедном Puzzle замолвите слово. Обзор представителей самой популярной категории детских приложений
Puzzle, наверное, самый популярный жанр приложений для детей. Такой проект есть почти у всех начинающих разработчиков. Логика проста — дети любят пазлы, техническая реализация сравнительно не сложная — почему бы и нет. К сожалению, в итоге, количество низкокачественных поделок на эту тему в AppStore зашкаливает и родителям очень сложно найти что-то достойное и полезное для своих детей.
Поэтому, заручившись поддержкой большинства читателей в первом обзоре полезных детских приложений, предлагаем вашем вниманию три наиболее привлекательные и эффективные в плане обучения игры-пазлы, выпущенные в 2013 году.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js