Рубрика «обучение без учителя»

Вы хотите выучить иностранный язык, определитесь зачем он вам нужен. Работа? Учёба? Путешествия? Потребление контента на языке оригинала? Вам нужно выучить его срочно или нет?

Если вам прямо завтра нужно уезжать в другую страну для работы, то вам будет полезно выучить основные грамматические правила языка и начальную лексику. Это не позволит вам свободно говорить или понимать кого-то, но так вы сможете "вычленять" слова из речи собеседника, чтобы понимать ключевые слова, основную суть и самим общаться отдельными словами "Я. Есть. Хотеть"

Читать полностью »

Пару лет назад мы рассказали о том, как в системе Антиплагиат устроен поиск русского перевода английских статей. Естественно, без машинного переводчика в алгоритме не обойтись. В основе машинного переводчика, конечно, лежит машинное обучение, которое, в свою очередь, требует весьма значительного количества «параллельных предложений», т.е. одинаковых по смыслу предложений, написанных на двух языках. Значительное количество — это миллионы предложений, и чем больше, тем лучше. Понятно, что для русско-английской пары найти такую базу (в том числе и в открытом доступе) реально. А что делать с теми языковыми парами, для которых параллельных предложений принципиально не может быть слишком много?

Казалось бы, не имея в распоряжении большого объема обучающих примеров, обучить систему машинного перевода невозможно. Но на помощь приходит идеология Unsupervised Learning, или «обучение без учителя». Ну а чтобы задача была действительно интересной (особенно порадует она фанатов вселенной Стартрека), мы будем обучать наш машинный переводчик для пары языков «английский – клингонский».

Самоучитель клингонского - 1Источник картинки: Собственное творчество от команды Антиплагиата

А самым подходящим девизом к дальнейшему рассказу о применении Unsupervised Learning будет знаменитая выдержка из Инструкции клингонского почетного караула «Если не можешь контролировать себя, тебе не дано командовать другими».

Читать полностью »

IGNG — инкрементальный алгоритм растущего нейронного газа - 1

При написании статьи о разработке детектора аномалий я реализовывал один из алгоритмов, который называется "Инкрементальный растущий нейронный газ".
В советской литературе российском сегменте Интернета эта тема освещена достаточно слабо, и нашлась только одна статья, да и то с прикладным применением данного алгоритма.

Итак, что же такое — алгоритм инкрементального растущего нейронного газа?

Читать полностью »

На самом деле три — четыре года назад мне совершенно не хотелось становиться тестировщиком. Я даже не слышал о такой профессии и не имел совершенно никакого представления, чем эти самые тестировщики занимаются. Читать полностью »

Привет! Задача снижения размерности является одной из важнейших в анализе данных и может возникнуть в двух следующих случаях. Во-первых, в целях визуализации: перед тем, как работать с многомерными данными, исследователю может быть полезно посмотреть на их структуру, уменьшив размерность и спроецировав их на двумерную или трехмерную плоскость. Во-вторых, понижение размерности полезно для предобработки признаков в моделях машинного обучения, поскольку зачастую неудобно обучать алгоритмы на сотне признаков, среди которых может быть множество зашумленных и/или линейно зависимых, от них нам, конечно, хотелось бы избавиться. Наконец, уменьшение размерности пространства значительно ускоряет обучение моделей, а все мы знаем, что время — это наш самый ценный ресурс.

UMAP (Uniform Manifold Approximation and Projection) — это новый алгоритм уменьшения размерности, библиотека с реализацией которого вышла совсем недавно. Авторы алгоритма считают, что UMAP способен бросить вызов современным моделям снижения размерности, в частности, t-SNE, который на сегодняшний день является наиболее популярным. По результатам их исследований, у UMAP нет ограничений на размерность исходного пространства признаков, которое необходимо уменьшить, он намного быстрее и более вычислительно эффективен, чем t-SNE, а также лучше справляется с задачей переноса глобальной структуры данных в новое, уменьшенное пространство.

В данной статье мы постараемся разобрать, что из себя представляет UMAP, как настраивать алгоритм, и, наконец, проверим, действительно ли он имеет преимущества перед t-SNE.

Обзор нового алгоритма уменьшения размерности UMAP. Действительно ли он лучше и быстрее, чем t-SNE? - 1
Читать полностью »

image

18 декабря стартовал отборочный тур для участия в хакатоне DeepHack.Babel от Лаборатории нейронных систем и глубокого обучения МФТИ. Акцент будет сделан на нейросетевой машинный перевод, набирающий популярность в исследовательском сообществе и уже использующийся в коммерческих продуктах. Причем обучить систему машинного перевода нужно будет, вопреки общепринятой практике, на непараллельных данных — то есть, в терминах машинного обучения, без привлечения учителя. Если вы еще размышляете над регистрацией, рассказываем, зачем это нужно.
Читать полностью »

В моей прошлой статье посвящённой освоению науки о данных (или по заграничному — Data Science) с абсолютного нуля (даже ниже чем -273 градуса по Кельвину) я обещал, что подготовлю материал о том, как я осваивал kaggle (буду писать с маленькой буквы, как у них на логотипе).

Для тех, кто так же, как и я только начинает знакомится с данным вопросом, поясню что как я понял kaggle это сайт, посвящённый соревнованиям и в некоторой степени обучению в области Data Science, где каждый может совершенно бесплатно и используя любые доступные инструменты, сделать прогноз по той или иной задаче.

Слов на ветер бросать не люблю, раз уж пообещал, то хочешь не хочешь — пиши, поэтому если вам интересно что же в итоге у меня из всего это вышло прошу под кат.

«Айсберг вместо Оскара!» или как я пробовал освоить азы DataScience на kaggle - 1
Читать полностью »

Положительная реакция читателей на предыдущие статьи про перепитии разработки нашей настольной игры «Битва Големов. Учимся программировать роботов» и о том, как мы пытались вместить в нее большое методическое наполнение, а также комментарии к ним настроили на лад написать продолжение, которое касается «внутренностей» игры и «кухни» разработки.

Битва Големов. Как дополнения могут изменить игру и надо ли бояться разрабатывать новинки, не выпустив старое… - 1

Но на этот раз речь пойдет о дополнениях к игре. Вы можете справедливо возмутиться — какие дополнения, если игра еще не «окоробилась» (она только собирает деньги на это)? Вот выпустите первый вариант, посмотрите на успех, а затем…
Читать полностью »

Битва Големов – как играя обучить детей и взрослых программированию и робототехнике без компьютера - 1

Мы (команда ПРОСТОРОБОТ) уже писали о настольной игре, разработке которой посвятили последние два года, в нашей статье, предостерегающих начинающих «гемдизайнеров» от подводных камней и рифов выхода на рынок. Мы сами также находимся на финишном пути и путь нам указывает маяк уверенности в востребованности игры и поддержка ее поклонников.

Теперь же хочется рассказать о самой идее игры, процессе достижения результата и показать, что даже с помощью простых механик при достаточной методической и дизайнерской проработке можно добиться хороших результатов и достигнуть поставленной цели.
Читать полностью »

image

Сегодня нам хотелось бы затронуть такую тему как создание сайта для проведения онлайн-курсов. Онлайн-обучение становится все более и более востребованным – посмотрите хотя бы какой популярностью пользуются курсы, предлагаемые Нетологией! Мы вовсе не планируем открывать Америку, просто хотим поделиться интересной статьей про один из инструментов, которым только начинаем пользоваться в своей ежедневной деятельности компании, готовящей к сдаче тестов на английском языке.

Ниже представлен адаптированный перевод статьи Шэрон Харли Холл о том, как с помощью плагина CoursesPress можно создать оптимизированный сайт для проведения онлайн-курсов. Итак, поехали.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js