Рубрика «искусственный интеллект» - 348

Введение

Одной из задач обучения без учителя является задача нахождения топологической структуры, которая наиболее точно отражает топологию распределения входных данных. Существует несколько подходов решения этой задачи. Например, алгоритм Самоорганизующихся Карт Кохонена является методом проецирования многомерного пространства в пространство с более низкой размерностью (как правило, двумерное) с предопределенной структурой. В связи с понижением размерности исходной задачи, и предопределенной структурой сети, возникают дефекты проецирование, анализ которых является сложной задачей. В качестве одной из альтернатив данному подходу, сочетание конкурентного обучения Хебба и нейронного газа является более эффективным в построении топологической структуры. Но практическому применению данного подхода препятствует ряд проблем: необходимы априорные знания о необходимом размере сети и сложность применения методов адаптации скорости обучения к данной сети, излишняя адаптация приводит к снижению эффективности при обучении новым данным, а слишком медленная скорость адаптации вызывает высокую чувствительность к зашумленным данным.

Для задач онлайн обучения или длительного обучения, перечисленные выше методы не подходят. Фундаментальной проблемой для таких задач — это как система может приспособиться к новой информации без повреждения или уничтожения уже известной.

В данной статье рассматривается алгоритм SOINN, который частично решает озвученные выше проблемы.
Читать полностью »

Когда система рекомендаций работает с большим количеством контента, основной задачей становится не фильтрация этого контента, а его ранжирование. Если говорить о новостях — каждый день выходят сотни тысяч статей, тысячи из которых могут затрагивать интересы каждого человека, читающего новости. Но в основном пользователи не читают больше 5-10 статей в день (по данным News360). Какие статьи показать первыми?

Ответ на этот вопрос в News360 ищут уже третий год. Мы нашли уже много разных ответов, но в этом году решили отказаться от концепции, которая была основной на протяжении всех предыдущих лет.

В статье простыми словами постараюсь рассказать о том, почему в News360 сначала несколько лет работали над реализацией и развитием системы кластеризации статей по событиям и ранжирования событий, а затем выбросили этот подход и решили реализовать другой. А также немного о том, как работает News360, что под капотом и где об этом почитать.

News360 - Everything you want to read

Читать полностью »

Автоматический анализ текстов практически всегда связан с работой со словарями. Они используются для морфологического анализа, выделения персон (нужны словари личных имен и фамилий) и организаций, а также других объектов.

В общем виде словарь — множество записей вида {строка, данные ассоциированные с этой строкой}.

Например, для морфологического анализа словарь состоит из троек {словоформа, нормальная форма, морфологические характеристики}. При анализе слова «мыла» из предложения «мама мыла раму» надо уметь получать следующие варианты анализа:

Нормальная форма Характеристики
МЫЛО S (существительное), РОД (родительный падеж), ЕД (единственное число), СРЕД (средний род), НЕОД
(неодушевленность)
МЫЛО S (существительное), ИМ (именительный падеж), МН (множественное число), СРЕД (средний род), НЕОД (неодушевленность)
МЫЛО S (существительное), ВИН (винительный падеж), МН (множественное число), СРЕД (средний род), НЕОД (неодушевленность)
МЫТЬ V (глагол), ПРОШ (прошедшее время), ЕД (единственное число), ИЗЪЯВ (изъявительное наклонение), ЖЕН (женский род), НЕСОВ (несовершенный вид)

Читать полностью »

Псевдолемматизация, композиты и прочие странные словечки

Содержание цикла статей про морфологию

Не все задачи успели мы с вами обозреть в предыдущем посте, поэтому продолжать будем в этом.

Часто случается, что в интернете появляется какой-нибудь неологизм. Например, «затроллить». Слово «тролль» в словаре есть, но «затролля» уже нет, а, как мы выяснили ранее, приставка при разборе не отделяется от корня, так что мы понятия не имеем, что это за «затроллить» и как его изменять. Чтобы проанализировать это слово, нам придётся воспользоваться псевдолемматизацией. Для этого мы снова пользуемся так называемым обратным деревом окончаний (записанных справа налево).
Читать полностью »

Занимаясь алгоритмическим трейдингом, я довольно продолжительное время строил торговых роботов на основе классических индикаторов и методов технического анализа. Попутно, почитывая различные статьи, я натыкался на упоминания о нейронных сетях, которые с той или иной степенью успешности трейдеры применяют для торговли. Эта тема меня увлекла.Читать полностью »

Люди могут различать примерно 10 000 визуальных категорий высокого уровня, но мы можем различать гораздо больший спектр визуальных импульсов, называемых особыми признаками. Эти признаки могут соответствовать частям объекта, конечностям животного, архитектурным деталям, Читать полностью »

Давным давно, в 2008 году, когда я работал над своей диссертацией меня заинтересовала тема применения сверточных нейронных сетей для задач распознавания изображений. На тот момент они еще не были так популярны как сейчас и попытка найти готовые библиотеки ни к чему не привела — нашлась только реализация на Lush (языке созданном автором сверточных сетей, Яном ЛеКуном). Тогда я подумал, что можно было бы их реализовать на Матлабе используя Neural Network Toolbox. Но столкнулся с невозможностью реализации разделяемых весов в рамках этого тулбокса. И тогда было принято решение написать собственную реализацию.
Читать полностью »

Вместо введения

Памятуя итоги предыдущей, довольно сумбурной статьи, родилась мысль «съесть слона по кусочкам» и опубликовать цикл статей, вводящих в модель искусственного интеллекта DIGITID, над которой я работаю вот уже 11 лет.

Первая тема, которую крайне важно рассмотреть, это проблема понимания в искусственном интеллекте

Есть ли проблема понимания, что такое «понимание» и как оно работает?

При общении с людьми, которые интересуются искусственным интеллектом (и не только, так же и с теми, кто интересуется вопросами устройства психики, ума, личности безотносительно их симуляции и моделирования), обнаружилось, что проблема понимания требует широкого освещения и прояснения.

Так что же такое «понимание»? Когда человек говорит «я понял» что произошло? Что происходит когда человек еще не понимает? Каков процесс «понимания»? Является ли это мгновенным переходом или постепенным накоплением?

В большинстве случаев вопрос «что значит понимание» ставит собеседника в тупик. Понимание кажется чем-то очень естественным и вполне очевидным, если только не рассматривать, что же это значит пристально и пристрастно.

Чаще всего, понимание рассматривается как некое проникновение в смысл, сопоставление разрозненных фактов в единую канву, ситуацию.
Понимание тесно связано с некоторой уверенностью, ясностью, предсказаниями чего-то, что еще не обнаружено, но в связи с пониманием будет обнаружено, если этому уделить внимание.

Предлагаю хабравчанам поучаствовать в опросе ниже и предложить свои комментарии по вопросу того, что же такое понимание.
Читать полностью »

На самом деле реверс-ижиниринг интеллекта, выполняемый самим интеллектом это психология — желание понять что такое сознание, разум, психика, интеллект, всё это синонимы мыслящей системы.
Терминология психологии неточная и спорная, поэтому надо уточнять или переопределять термины. Также в область исследования входят лингвистика и программирование. Знания из лингвистики могут помочь создать универсальный логический язык для представления и обработки любой информации. Этот же логический язык программирования обеспечивает работоспособность всей системы, и эффективное распознавание образов без задержки. Работу всего логического механизма выполняет одна половина мощностей (аналог левого полушария), а вторая половина занимается параллельными вычислениями распознавания образов (правое полушарие). В современных ЭВМ также используются два разных процессора — CPU и GPU. Поэтому неплохой фундамент накопленный десятилетиями исследований определенно есть. Особенно следует отметить замечательную технологию CUDA — можно сказать что только сейчас наступило подходящее время для создания ИИ, даже в домашних условиях.
Читать полностью »

На сегодняшний день мне неизвестны доступные и легко понятные для непосвященного читателя книги по машинному обучению на русском языке. По теме написано много хороших трудов на английском, но по каким-то причинам они не переведены. Данной серией статей я преследую цель сдвинуть вектор ситуации в лучшую сторону. Если читатели положительно воспримет статью, я, по мере сил, постараюсь сделать замкнутый цикл статей по машинному обучению. Целевая аудитория — люди, желающие ознакомиться с основными задачами и методами машинного обучения, и в дальнейшем, возможно, углубить свои знания самостоятельно. Идеальный читатель знаком с основами языка программирования Python и библиотеки NumPy или желает в них разобраться. Я постараюсь свести количество математики и простыней из формул к минимуму без ущерба для качества преподносимого материала. Заинтересованный читатель всегда может узнать математическую поднаготную каждого метода в википедии, на machinelearning.ru или в соответствующей литературе.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js