Современные нейросети для успешного обучения требуют обучающие датасеты большого размера. Они не умеют что-то понимать с одного примера. Это затрудняет их использование в тех областях, где больших датасетов не создано. В то же время, человеку нередко бывает достаточно пары частных примеров, чтобы сделать глубокое обобщение. Предлагаю поговорить о том, что уже имеется по этой проблеме, и что из нейрофизиологии можно было бы (наверное) использовать для улучшения ситуации.
Читать полностью »
Рубрика «Семантика» - 12
О проблеме one-shot обучения для нейросетей
2016-05-30 в 18:15, admin, рубрики: connectome, fast mapping, overfitting, remodelling, rewiring, Алгоритмы, ассоциативная память, гипотезы, машинное обучение, нейробиология, Семантика, метки: connectome, overfitting, remodelling, rewiring, гипотезыВведение в продолжения и макросы на Scheme
2016-05-30 в 13:09, admin, рубрики: call/cc, continuations, guile, Scheme, Алгоритмы, макросы, Программирование, продолжения, Семантика, метки: call/cc, continuations, Guile, Scheme, продолженияЕсли вы не слышали о call/cc, то вам определённо стоит познакомиться с этим мощным инструментом! Поговорим о продолжении (call/cc), простой, но трудно понимаемой конструкции, обладающей огромной силой в правильных руках. Реализуем с их помощью механизм yield/next/for… in, аналогичный таковому в Python. Обернём внутренности с помощью макроса — ещё одного интересного механизма Scheme.
Статья ориентирована на начинающих программистов. Лисперы вряд ли почерпнут что-то новое, но я буду благодарен за найденные ошибки.
Не мы такие — жизнь такая: Тематический анализ для самых нетерпеливых
2016-05-26 в 19:15, admin, рубрики: big data, data mining, nlp, relap, Блог компании Surfingbird, классификация, машинное обучение, нативная реклама, рекомендательные системы, Семантика, тематическое моделирование, формула Байеса, метки: формула Байеса
Почему?
Сейчас Relap.io генерирует 40 миллиардов рекомендаций в месяц на 2000 медиаплощадках Рунета. Почти любая рекомендательная система, рано или поздно, приходит к необходимости брать в расчет содержимое рекомендуемого контента, и довольно быстро упирается в необходимость как-то его классифицировать: найти какие-то кластеры или хотя бы понизить размерность для описания интересов пользователей, привлечения рекламодателей или еще для каких-то темных или не очень целей.
Задача звучит довольно очевидно и существует немало хорошо зарекомендовавших себя алгоритмов и их реализаций: Латентное размещение Дирихле (LDA), Вероятностный латентно-семантический анализ (pLSA), явный семантический анализ (ESA), список можно продолжить. Однако, мы решили попробовать придумать что-нибудь более простое, но вместе с тем, жизнеспособное.
Читать полностью »
Сосчитать незримое: достоверно определяем словарный запаc
2016-05-19 в 16:41, admin, рубрики: Алгоритмы, Блог компании Онлайн-школа английского Skyeng, изучение языка, корпус текстов, лингвистический анализ, Семантика, метки: изучение языка, корпус текстов, лингвистический анализ
В школе Skyeng мы редко обучаем английскому с нуля. Обычно к нам приходят люди, уже обладающие каким-то набором знаний, причем этот набор бывает самым разным. Для того, чтобы обучение было полезным, нам нужно как-то определить границу этих знаний. Если в случае грамматики это относительно просто (выясняется на первых занятиях с методистом), то уточнение границ словарного запаса – задача не самая тривиальная. Для ее решения мы разработали и запустили инструмент WordMash.
Создание экспертной системы в Wi!Mi 1.1
2016-04-05 в 10:41, admin, рубрики: IDE, tutorial, Wi!Mi, XML, Алгоритмы, миварный подход, Семантика, создание алгоритмов, экспертная система, метки: Wi!Mi, миварный подход, создание алгоритмов, экспертная система Wi!Mi – это инструмент для создания моделей знаний с неограниченным количеством связей, параметров и отношений, обладающий логическим выводом. Скачать данный конструктор можно с официального сайта.
К сожалению, адекватного туториала по данной программе я не нашел, не считая видеоурока на youtube. Поэтому решил написать его самостоятельно.
Читать полностью »
Частотный словарь запрещенных сайтов
2016-03-29 в 15:22, admin, рубрики: data mining, визуализация данных, запрещенные сайты, корпус слов, открытые данные, Роскомнадзор, СемантикаИсследование проводилось в целях создания корпуса слов сайтов, заблокированных государственными органами Российской Федерации.
Читать полностью »
Четыре слова, которые нельзя (исследование русской обсценной лексики на материалах соц.медиа)
2016-03-29 в 13:45, admin, рубрики: big data, data mining, обсценная лексика, Семантика, соц.сетиОдин мой приятель, учитель латинского языка, в начале урока спрашивал своих студентов, выполнили ли они домашнее задание. Как правило, если не первый, то второй или третий ученик сознавался: простите, господин Учитель, я ничего не сделал. «Фак!» — говорил учитель. «Фак!» — повторял он, вводя в еще большее недоумение своих чад. «Сегодня мы будем проходить глагол третьего спряжения facio – делать», который в повелительном наклонении единственного числа так и произносится: fac! – делай!
Нет, мы не собираемся витийствовать о том, что не бывает хороших и плохих слов, а есть наша оценка оных. Также мы не будем говорить об истоках и функциях русской брани, не будем обсуждать моральную сторону вопроса, как и искать причинно-следственные связи ее употребления. Мы проведем небольшое исследование обсценной лексики на материалах русскоязычных соц. медиа, сделаем ряд замеров и расчетов на большой выборке из интернет-источников.
Читать полностью »
Русский нейросетевой чатбот
2016-03-27 в 18:23, admin, рубрики: Блог компании MeanoTek, машинное обучение, нейронные сети, поисковые технологии, разработка, Семантика, чатботО чатботах, использующих нейронные сети я уже писал некоторое время назад. Сегодня я расскажу о том как я попробовал сделать полномасштабный русскоязычный вариант.
Обучаемые диалоговые системы приобрели в последнее время неожиданную популярность. К сожалению, все что сделано в рамках нейросетевых диалоговых систем, сделано для английского языка. Но сегодня мы восполним этот пробел и научим модель говорить по русски.
Минимализм, текстовый парсинг и классификатор на оперативных шаблонах
2016-03-18 в 20:49, admin, рубрики: C, c; c++; обработка текстов;, c++, высокая производительность, поисковые технологии, Семантика, метки: c; c++; обработка текстов; Как часто нам приходится сталкиваться с обработкой текстовых потоков в реальном времени? Как минимум при каждой загрузке файлов инициализации или конфигурации и тому подобных параметрических данных. Хорошо, когда его содержимое сводится к формату «param = value» и можно воспользоваться стандартными инструментами нарезки. Но что если по ходу разработки программы возникла необходимость усложнить тексты до работы со ссылками? Или обрабатывать условия на этапе чтения? Более того реализовать ветвления? В такой ситуации обычно на скорую руку пишется парсер, занимающий первоначально некоторое количество строчек кода. Который однако со временем разрастается, начинает ветвиться и в конечном итоге приводит к самоповторению, либо заходит в самоисключающий тупик. Именно в этот момент и появляется в голове мысль, что вся суть смысловой разбивки текста сводится к определенному количеству шаблонных операций, зависимых от контекста. И все что требуется для обработки текстов любой сложности — это абстрактный обработчик шаблонов, а не сложносочиненный парсер с детальным описанием всех возникающих условий.
Читать полностью »
Что делает программное обеспечение качественным?
2016-03-16 в 18:26, admin, рубрики: html, javascript, ПО, Программирование, разработка, разработка программного обеспечения, разработка софта, Семантика
КДПВ
Кто-то создает программное обеспечение с открытым исходным кодом, а я провожу много времени размышляя над тем, как сделать программное обеспечение лучше. Бесконечный поток просьб о помощи на форумах Stack Overflow, GitHub, Slack, в электронных письмах и личных сообщениях неизбежен. К счастью, в итоге вы знаете многих людей, которые добились определенного успеха и сделали фантастические вещи, и знание о том, что вы приняли в этом участие благодаря вам и вашей помощи, является хорошей мотивацией для новых достижений.
У вас возникает вопрос: какие качества программного обеспечения приводят разработчика к успеху или к неудаче? Как я могу улучшить свой софт и помочь бо́льшему количеству людей стать успешным? Я могу ясно сформулировать некоторые основные принципы или полагаюсь на интуицию в зависимости от конкретного случая? (Рождение и воплощение одной мысли это два совершенно разных действия).
Возможно это что-то вроде принципов Дитера Рамса, способствующих качественному дизайну программного обеспечения?
- Хороший проект является инновационным.
- Хороший проект делает продукт полезным.
- Хороший проект эстетичен.
- Хороший проект делает продукт понятным.
- Хороший проект ненавязчив.
- Хороший проект честен.
- Хороший проект длителен.
- Хороший проект продуман до мельчайших деталей.
- Хороший проект безвреден для окружающей среды.
- В хорошем проекте дизайна настолько мало, насколько это возможно.