Рубрика «Семантика» - 12

О проблеме one-shot обучения для нейросетей

2016-05-30 в 18:15, admin, рубрики: connectome, fast mapping, overfitting, remodelling, rewiring, Алгоритмы, ассоциативная память, гипотезы, машинное обучение, нейробиология, Семантика, метки: connectome, overfitting, remodelling, rewiring, гипотезы

О проблеме one-shot обучения для нейросетей - 1 Современные нейросети для успешного обучения требуют обучающие датасеты большого размера. Они не умеют что-то понимать с одного примера. Это затрудняет их использование в тех областях, где больших датасетов не создано. В то же время, человеку нередко бывает достаточно пары частных примеров, чтобы сделать глубокое обобщение. Предлагаю поговорить о том, что уже имеется по этой проблеме, и что из нейрофизиологии можно было бы (наверное) использовать для улучшения ситуации.
Читать полностью »

Введение в продолжения и макросы на Scheme

2016-05-30 в 13:09, admin, рубрики: call/cc, continuations, guile, Scheme, Алгоритмы, макросы, Программирование, продолжения, Семантика, метки: call/cc, continuations, Guile, Scheme, продолжения

Если вы не слышали о call/cc, то вам определённо стоит познакомиться с этим мощным инструментом! Поговорим о продолжении (call/cc), простой, но трудно понимаемой конструкции, обладающей огромной силой в правильных руках. Реализуем с их помощью механизм yield/next/for… in, аналогичный таковому в Python. Обернём внутренности с помощью макроса — ещё одного интересного механизма Scheme.

Статья ориентирована на начинающих программистов. Лисперы вряд ли почерпнут что-то новое, но я буду благодарен за найденные ошибки.

Читать полностью »

Не мы такие — жизнь такая: Тематический анализ для самых нетерпеливых

2016-05-26 в 19:15, admin, рубрики: big data, data mining, nlp, relap, Блог компании Surfingbird, классификация, машинное обучение, нативная реклама, рекомендательные системы, Семантика, тематическое моделирование, формула Байеса, метки: формула Байеса

bayesian

Почему?

Сейчас Relap.io генерирует 40 миллиардов рекомендаций в месяц на 2000 медиаплощадках Рунета. Почти любая рекомендательная система, рано или поздно, приходит к необходимости брать в расчет содержимое рекомендуемого контента, и довольно быстро упирается в необходимость как-то его классифицировать: найти какие-то кластеры или хотя бы понизить размерность для описания интересов пользователей, привлечения рекламодателей или еще для каких-то темных или не очень целей.

Задача звучит довольно очевидно и существует немало хорошо зарекомендовавших себя алгоритмов и их реализаций: Латентное размещение Дирихле (LDA), Вероятностный латентно-семантический анализ (pLSA), явный семантический анализ (ESA), список можно продолжить. Однако, мы решили попробовать придумать что-нибудь более простое, но вместе с тем, жизнеспособное.
Читать полностью »

Сосчитать незримое: достоверно определяем словарный запаc

2016-05-19 в 16:41, admin, рубрики: Алгоритмы, Блог компании Онлайн-школа английского Skyeng, изучение языка, корпус текстов, лингвистический анализ, Семантика, метки: изучение языка, корпус текстов, лингвистический анализ

Сосчитать незримое: достоверно определяем словарный запаc - 1

В школе Skyeng мы редко обучаем английскому с нуля. Обычно к нам приходят люди, уже обладающие каким-то набором знаний, причем этот набор бывает самым разным. Для того, чтобы обучение было полезным, нам нужно как-то определить границу этих знаний. Если в случае грамматики это относительно просто (выясняется на первых занятиях с методистом), то уточнение границ словарного запаса – задача не самая тривиальная. Для ее решения мы разработали и запустили инструмент WordMash.

Читать полностью »

Создание экспертной системы в Wi!Mi 1.1

2016-04-05 в 10:41, admin, рубрики: IDE, tutorial, Wi!Mi, XML, Алгоритмы, миварный подход, Семантика, создание алгоритмов, экспертная система, метки: Wi!Mi, миварный подход, создание алгоритмов, экспертная система

Создание экспертной системы в Wi!Mi 1.1 - 1 Wi!Mi – это инструмент для создания моделей знаний с неограниченным количеством связей, параметров и отношений, обладающий логическим выводом. Скачать данный конструктор можно с официального сайта.
К сожалению, адекватного туториала по данной программе я не нашел, не считая видеоурока на youtube. Поэтому решил написать его самостоятельно.
Читать полностью »

Частотный словарь запрещенных сайтов

2016-03-29 в 15:22, admin, рубрики: data mining, визуализация данных, запрещенные сайты, корпус слов, открытые данные, Роскомнадзор, Семантика

Исследование проводилось в целях создания корпуса слов сайтов, заблокированных государственными органами Российской Федерации.
Читать полностью »

Четыре слова, которые нельзя (исследование русской обсценной лексики на материалах соц.медиа)

2016-03-29 в 13:45, admin, рубрики: big data, data mining, обсценная лексика, Семантика, соц.сети

Один мой приятель, учитель латинского языка, в начале урока спрашивал своих студентов, выполнили ли они домашнее задание. Как правило, если не первый, то второй или третий ученик сознавался: простите, господин Учитель, я ничего не сделал. «Фак!» — говорил учитель. «Фак!» — повторял он, вводя в еще большее недоумение своих чад. «Сегодня мы будем проходить глагол третьего спряжения facio – делать», который в повелительном наклонении единственного числа так и произносится: fac! – делай!

Нет, мы не собираемся витийствовать о том, что не бывает хороших и плохих слов, а есть наша оценка оных. Также мы не будем говорить об истоках и функциях русской брани, не будем обсуждать моральную сторону вопроса, как и искать причинно-следственные связи ее употребления. Мы проведем небольшое исследование обсценной лексики на материалах русскоязычных соц. медиа, сделаем ряд замеров и расчетов на большой выборке из интернет-источников.
Читать полностью »

Русский нейросетевой чатбот

2016-03-27 в 18:23, admin, рубрики: Блог компании MeanoTek, машинное обучение, нейронные сети, поисковые технологии, разработка, Семантика, чатбот

О чатботах, использующих нейронные сети я уже писал некоторое время назад. Сегодня я расскажу о том как я попробовал сделать полномасштабный русскоязычный вариант.

Русский нейросетевой чатбот - 1

Обучаемые диалоговые системы приобрели в последнее время неожиданную популярность. К сожалению, все что сделано в рамках нейросетевых диалоговых систем, сделано для английского языка. Но сегодня мы восполним этот пробел и научим модель говорить по русски.

Читать полностью »

Минимализм, текстовый парсинг и классификатор на оперативных шаблонах

2016-03-18 в 20:49, admin, рубрики: C, c; c++; обработка текстов;, c++, высокая производительность, поисковые технологии, Семантика, метки: c; c++; обработка текстов;

Как часто нам приходится сталкиваться с обработкой текстовых потоков в реальном времени? Как минимум при каждой загрузке файлов инициализации или конфигурации и тому подобных параметрических данных. Хорошо, когда его содержимое сводится к формату «param = value» и можно воспользоваться стандартными инструментами нарезки. Но что если по ходу разработки программы возникла необходимость усложнить тексты до работы со ссылками? Или обрабатывать условия на этапе чтения? Более того реализовать ветвления? В такой ситуации обычно на скорую руку пишется парсер, занимающий первоначально некоторое количество строчек кода. Который однако со временем разрастается, начинает ветвиться и в конечном итоге приводит к самоповторению, либо заходит в самоисключающий тупик. Именно в этот момент и появляется в голове мысль, что вся суть смысловой разбивки текста сводится к определенному количеству шаблонных операций, зависимых от контекста. И все что требуется для обработки текстов любой сложности — это абстрактный обработчик шаблонов, а не сложносочиненный парсер с детальным описанием всех возникающих условий.
Читать полностью »

Что делает программное обеспечение качественным?

2016-03-16 в 18:26, admin, рубрики: html, javascript, ПО, Программирование, разработка, разработка программного обеспечения, разработка софта, Семантика

КДПВ

Кто-то создает программное обеспечение с открытым исходным кодом, а я провожу много времени размышляя над тем, как сделать программное обеспечение лучше. Бесконечный поток просьб о помощи на форумах Stack Overflow, GitHub, Slack, в электронных письмах и личных сообщениях неизбежен. К счастью, в итоге вы знаете многих людей, которые добились определенного успеха и сделали фантастические вещи, и знание о том, что вы приняли в этом участие благодаря вам и вашей помощи, является хорошей мотивацией для новых достижений.

У вас возникает вопрос: какие качества программного обеспечения приводят разработчика к успеху или к неудаче? Как я могу улучшить свой софт и помочь бо́льшему количеству людей стать успешным? Я могу ясно сформулировать некоторые основные принципы или полагаюсь на интуицию в зависимости от конкретного случая? (Рождение и воплощение одной мысли это два совершенно разных действия).

Возможно это что-то вроде принципов Дитера Рамса, способствующих качественному дизайну программного обеспечения?

Хороший проект является инновационным.
Хороший проект делает продукт полезным.
Хороший проект эстетичен.
Хороший проект делает продукт понятным.
Хороший проект ненавязчив.
Хороший проект честен.
Хороший проект длителен.
Хороший проект продуман до мельчайших деталей.
Хороший проект безвреден для окружающей среды.
В хорошем проекте дизайна настолько мало, насколько это возможно.

Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «Семантика» - 12

О проблеме one-shot обучения для нейросетей

Введение в продолжения и макросы на Scheme

Не мы такие — жизнь такая: Тематический анализ для самых нетерпеливых

Почему?

Сосчитать незримое: достоверно определяем словарный запаc

Создание экспертной системы в Wi!Mi 1.1

Частотный словарь запрещенных сайтов

Четыре слова, которые нельзя (исследование русской обсценной лексики на материалах соц.медиа)

Русский нейросетевой чатбот

Минимализм, текстовый парсинг и классификатор на оперативных шаблонах

Что делает программное обеспечение качественным?

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «Семантика» - 12

Почему?

Новости

Актуальные темы

Архив