Описание предметной области (создание ее онтологии) начинается с выделения объектов и их классификации, которая традиционно заключается в составлении дерева классов-подклассов и приписывании к ним индивидов. При этом термин «класс», по сути, используется в значении «множество»: отнесение объекта к классу мыслится как включение его в качестве элемента в соответствующее множество. Цель этого текста показать, что такой унифицированный подход к описанию структуры предметной области является сильным упрощением и не позволяет зафиксировать разнообразие семантических отношений объектов.
Читать полностью »
Рубрика «Семантика» - 14
Классы, множества, группы, системы
2016-01-25 в 15:19, admin, рубрики: Анализ и проектирование систем, классификация, моделирование предметной области, онтологии, Семантика, системный анализНекоторые современные подходы в области обработки естественного языка
2016-01-05 в 23:51, admin, рубрики: Алгоритмы, вопросно-ответные системы, глубокое обучение, нейронные сети, понимание естественного языка, Программирование, Семантика, Хакатоны, метки: семантика Результаты научных исследований, полученные в последние годы в задачах распознавания речи [1], машинного перевода [2], определения оттенка предложения [3] и частей речи [4] показали перспективность нейросетевых алгоритмов глубокого обучения в сравнении с классическими методами обработки естественного языка (natural language processing). Однако, в области вопросно-ответных и диалоговых систем еще остается много нерешенных задач [5, 6]. В данной статье дан обзор результатов применения современных алгоритмов для задач обработки и понимания естественного языка. Обзор содержит описание нескольких разных подходов и не претендует на полноту исследований.

Human: how many legs does a cat have ?
Machine: four, i think .
Human: What do you think about messi ?
Machine: he ’s a great player .
Human: where are you now ?
Machine: i ’m in the middle of nowhere .
(из статьи A Neural Conversational Model. КДПВ из фильма Ex Machina)
FactRuEval — соревнование по выделению именованных сущностей и извлечению фактов
2015-12-24 в 21:13, admin, рубрики: data mining, FactRuEval, information extraction, named entities, natural language processing, opencorpora, Блог компании ABBYY, именованные сущности, Компьютерная лингвистика, конференция Диалог, Семантика, соревнование, метки: конференция Диалог
Соревнования по различным аспектам анализа текста проводятся на международной конференции по компьютерной лингвистике «Диалог» каждый год. Обычно сами соревнования проходят в течение нескольких месяцев до мероприятия, а на самой конференции объявляют результаты. В этом году планируются три соревнования:
- по выделению именованных сущностей и фактов – FactRuEval;
- по анализу тональности – SentiRuEval;
- по исправлению опечаток – SpellRuEval.
Статья, которую вы начали читать, преследует три цели. Первая – мы хотели бы пригласить разработчиков систем автоматического анализа текстов принять участие в соревнованиях. Вторая – мы ищем помощников, которые могли бы разметить текстовые коллекции, на которых будут проверяться системы наших участников (это, во-первых, интересно, а во-вторых – вы сможете принести реальную пользу науке). Ну а третья – соревнования по выделению именованных сущностей и фактов проводятся на “Диалоге” впервые, и мы хотим рассказать всем заинтересованным читателям, как они будут происходить.
Война, мир и ABBYY Compreno: продолжение нашего романа с Толстым
2015-12-21 в 6:49, admin, рубрики: Compreno, Блог компании ABBYY, лингвистика, Семантика
Недавно мы рассказывали здесь о том, как делался проект «Весь Толстой в один клик». С помощью 3249 (трех тысяч двухсот сорока девяти) волонтеров и 1 (одной) хорошей OCR-технологии мы оцифровали 46820 страниц 90-томного собрания сочинений писателя, тщательно вычитали их и выложили во всеобщий доступ.
Но если вы думали, что наш «роман с Толстым» на этом закончился, то вы ошибались – оцифровав тексты писателя, мы начали исследовать их при помощи технологии извлечения информации ABBYY Compreno – не пропадать же такому богатому материалу. О том, что дал нам «text mining Толстого» и где теперь используются полученные результаты, читайте дальше.
Введение
Главной целью проекта «Весь Толстой в один клик» было сделать творчество Толстого по-настоящему всеобщим достоянием, чтобы все вышедшие из-под его пера тексты были доступны в один клик в любой точке Земли. Как, кстати, и завещал сам автор, еще при жизни отказавшийся от всех прав на свои тексты (да-да, анонимус, Лев Толстой знал про копилефт и опендату задолго до этих ваших интернетов и Ричарда Столлмана).
Однако возможность загрузить книжку в удобном формате в ридер или планшет – не единственный плюс оцифровки. Теперь тексты Толстого можно не только читать, но и «измерять», то есть исследовать разными количественными методами, используя весь арсенал средств автоматической обработки текста (АОТ, она же NLP). Ведь если у вас есть все тексты писателя в электронном виде, даже с помощью одного-двух грамотных поисковых запросов вы можете получить любопытные данные, на добычу которых в иные времена мог потратить недели и месяцы упорного труда какой-нибудь литературовед. А уж если у вас к тому же имеется продвинутая технология анализа естественного языка, то есть шансы сделать серьезное филологическое открытие (даже не будучи филологом). Ниже я расскажу, что удалось намерить и узнать нам, но перед этим – пара слов о том, кто, как и зачем занимается автоматической обработкой художественных текстов и что интересного может при этом получиться.Читать полностью »
Как мы придумывали систему анализа текстов
2015-04-21 в 14:31, admin, рубрики: Блог компании MeanoTek, личный опыт, машинное обучение, обработка естественного языка, Программирование, самообучение, СемантикаДоброго времени суток всем. Это наш первый пост в блог стартапа «Meanotek», и наверное он будет больше ознакомительного характера. Чтобы не было совсем скучно читать, мы попробуем рассказать историю, о том как одна практическая задача привела нас к созданию полноценной системы «понимания» текста компьютером, и что из этого получилось.
Мысль научить компьютер общаться на человеческом языке у меня появилась еще в школе, когда у меня дома был один из первых советских аналогов IBM PC, с языком программирования GW BASIC. Понятно, что далеко эта задумка в то время не ушла, потом ее заслонили другие более важные дела, но совершенно неожиданно она всплыла вновь спустя много лет, уже в связи с конкретной потребностью.
Собственно идея пришла в голову во время работы над другим проектом — сайтом поиска отзывов reviewdot.ru. Идея reviewdot.ru была в следующем — пользователь вводит запрос, например «зеркальный фотоаппарат для начинающих» — и получает список ссылок на отзывы в интернете, которые касаются именно этого вопроса. Или к примеру, чтобы по запросу «что ломается в стиральной машине Indesit?” появлялись ссылки на отзыв пользователей марки Indesit, у которых что-то сломалось. Вопрос ценности данного ресурса для людей пока оставим за скобками, и поговорим немного о технической стороне реализации.
Читать полностью »
WEB 3.0. От сайтоцентризма к юзероцентризму, от анархии к плюрализму
2015-04-19 в 13:22, admin, рубрики: semantic web, web 2.0, интернет, СемантикаВ тексте в конспективном виде изложены идеи, высказанные автором в докладе «Философия эволюции и эволюция интернета».
Основные недостатки и проблемы современного веба:
- Катастрофическая перегруженность сети многократно дублированным контентом, при отсутствии надежного механизма поиска оригинального источника.
- Рассредоточенность и несвязанность контента – невозможность сделать исчерпывающую выборку по тематике и, тем более, по уровням анализа.
- Зависимость формы представления контента от издателей (зачастую случайных, преследующих собственные, обычно коммерческие, цели).
- Слабая связанность результатов поиска с онтологией (структурой интересов) пользователя.
- Малая доступность и слабая классифицированность архивного контента сети (в частности, социальных сетей).
- Малое участие профессионалов в организации (систематизации) контента, хотя именно они по роду своей деятельности повседневно занимаются как раз систематизацией знаний, но результат их работы фиксируется лишь на локальных компьютерах.
Философия эволюции и эволюция интернета
2015-04-14 в 13:56, admin, рубрики: semantic web, ИИ, Семантика, социальные сети, философия Текст не о философии в интернете и не о философии интернета – философия и интернет в нем строго разведены: первая часть текста посвящена философии, вторая – интернету. В качестве связующей оси между двумя частями выступает понятие «эволюция»: разговор пойдет о философии эволюции и об эволюции интернета. Сначала будет продемонстрировано, как философия – философия глобального эволюционизма, вооруженная концептом «сингулярность» – неизбежно подводит нас к мысли, что именно интернет является прообразом будущей постсоциумной эволюционной системы; а потом и сам интернет, вернее логика его развития, подтвердит право философии рассуждать на, казалось бы, сугубо технологические темы.
Читать полностью »
Моделирование функциональных и физических событий в логической парадигме
2015-03-31 в 2:31, admin, рубрики: Анализ и проектирование систем, аналитика, классификация, логическая парадигма, математика, моделирование предметной области, онтологическое моделирование, онтология, ооп, Семантика, Терминология ITДобрый день, коллеги!
Я предлагаю вам прочитать статью, которая является логическим продолжением начатой мной серии статей, посвященных моделированию предметных областей.

В этой статье я продолжаю давать определения терминам в рамках логической парадигмы. Я развиваю мысль о том, что такое реальность и о том, как мы ее моделируем. Я подчеркиваю тот факт, что мир, в котором мы живем, — это иллюзия. Мы даже не знаем, есть ли мы на самом деле, или наше существование — тоже иллюзия. Наше «Я» думает, что существует, но существует оно в мире иллюзий. Все, что мы видим, и что моделируем, — мы видим иллюзию и моделируем иллюзию.
Читать полностью »
Новый инструмент проверки структурированных данных, документация и не только
2015-02-13 в 12:19, admin, рубрики: Google, JSON-LD, Блог компании Google, веб-дизайн, Веб-разработка, документация, инструменты тестирования, правила, проверка, разметка, Семантика, синтаксис, структурированные данные, метки: структурированные данныеРазметка структурированных данных позволяет показывать дополнительную информацию с вашего сайта в результатах поиска и сервисах Google. Мы рады представить несколько обновлений, которые помогут создавать разметку на сайте:
- Новый Инструмент проверки структурированных данных, который показывает, как Google интерпретирует ваш контент.
- Дополненная документация и правила использования возможностей Google, основанных на технологии структурированных данных.
- Расширенная поддержка синтаксиса разметки JSON-LD.
Инструмент проверки структурированных данных
Новый Инструмент проверки структурированных данных лучше показывает то, как Google интерпретирует разметку структурированных данных на странице сайта.

Читать полностью »
Новый инвариант натурального числа. Теорема и доказательство
2015-02-05 в 12:03, admin, рубрики: Алгоритмы, информационная безопасность, контур, криптография, математика, Семантика, ф-инвариант, метки: интервал, контур, ф-инвариант Ранее на Хабре была опубликована работа автора об инварианте числа (здесь). Еще ранее в работе [1] приводятся сведения об оригинальной концепции моделирования натурального ряда чисел и отдельного числа с целью установления свойств, слабо зависящих или вообще не зависящих от разрядности чисел. Ранее не приводились теоремы для доказательства истинности положений, которые используются автором в работах. Анализ комментариев к работам показал насколько недоверчиво читательская аудитория относится к подобным работам и утверждениям.
Читать полностью »
