Cybercortex. Система расширенного восприятия и мышления

в 7:48, , рубрики: big data, open source

Добрый день!

Cybercortex.org — open source проект. Находится на этапе старта и видится как возможность сконцентрировать и скоординировать усилия компаний и разработчиков для решения задач по развитию интеллекта человека. Для внедрения в быт новых форм усиления мышления и ускорения продуктивной коммуникации. Поэтому все, кто так или иначе заинтересован в вопросе, приглашаются к сотрудничеству.

Ниже представлено описание первого модуля алгоритма Cybermean, «ядра» Cybercortex. Если описанная ниже логика будет представляться хабравчанам адекватной, то можно было бы продолжить описание и обсуждение модулей Cybermean и Cybercortex в целом. Также, в конце поста, помимо логики первого модуля, приводится изображение связи интерфейсов в рамках Cybercortex, в качестве дополнительного наглядного материала, характеризующего тематику проекта.

image

image

Наша задача состоит в том, чтобы получить возможно более полную выборку синонимов и определений релевантных* слов, входящих в сравниваемые тексты.

Так, мы делаем выборку синонимов и определений для текста 1. Затем делаем то же для текста 2 (далее оба текста, так как их может быть любое количество, обозначаются как текст N).

Затем мы можем сравнить полученные выборки.

Чем больше будет совпадений слов (исходных слов, синонимов и ключевых слов; см. ниже) в этих выборках, тем ближе тексты по своему смыслу. Не в части утверждений за или против чего-либо, но в части тематики, в части своего предмета.

Формирование выборок

Мы можем выполнить операцию поиска синонимов для каждого релевантного исходного слова текста N сперва в словарях синонимов того же языка (проведя соответствующие операции нормализации текста; в первую очередь, стемминга; на схеме 2 это отдельный столбец блоков с одинаковым окончанием L_number). Так же мы можем выполнить операцию поиска определений для каждого слова текста N. И затем провести операцию поиска синонимов для ключевых слов определений (ключевые слова вычленяются с помощью частотного [например, подобного LSA], морфологического и лексического анализа максимально возможного количества определений, представленных в словарях; ключевые слова и синонимы ключевых слов представлены на схеме 3.1 и 3.2).

При этом, мы можем перевести каждое релевантное слово на иностранный язык (с языка 1 на язык 2(N)) и только затем последовательно произвести те же операции, а также можем осуществлять перевод на иностранный язык (на язык 2(N)) слов, которые будут появляться в процессе операций с языком 1. Дополняя операции над языком 2 (N) самим по себе. То есть осуществлять перевод ключевых слов и их синонимов c языка 1 на иностранный язык (язык 2(N)) и затем, если некоторых слов там не оказалось бы без этой операции, выстраивать деятельность с учетом этих слов (данная логика представлена на схеме 4).

В результате, мы получим для каждого релевантного слова текста N набор выборок, количество которых для каждого слова равно количеству включенных в систему языков.

— *нерелевантными можно считать предлоги и подобные образования; «слова» далее в значении «релевантные слова»

image

image

image

image

Итак, когда мы встречаем слово в тексте, то в результирующую выборку попадают данное слово и все слова, которые связаны с ним посредством вертикальной связи (прямой синонимический ряд, ключевые слова определений, синонимический ряд ключевых слов) и посредством горизонтальной межъязыковой связи.

Таким образом, в выборке содержатся релевантные связанные слова из словарей всего мира (из числа тех, которые интегрированы в систему), а не только словарей страны языка, на котором сформулирован текст.

image

Можно предположить, что если слово встречается в разных языках в списке синонимов, то это с большей точностью синоним исходного слова, нежели чем если синоним встречается только в одном языке.

Операции выше позволяют нам обращаться ко всему спектру близких по смыслу синонимов, содержащихся в словарях, но размещенных в них некорректно. То есть нейтрализуется ситуация, когда человек видит синоним, а типичный национальный словарь нет.

image

image

Вместе с тем, в «мужчина прыгает с мячом» можно прочесть как «мужчина играет с мячом». В алгоритме же отражается в том, что в выборках прямых и непрямых синонимов слов прыгать, резвиться и играть происходит пересечение.

image

Однако тогда решающую роль играет то, что у слов «ребенок» и «котёнок» больше совпадений в синонимах ключевых слов, нежели чем у мужчина, женщина — ребенок или мужчина, женщина — котенок.

При этом, если бы мы применили операцию нахождения ключевых слов к синонимам ключевых слов (т. е. в качестве итерации нового уровня), то мы бы увидели, что ребенок, мужчина и женщина — люди. А котёнок — животное.

То есть в выборках нового уровня у ребенка, мужчины и женщины было бы больше совпадений, чем у каждого из них с выборкой котенка.

Это был бы следующий критерий разделения утверждений по их смыслу, однако меньший по своему влиянию, так как выявлен на данном дополнительном уровне итераций.

Заключение

На данном простом примере продемонстрирован принцип анализа текста, позволяющий определять смысловую близость текстов. Чем больше в тексте знаков (слов), тем проще дифференцировать тексты, которые схожи с ним по смыслу. Так как тем уникальнее будет выборка связанных слов.

Данный принцип представляет собой первый модуль алгоритма Cybermean. На базе этого принципа возможна работа второго и третьего модуля Cybermean.

***

Изображение из материала, посвященного интерфейсам:

image

Сайт: www.cybercortex.org

Автор: cbrcrtx

Источник

Поделиться

* - обязательные к заполнению поля