Введение
В computer science из года в год все более популярной становится тема обработки естественного языка. Из-за огромного количества задач, где требуется подобный анализ, сложно переоценить необходимость автоматической обработки текстовых документов.
В этой статье мы максимально просто постараемся описать наиболее популярные современные подходы к представлению текстовых документов для компьютерной обработки. А на одном из них, который в настоящее время еще не получил широкого распространения, однако имеет на это все шансы, остановимся более подробно, поскольку этот метод мы используем в SlickJump при разработке алгоритмов, например, контекстного таргетинга рекламы.
Отметим, что приводимые подходы применимы не только к текстам, а вообще к любым объектам, которые можно представить в виде символьных последовательностей, например, какие-нибудь макромолекулы (ДНК, РНК, протеины) из генетики. Всего мы рассмотрим 4 метода:
- Признаковое описание.
- Попарное наложение (выравнивание) текстов.
- Формирование профиля и скрытой марковской модели.
- Представление фрагментами.
Итак, приступим.
Читать полностью »



![Программирование / [Из песочницы] Наиболее часто встречающаяся структура предложений в русском языке по версии библиотеки Флибуста Программирование / [Из песочницы] Наиболее часто встречающаяся структура предложений в русском языке по версии библиотеки Флибуста](https://www.pvsm.ru/images/575f08e275d6252ae8a1cd7fb19223ec.jpg)