Рубрика «nlp обработка текста»

Промёрзшие кочки, брусника,
Смолистые запахи пней.
Мне кажется: новая книга
Раскрыта искателю мне.
Ведь вечер ветвист и клетчат.
Ах, вечер, как сон в Октябре,
И сосны, как жёлтые свечи
На Божьем лесном алтаре….

В этом стихотворении Николая Заболоцкого, написанного в 1921 году видно, как поэт показывает божественное единоначалие природы. Но тем, кто знает творчество Николая Алексеевича, может показаться, что автор в своих взглядах, выраженных в стихах, больше похож на атеиста. Николай Корнеевич Чуковский, знакомый с поэтом, так писал о нем в своей книге "Литературный воспоминания":

Читать полностью »

Именно этот вопрос возник у нас в процессе игры в "Города" пока мы ехали из Екатеринбурга в Тюмень, а названия городов то и дело заканчивались на "К". В тот момент город Курган был назван уже 25 раз. И нас озарило... Спарсим данные с RuWiki и посмотрим сколько городов в России начинаются и заканчиваются на букву К!

Читать полностью »

Давайте признаемся, что мы уже устали от рассказов про то, что вышел новый движок, который делает машинные переводы «almost human-like» или «вообще не требует человеческого ревью». При этом движки действительно становятся все качественнее: дуумвират Google-Deepl разрушен, а новые языковые модели показывают немыслимые результаты на бенчмарках. Но почему мы все еще уверены, что хорошие бенчмарки нам не помогут? Как встроить движок МТ в процесс перевода так, чтобы он действительно помогал, а не мешал?

Читать полностью »

Предисловие переводчика

Продолжаю адаптированный перевод статьи китайских исследователей Retrieval-Augmented Generation for Large Language Models: A Survey (ссылка на первую часть — здесь, на вторую часть — здесь, третью часть — здесь, четвёртую часть — здесь). Перевод этой части мы выполняли в тандеме с коллегой — Мариной Хазиевой. К некоторым терминам, как и в прошлых частях, добавлены переводы и пояснения для удобства начинающих ИТ-переводчиков.

Читать полностью »

В эпоху цифровой трансформации каждая минута работы с документами на вес золота. Юридические отделы, банки, госучреждения ежедневно обрабатывают сотни договоров, доверенностей и судебных приказов. Ручной ввод данных, поиск реквизитов и проверка сроков могут отнимать до 20 минут на документ — и это если сотрудник не отвлекся на кофе. 

В нашей линейке продуктов есть универсальная IDP-платформа ContentCaptureЧитать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js