Рубрика «саммаризация»

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

2025-05-19 в 13:51, admin, рубрики: gemma, Nemo, obsidian, Ollama, Whisper, диаризация, расшифровка аудио, саммари, саммаризация, транскрибация

Всем привет! Меня зовут Николай Луняка, и я, как и многие из вас, ежедневно утопаю в потоке информации. Количество аудиоконтента растёт в геометрической прогрессии, при этом его нужно ещё «переварить» и зафиксировать.

Интереснейшие лекции хочется сохранить не только в памяти, но и в виде тезисов, а ещё есть подкасты, интервью, да и банальные голосовые заметки, надиктованные на бегу. Знакомая картина?

На помощь приходят облачные сервисы: транскрибация, Читать полностью »

Как сделать из нейросети журналиста, или «Секреты сокращения текста на Хабре без лишних слов»

2019-12-11 в 12:53, admin, рубрики: ABBYY, diy или сделай сам, natural language processing, pgen, RNN, seq2seq, Блог компании ABBYY, генерация заголовков, искусственный интеллект, машинное обучение, нейросеть, Новости, саммаризация, токены

Как сделать из нейросети журналиста, или «Секреты сокращения текста на Хабре без лишних слов» - 1 Только не удивляйтесь, но второй заголовок к этому посту сгенерировала нейросеть, а точнее алгоритм саммаризации. А что такое саммаризация?

Это одна из ключевых и классических задач Natural Language Processing (NLP). Она заключается в создании алгоритма, который принимает на вход текст и на выходе выдаёт его сокращённую версию. Причем в ней сохраняется корректная структура (соответствующая нормам языка) и правильно передается основная мысль текста.

Такие алгоритмы широко используются в индустрии. Например, они полезны для поисковых движков: с помощью сокращения текста можно легко понять, коррелирует ли основная мысль сайта или документа с поисковым запросом. Их применяют для поиска релевантной информации в большом потоке медиаданных и для отсеивания информационного мусора. Сокращение текста помогает в финансовых исследованиях, при анализе юридических договоров, аннотировании научных работ и многом другом. Кстати, алгоритм саммаризации сгенерировал и все подзаголовки для этого поста.

К моему удивлению, на Хабре оказалось совсем немного статей о саммаризации, поэтому я решил поделиться своими исследованиями и результатами в этом направлении. В этом году я участвовал в соревновательной дорожке на конференции «Диалог» и ставил эксперименты над генераторами заголовков для новостных заметок и для стихов с помощью нейронных сетей. В этом посте я вначале вкратце пробегусь по теоретической части саммаризации, а затем приведу примеры с генерацией заголовков, расскажу, какие трудности возникают у моделей при сокращении текста и как можно эти модели улучшить, чтобы добиться выдачи более качественных заголовков.
Читать полностью »

NLP. Основы. Техники. Саморазвитие. Часть 1

2019-01-23 в 13:05, admin, рубрики: ABBYY, machine learning, natural language processing, ner, nlp (natural language processing), RNN, Блог компании ABBYY, машинное обучение, нейронные сети, нейросети, саммаризация

Привет! Меня зовут Иван Смуров, и я возглавляю группу исследований в области NLP в компании ABBYY. О том, чем занимается наша группа, можно почитать здесь. Недавно я читал лекцию про Natural Language Processing (NLP) в Школе глубокого обучения – это кружок при Физтех-школе прикладной математики и информатики МФТИ для старшеклассников, интересующихся программированием и математикой. Возможно, тезисы моей лекции кому-то пригодятся, поэтому поделюсь ими с Хабром.

Поскольку за один раз все объять не получится, разделим статью на две части. Сегодня я расскажу о том, как нейросети (или глубокое обучение) используются в NLP. Во второй части статьи мы сконцентрируемся на одной из самых распространенных задач NLP — задаче извлечения именованных сущностей (Named-entity recognition, NER) и разберем подробно архитектуры ее решений.

NLP. Основы. Техники. Саморазвитие. Часть 1 - 1

Читать полностью »

Чем занимаются в департаменте R&D ABBYY: NLP Advanced Research Group

2018-11-22 в 9:55, admin, рубрики: ABBYY, natural language processing, nlp, R&D, Блог компании ABBYY, лекция, машинное обучение, МФТИ, обработка естественного языка, саммаризация, синтаксический анализ, Школа глубокого обучения, эллипсис

Чем занимаются в департаменте R&D ABBYY: NLP Advanced Research Group - 1 Чем занимаются в департаменте R&D в ABBYY? Чтобы ответить на этот вопрос, мы начинаем серию публикаций о том, как наши разработчики создают новые технологии и совершенствуют существующие решения. Сегодня расскажем про направление Natural Language Processing (NLP).

Мы в ABBYY занимаемся исследованиями в сфере обработки естественного языка и беремся за сложные научные задачи, для которых пока нет готовых решений. Так мы создаем инновации, которые ложатся в основу продуктов и помогают нашим заказчикам, да и нам двигаться вперед. Кстати, 24 ноября на лекции в Школе глубокого обучения при МФТИ руководитель NLP Advanced Research Group в департаменте R&D ABBYY Иван Смуров расскажет, какие в мире есть задачи по анализу текста и как современные нейросети позволяют их решать. А в этом посте Иван рассказал нам о трех задачах, которыми занимается сейчас. Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «саммаризация»

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

Как сделать из нейросети журналиста, или «Секреты сокращения текста на Хабре без лишних слов»

NLP. Основы. Техники. Саморазвитие. Часть 1

Чем занимаются в департаменте R&D ABBYY: NLP Advanced Research Group