Рубрика «nlp» - 5

СontentCapture+LLM: как мы ускорили работу с неструктурированными документами

2025-07-31 в 14:30, admin, рубрики: contentcapture, llm, nlp, nlp обработка текста, обработка документов

В эпоху цифровой трансформации каждая минута работы с документами на вес золота. Юридические отделы, банки, госучреждения ежедневно обрабатывают сотни договоров, доверенностей и судебных приказов. Ручной ввод данных, поиск реквизитов и проверка сроков могут отнимать до 20 минут на документ — и это если сотрудник не отвлекся на кофе.

В нашей линейке продуктов есть универсальная IDP-платформа ContentCapture Читать полностью »

Знает ли LLM то, что знаешь ты?

2025-07-25 в 13:50, admin, рубрики: llm, nlp, python, итмо, машинное обучение

Как понять, "помнит" ли модель ваш текст?

Представьте, что у вас есть друг, который идеально завершает ваши мысли. Вы говорите: «В детстве я любил...», а он тут же продолжает: «...играть в футбол и смотреть “Смешариков”». Совпадение? Или он вас слишком хорошо знает?

Теперь представьте, что этот “друг” — языковая модель вроде GPT-4, обученная на десятках терабайт текста. Вы даёте ей фразу — и она точно угадывает продолжение. Вопрос: она действительно видела это раньше или просто хорошо обучена угадывать?

Вот тут на сцену выходит Membership Inference Attack (MIA)Читать полностью »

AFlow: как создавать мультиагентные системы без программиста

2025-07-18 в 11:35, admin, рубрики: Agentic AI, AI, llm, MCTS, nlp, ИИ, искусственный интеллект, мультиагентные системы

Привет!
Меня зовут Ярослав, я магистрант AI Talent Hub в ИТМО. Сегодня расскажу об одной из самых интересных статей ICLR 2025 — AFlow: Automating Agentic Workflow Generation.

В ней предложен подход к автоматическому созданию мультиагентных систем для решения прикладных задач с помощью LLM и алгоритма Monte Carlo Tree Search (MCTS). Разберемся, как это работает и почему это важно.

Мультиагентные системы – что это?

Читать полностью »

AutoPrompting: как улучшить промпты, сэкономив время и ресурсы промпт-инженеров

2025-07-11 в 16:12, admin, рубрики: AI, ai agent, autoprompting, generative AI, llm, nlp, автопромтинг, промптинг

Всем привет! Интересно, что на Хабре статьи по этой теме я не смог найти.

AutoPrompting: как улучшить промпты, сэкономив время и ресурсы промпт-инженеров - 1

Читать полностью »

Готовимся к собесу: positional encodings в 2025 году

2025-07-09 в 16:44, admin, рубрики: computer vision, deeplearning, gpt, nlp, вход в it, подготовка к собеседованию, собеседование

Если вы до сих пор считаете, что positional encoding в трансформерах — это знаменитые sin/cos из статьи 2017 года, то боюсь, что собеседование для вас закончится автоматическим реджектом.

Позиционное кодирование заметно эволюционировало с момента появления оригинальной статьи о трансформерах. В современных LLM и моделях компьютерного зрения, таких как FLUX, уже давно не используется классическое sin/cos-кодирование.

Про это почему-то не знают 80% кандидатов на интервью, хотя, казалось бы, эта информация уже давно перешла в разряд «базовой классики».

Читать полностью »

Собираем MVP product search: дообучение E5 и веб-сервис для сравнения поисковых выдач

2025-07-07 в 21:47, admin, рубрики: E5, huggingface, information retrieval, machine learning, mvp, nlp, pytorch, semantic search, streamlit, дообучение моделей

Что важнее: создать продукт, или доставить его до пользователя? Оба этапа необходимы. Сегодня обсудим второй. Как нам построить поисковую e-com систему.

Покажем, что в слово логистика товара входят сложные задачи не только: перевезти наушники из Китая в Америку, но и настройка поисковой выдачи по запросу.

Быстро соберем поисковой MVP-сервис. Дообучим модель E5 на реальных данных от Amazon. Определим метрики качества и сравним BM25, pretrain E5 и fine-tune E5. Так же взглянем глазами с отладочной информациейЧитать полностью »

Часть 4: Mamba — State Space Models vs трансформеры

2025-07-06 в 15:10, admin, рубрики: mamba, nlp, ssm, transformer

Обо мне

Привет, меня зовут Василий Техин. За последние 6 лет я прошёл путь от новичка в ML который ни в чем не разбирается, до человека, который может помочь разобраться другим не используя сложной математике и приправляя обьяcнение наглядными примерами. В этой серии статей я разбираю прорывные модели "на пальцах":

Как мы научили ИИ читать PDF и экономить сотни рабочих часов: полный кейс создания корпоративного ChatGPT

2025-07-01 в 7:16, admin, рубрики: ai-ассистент, llm, nlp, python, rag, Transformers, бизнес-кейс, поиск, хакатон, Чат-боты

От проблемы до технической реализации — опыт создания ИИ‑ассистента для Росатома за 48 часов хакатона АтомикХак 2.0

Часть 1: Бизнес‑кейс. Зачем это нужно?

Проблема, которая съедает миллионы

Представьте: новый сотрудник крупной корпорации ищет ответ на рабочий вопрос. Он открывает внутренний портал, видит сотни PDF‑инструкций, тысячи записей в базе знаний службы поддержки. Час поиска, звонки коллегам, еще час изучения документов. В итоге — либо неточный ответ, либо решение отложить задачу.

Читать полностью »

Что такое NER, зачем он нужен и когда не поможет

2025-06-25 в 13:37, admin, рубрики: named entity recognition, natural language processing, ner, nlp, spacy, нейросети python, обучение моделей, примеры кода

Про NER написано немало, но этот материал носит прикладной характер. Статья будет полезна тем, кто интересуется NLP и ищет разные подходы для решения узкопрофильных задач, требующих извлечения сущностей из текста.

Для джунов это возможность пройти весь путь — от разметки данных до обучения собственной кастомной NER-модели, попутно понять типичные сложности и ограничения.

Читать полностью »

Все, что нужно для создания приложений с LLM: обзор возможностей LangChain

2025-06-23 в 15:36, admin, рубрики: LangChain, llm, ml, nlp, машинное обучение

Сегодня появляется все больше и больше приложений на основе больших языковых моделей — условным чат-ботом в Telegram уже никого не удивить. В рамках обучения в магистратуре AI Talent Hub мне не раз приходилось разрабатывать такие приложения с использованием ChatGPT или GigaChat. В этой статье я расскажу о полезном инструменте для работы с LLM - мы рассмотрим главные возможности фреймворка LangChain, а также методы мониторинга и проверки качества существующего приложения с ИИ.

Пара слов об LLM

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «nlp» - 5

СontentCapture+LLM: как мы ускорили работу с неструктурированными документами

Знает ли LLM то, что знаешь ты?

Как понять, "помнит" ли модель ваш текст?

AFlow: как создавать мультиагентные системы без программиста

Мультиагентные системы – что это?

AutoPrompting: как улучшить промпты, сэкономив время и ресурсы промпт-инженеров

Готовимся к собесу: positional encodings в 2025 году

Собираем MVP product search: дообучение E5 и веб-сервис для сравнения поисковых выдач

Часть 4: Mamba — State Space Models vs трансформеры

Обо мне

Как мы научили ИИ читать PDF и экономить сотни рабочих часов: полный кейс создания корпоративного ChatGPT

Часть 1: Бизнес‑кейс. Зачем это нужно?

Проблема, которая съедает миллионы

Что такое NER, зачем он нужен и когда не поможет

Все, что нужно для создания приложений с LLM: обзор возможностей LangChain

Пара слов об LLM