Рубрика «nlp» - 6

Создаем свой RAG: от загрузки данных до генерации ответов с LangGraph. Часть 2

2025-06-13 в 7:00, admin, рубрики: agents, AI, LangChain, nlp, python, python3, rag, агенты, искусственный интеллект

Привет!

В этой статье я объясню, как работает технология RAG (Retrieval-Augmented Generation), и покажу её базовые реализации. Для примеров я буду использовать фреймворк LangGraph — его основы я разбирал в предыдущей статье

В конце статьи вас ждет дополнительный пример, поэтому дочитывайте до конца.

Как устроен RAG

Технология RAG состоит из двух ключевых компонентов:

Индексация (Indexing)
- Загрузка данных
- Разбиение на фрагменты
- Векторизация
- Хранение
Поиск и генерация (Retrieval and Generation)
- Читать полностью »

От хаоса к порядку: как ML помогает искать и защищать конфиденциальную информацию

2025-06-11 в 9:04, admin, рубрики: Data security, machine learning, named entity recognition, ner, nlp, защита данных, информационная безопасность, машинное обучение, обработка естественного языка, персональные данные

Читать полностью »

Хорошая девушка LoRA! А чем же она хороша?

2025-06-09 в 13:20, admin, рубрики: deep learning, lora, LoRA Fine-tuning, machine learning, nlp

Поговорим об методике дообучения LLM… спортсменке, комсомолке и просто красавице - LoRA, которая если и не снимается в кино, то может сделать фильмы качественней и интереснее для зрителя. Исторические данные проката и состава творческих групп в перспективе позволяют работать с ансамблевыми моделями машинного обучения для прогнозирования сборов и просмотров в кино, и улучшать данные и путем их подбора «гиперпараметров»Читать полностью »

Соединяем физику и лирику. Как я собрал рекомендательную систему для стихов с помощью Flask, sqlite-vec и Hugging Face

2025-06-07 в 12:11, admin, рубрики: backend, embeddings, flask, llm, nlp, poetry, python, Texts, Transformers, vectors

Люблю я кодить и стихи —
Вот, в общем, все мои грехи...

А. С. Пушкин

Привет! Я Константин Хабазня, преподаватель программирования и математики, а также автор (что бы это ни значило).

N-нное время назад увлёкся NLP (Natural Language Processing), что вполне логично для писателя, который кодит (или кодера, который пишет).

Почитав интернет и пару вводных книжек, отправился учиться на ДПО в МФТИ. В качестве выпускного проекта придумал себе задачу — создать рекомендательную систему для стихов Читать полностью »

Часть 2. Комплексное решение на практике: система «Джинн»

2025-06-06 в 7:15, admin, рубрики: nlp, автоматизация общения, государственные органы, гражданин, классификация, обработка обращений, обращения граждан, соцсети, федеральный закон, цифровизация

Данная работа подготовлена командой InfolabsЧитать полностью »

Часть 1. Цифровое взаимодействие: Социальные сети как инструмент связи между государством и гражданами

2025-06-06 в 7:00, admin, рубрики: nlp, государство, госуслуги, исскуственный интеллект, мессенджеры, обработка обращений, обращения граждан, социальные сети, цифровая трансформация, цифровизация

Взаимодействие с государственными органами

Данная работа подготовлена командой InfolabsЧитать полностью »

Языковые модели для бизнеса: сравниваем малые (SLM) и большие (LLM) модели

2025-05-28 в 12:37, admin, рубрики: llm, ml, nlp, SLM, языковые модели

Большие языковые модели (LLM) звучат впечатляюще, но всегда ли нужно их использовать? Разберемся, в каких случаях стоит использовать LLM, а когда использование малых языковых моделей (SLM) окажется более разумным и экономичным решением без потери качества.

В последние годы технологии искусственного интеллекта и обработки естественного языка (NLP) уверенно вошли в бизнес-практику. Их используют повсеместно — от анализа поведения клиентов до поддержки пользователей с помощью чат-ботов, автоматизированного маркетинга и многого другого.

Читать полностью »

RAG‑агент для автоматизации инцидент‑менеджмента

2025-05-24 в 12:02, admin, рубрики: AI, automation, BigData, machine learning, nlp, rag, инцидент-менеджмент

Автор статьи: Александр Летуновский

Проблематика

Современные крупные организации сталкиваются с большим числом ИТ‑инцидентов — счет может идти на тысячи в месяц. Инциденты нередко повторяются со временем, однако найти похожий случай в базе знаний или в системе регистрации инцидентов непросто: стандартный поиск по ключевым словам часто неэффективен, а «держать в голове» детали всех инцидентов невозможно.

Читать полностью »

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

2025-05-20 в 7:37, admin, рубрики: AI, ml, nlp, эмбеддинги

В этой статье мы расскажем о нашей новой модели FRIDA, которая сейчас (20.05.2025) занимает первое место в русскоязычном бенчмарке MTEB (ссылка на таблицу лидеров).

Ранее мы уже Читать полностью »

Mem-векторы: как сохранить 1500 токенов в одном векторе и зачем это нужно

2025-05-03 в 10:42, admin, рубрики: embedding, hidden capacity, llm, mem-вектор, nlp, rag, компрессия, энтропия текста

От сжатия текста к mem-векторам: новая веха в языковых моделях

Каждый, кто работал с большими языковыми моделями (LLM), знает про ограничение длины контекста: модель не может напрямую обработать текст, превышающий определённое число токенов. Это накладывает ограничения на работу с длинными документами и обширным контекстом. Но что если бы мы могли упаковать длинный текст в один-единственный вектор и скормить его модели как обычный токен? Звучит фантастично, однако свежие исследования показывают, что это возможно – такие “mem-векторы” позволяют сохранить сотни и даже полторы тысячи токеновЧитать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «nlp» - 6

Создаем свой RAG: от загрузки данных до генерации ответов с LangGraph. Часть 2

Как устроен RAG

От хаоса к порядку: как ML помогает искать и защищать конфиденциальную информацию

Хорошая девушка LoRA! А чем же она хороша?

Соединяем физику и лирику. Как я собрал рекомендательную систему для стихов с помощью Flask, sqlite-vec и Hugging Face

Часть 2. Комплексное решение на практике: система «Джинн»

Часть 1. Цифровое взаимодействие: Социальные сети как инструмент связи между государством и гражданами

Языковые модели для бизнеса: сравниваем малые (SLM) и большие (LLM) модели

RAG‑агент для автоматизации инцидент‑менеджмента

Проблематика

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

Mem-векторы: как сохранить 1500 токенов в одном векторе и зачем это нужно

От сжатия текста к mem-векторам: новая веха в языковых моделях