Рубрика «natural language processing»

Топ вопросов с NLP собеседований: трансформеры и внимание до малейших деталей

2025-12-17 в 15:05, admin, рубрики: attention, llms, natural language processing, nlp, Transformers, глубокое обучение, машинное обучение, механизм внимания, трансформеры

Знание механизма внимания и трансформеров - база любых собеседований на все грейды в NLP!

Статья не рассчитана на изучение тем с нуля, если вы еще не слышали ничего про attention, то лучше обратиться к полноценным лекциям.

Это чеклист и тренажёр, по которому стоит пройтись перед техническим интервью по NLP, чтобы закрыть пробелы и вспомнить необходимую базу.

Содержание:

Архитектура трансформера
Механизм внимания
Позиционные эмбеддинги
Токенизация
Трансформерные архитектуры (BERT, GPT и тд)
Полезные материалы

Читать полностью »

GigaMemory: научи ИИ «помнить всё» с AI Journey Contest 2025

2025-10-17 в 10:57, admin, рубрики: artificial intelligence, GigaChat, natural language processing, большие языковые модели, машинное обучение, память, соревнования, хакатон, Хакатоны

Мы всё чаще делегируем ИИ-ассистентам рабочую рутину и бытовые вопросы. Но во взаимодействии с ними есть существенная проблема: модели не помнят пользователя. Между сессиями теряются имя, контекст работы, желаемые ограничения и предпочтения, значительно влияющие на то, что и как стоит ответить пользователю. В итоге диалог каждый раз начинается «с нуля», а ответы звучат усреднённо. Это снижает эффективность и подрывает доверие: когда ассистент не помнит важное о вас, он превращается в поисковик с красивыми фразами.

Мы в команде RnD для B2C SberAI хотим это исправить. Представляем вашему вниманию задачу Читать полностью »

Перевод датасета для оценки эмпатии на русский язык: подход, проблемы, результаты

2025-09-12 в 7:12, admin, рубрики: artificial intelligence, llm, machine learning, natural language processing, перевод с английского, пситехлаб

Привет. Меня зовут Нафиса Валиева. Я младший разработчик в MWS AI и Пситехлабе, студентка 3го курса ПМ-ПУ СПбГУ. Этот пост — текстовый вариант моего выступления на Дата Фесте. Я расскажу вам, как мы в команде Пситехлаб переводили интересный датасет с английского на русский с помощью больших языковых моделей (далее - БЯМ). Сам подход основан на ранней работе [1] нашего руководителя. Отличие в том, что здесь мы детально анализируем поведение различных БЯМ.

Зачем это вообще и что за датасет такой

Читать полностью »

Путь к LangOps: руководство для начинающих

2025-08-24 в 14:26, admin, рубрики: AI, langops, localization, natural language processing, глобализация, локализация, перевод

Примечание переводчика. Тема LangOps почти не освещена в русскоязычном интернете, поэтому я перевёл и публикую этот базовый гайд от Arthur Wetzel, CEO LangOps Institute. Оригинальная публикация вышла в закрытом сообществе LangOps Pros, перевод размещается с разрешения автора.

Читать полностью »

DevOps для языка: что такое LangOps

2025-08-24 в 14:26, admin, рубрики: AI, langops, localization, natural language processing, глобализация, локализация, перевод

Читать полностью »

Веб-агенты, которые действительно понимают веб-сайты: как слой восприятия Notte решает проблему DOM

2025-07-10 в 5:11, admin, рубрики: ai agent, automation, llm, llm-агент, natural language processing

Фундаментальная проблема веб-агентов заключается не в автоматизации — а в восприятии. Как позволить LLM навигировать и действовать на веб-сайтах, погребённых в слоях HTML?

Техническая проблема: несоответствие импеданса DOM

Веб-агенты традиционно полагались на хрупкие подходы: парсинг DOM, CSS-селекторы и анализ HTML-структуры. Это создаёт фундаментальное несоответствие импеданса между тем, как LLM обрабатывают информацию (естественный язык) и тем, как структурированы веб-сайты (разметка).

Рассмотрим типичный подход к веб-автоматизации:

Читать полностью »

Что такое NER, зачем он нужен и когда не поможет

2025-06-25 в 13:37, admin, рубрики: named entity recognition, natural language processing, ner, nlp, spacy, нейросети python, обучение моделей, примеры кода

Про NER написано немало, но этот материал носит прикладной характер. Статья будет полезна тем, кто интересуется NLP и ищет разные подходы для решения узкопрофильных задач, требующих извлечения сущностей из текста.

Для джунов это возможность пройти весь путь — от разметки данных до обучения собственной кастомной NER-модели, попутно понять типичные сложности и ограничения.

Читать полностью »

Telegram AI Companion: веселый проект на Rust, Telegram и локальном ИИ

2025-06-21 в 7:36, admin, рубрики: actix, AI, docker, llm, localai, natural language processing, ngrok, OpenAI, Rust

Привет! 👋

Недавно я собрал небольшой, но бодрый pet-проект — Telegram AI Companion. Это Telegram-бот, который умеет болтать с вами, используя локальную языковую модель через LocalAI. Без OpenAI, без облаков — всё на своём железе.

Цель проекта — не революция в AI, а именно учебное и увлекательное погружение в Rust, асинхронность, Telegram API и локальные LLM-модели. Такой себе “бот-компаньон”, но больше для разработчика, чем пользователя :)

Если вам интересно:

Как соединить Telegram-бота с локальной LLM
Как запускать Rust-проекты в Docker
Как построить REST API и обрабатывать вебхукиЧитать полностью »

Обзор техник RAG: Retrieval Augmented Generation

2025-04-24 в 11:15, admin, рубрики: deeplearning, DL, large language model, llm, machinelearning, ml, natural language processing, nlp, rag, retrieval augmented generation

Рассмотрим техники построения и улучшения RAG систем: от нарезания текстов на куски, до продвинутых способов улучшения качества ответа.

Этим блогом можно пользоваться как шпаргалкой для проектирования своего RAG-а и/или для подготовки к собеседованиям.

Все полезные ссылки и материалы, на которые я опирался будут в конце.

Что такое RAG и зачем нужен

RAG - это фреймворк взаимодействия предобученной LLM с базой знаний. То есть при ответе LLM на запрос пользователя модель отвечает используя актуальный контекст из базы и свои pre-trained знания.

Читать полностью »