Рубрика «nlp»

Использование кодовых агентов (Codex, Cursor, Claude Code) стало обыденностью. Внутри разных AI-агентов могут использоваться одни и те же модели, но результаты будут сильно отличаться.

Например, есть мнение, что Cursor лучше и быстрее справится с написанием качественного UI, Claude Code покажет себя лучше в проектировании архитектуры приложения, а WindSurf лучше остальных создаст прототип системы.

Почему одна и та же модель в разных агентах дает разный результат? Давайте разбираться.

Читать полностью »

Дисклеймер для модераторов и читателей. Да, мы продолжаем тему на стыке веры и технологий. Нет, автор не планирует основывать новую техноцерковь или заменять Святого Духа GPU-кластером. Просто далеко не везде об этом можно поговорить, а техничный Хабр позволяет обсуждать столь сложные вещи. Хорошо, что мы живём не в XVI веке (хотя у нас и своих забот хватает), и за оценку новых технологических возможностей максимум грозит, что какая-то добрая душа из местных охранителей заботливо принесёт горящий уголёк в карму минусов. Как видно, и на такое можно реагировать без негатива, а скорее с долей юмора.

Читать полностью »

Каждый день в российском бизнесе происходят миллионы телефонных звонков. Колл-центры, клиники, юридические конторы, отделы продаж — везде, где есть телефон, есть поток неструктурированных данных, который никто не обрабатывает. Менеджер повесил трубку, записал в CRM «клиент интересовался» — и 80% информации из разговора потерялось.

Я потратил полгода на то, чтобы построить пайплайн, который берёт аудиозапись телефонного звонка и выдаёт структурированный JSON: кто звонил, чего хотел, какие суммы называл, что договорились делать дальше. В процессе набил достаточно шишек, чтобы написать эту статью.

Читать полностью »

Всем привет! Не такую первую публикацию я планировал сделать на Хабр: есть пара более серьёзных и интересных тем, которыми я планирую поделиться, но перфекционизм пока не даёт их добить.

А тут получилась спонтанная и короткая история из разряда «поигрался - проиграл задумался», которая неожиданно упёрлась в этику и безопасность.

Читать полностью »

Ни одного из этих слов в моих планах не было. Я просто задолбался вручную таскать ключи из Wordstat в Excel.

Версия 1: лишь бы не копировать руками

Знакомая ситуация: открываешь Wordstat, вводишь маску, ждёшь, копируешь, вставляешь в Excel. Следующая маска. И так по кругу. Каждый раз одно и то же.

Написал скрипт. Никакой архитектуры просто цикл, запросы к Bukvarix (у них есть бесплатный API), файл на выходе. Работало. На этом стоило остановиться.

Не остановился.

Читать полностью »

Дисклеймер. Эта статья не о религии. Речь пойдет о методе. Сложный богословский текст здесь выступает полигоном для проверки гипотезы: может ли ансамбль языковых моделей найти скрытые логические противоречия в человеческих интерпретациях?

Введение

Почему ИИ, а не очередной комментарий?

Мой опыт предыдущих публикаций показал, что даже технически подготовленная аудитория часто воспринимает групповую оценку нейросетей с недоверием. Читать полностью »

Привет! Меня зовут Vlad, я начинающий Python-разработчик и энтузиаст изучения языков.

Недавно я столкнулся с классической проблемой полиглота-самоучки: учебники дают теорию, аудиокурсы — пассивное восприятие, но нет главного — обратной связи по произношению. Репетиторы дороги, а разговорные клубы требуют уровня, которого у меня еще не было.

Я решил закрыть эту боль кодом. Моя цель была амбициозной: создать Telegram-бота, который:

  1. Слушает голосовые сообщения и распознает речь без дорогих облачных API.

  2. Оценивает точность произношения в процентах, сравнивая с эталоном.

  3. Читать полностью »

Когда смотришь на поисковые запросы вокруг клинических рекомендаций, быстро становится видно, что пользователю нужен не «еще один каталог PDF», а нормальный слой доступа к знаниям.

В одном кластере живут запросы вроде «рубрикатор клинических рекомендаций», «клинические рекомендации Минздрав», «клинические рекомендации 2025» и «клинические рекомендации 2026». В другом — «клинические рекомендации у детей», «клинические рекомендации у взрослых», «новорожденный клинические рекомендации». В третьем — «тесты по клиническим рекомендациям», Читать полностью »

Skeleton Indexing (KDD 2025) + HippoRAG 2 (ICML 2025) + VectorCypher + Datalog Reasoning + 10 итераций оптимизации


TL;DR

Я реализовал Graph RAG систему, которая комбинирует 5 техник из свежих научных статей в единый пайплайн с декларативным reasoning-движком, полной провенансной трассировкой и типизированным API. Результат: 174/180 (96.7%) на билингвальном бенчмарке из 30 вопросов, оценённых в 6 режимах retrieval. Три режима достигли 100%. Ноль persistent failures.

GitHub: Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js