Рубрика «huggingface»

Q-scribe (Quick Transcription) появился как быстрый, независимый и легковесный конвейер «приемлемого качества» для расшифровки видеозаписей встреч. Полученный текст можно использовать для создания протоколов, кратких сводок или дальнейшей обработки.

Условия, с которыми мы столкнулись, были простыми и вполне реальными:

  1. Мы — небольшая удаленная команда из двух человек.

  2. Мы не хотим платить за облачные подписки для транскрибации.

  3. Мы не хотим сливать аудио встреч на внешние сервера.

  4. У одного из нас (у меня) имеется ноутбук с NVIDIA GeForce RTX 4080.

  5. Читать полностью »

Введение

В декабре 2025 года VK провёл RecSys Challenge LSVD — соревнование по машинному обучению с нестандартной постановкой задачи. Традиционные рекомендательные системы решают проблему "что показать пользователю", но здесь требовалось обратное: для каждого нового клипа определить, каким пользователям он может быть интересен. Такой подход помогает решать проблему холодного старта контента, когда новое видео только появляется в системе и не имеет истории взаимодействий.

Я принял участие в этом челлендже и хочу поделиться своим решением, архитектурой системы и практическими выводами.

Постановка задачи и данные

Читать полностью »

"Бородино" Лермонтова и "Ледовое побоище" Симонова две классические военно-патриотические поэмы, были созданы по мотивам крупных военных событий, но по-разному описывают ратный подвиг русского воина.  Мне стало интересно сравнить два произведения объективно, использовать для анализа предобученные эмбеддинги и визуализировать результат.

Для работы я использовал библиотеку transformers для загрузки и применения предобученной модели LaBSE. Библиотека torch понадобилась мне для работы с нейросетевой моделью. scikit-learn я использовал для снижения размерности с помощью PCA и t-SNE.

Читать полностью »

В прошлой статье мы рассказывали о GigaAM — семействе открытых акустических моделей для русского языка и их дообученных вариантах под распознавание речи и эмоций. Сейчас мы представляем GigaAM-v3 — новую версию модели, которая ещё сильнее поднимает планку качества open source-моделей распознавания речи (Automatic Speech Recognition, ASR) на русском языке.

В этом посте расскажем:

  • что такое HuBERT-CTC и почему он даёт прирост качества минимум 10 % даже по сравнению с распространёнными в индустрии методами предобучения;

  • Читать полностью »

Если вы хотите поиграться с LLM у вас есть несколько вариантов: можно задействовать LLM через код, можно воспользоваться чатом одного из облачных провайдеров, а можно развернуть у себя UI-клиента для работы с LLM. Их довольно много. И функционал у них может сильно различаться. В самом простом виде есть только чат. У наиболее продвинутых есть встроенные базы знаний, работа с изображениями и много других функций.

Ниже краткий обзор 9 таких клиентов (отсортированы по предпочтению автора):

  1. Open WebUI

  2. LM Studio

  3. Msty Studio

  4. Librechat

  5. Читать полностью »

Что важнее: создать продукт, или доставить его до пользователя? Оба этапа необходимы. Сегодня обсудим второй. Как нам построить поисковую e-com систему.

Покажем, что в слово логистика товара входят сложные задачи не только: перевезти наушники из Китая в Америку, но и настройка поисковой выдачи по запросу.

Быстро соберем поисковой MVP-сервис. Дообучим модель E5 на реальных данных от Amazon. Определим метрики качества и сравним BM25, pretrain E5 и fine-tune E5. Так же взглянем глазами с отладочной информациейЧитать полностью »

Зачем?

У меня возникло желание запустить локальную версию DeepSeek R1 и V3. Это связано с необходимостью избежать рисков связанных с блокировками доступа и утечкой данных. Ещё добавилось желание протестировать разнообразные настройки LLM. До этого момента я пробовал запускать разные небольшие модели исключительно на cpu. А вот опыта с большими моделями не было.

Где?

Читать полностью »

Накорми языковую модель документами - 1

Задача поиска ответов по внутренней документации

Читать полностью »

Исходный код, разобранный в статье, опубликован в этом репозитории

В вакансиях LLM инженеров присутствует слово RAG. Это подразумевает интеграцию во внешнюю базу данных, например, PostgreSQL с PGVector или MongoDB Atlas Vector Search.

https://supabase.com/blog/openai-embeddings-postgres-vector

Открываем instruct-версию YandexGPT 5 Lite - 1

Недавно мы выложили в открытый доступ pretrain-версию модели YandexGPT 5 Lite, обученную нами с помощью технологий Яндекса и без применения каких-либо сторонних моделей. За прошедший месяц в сообществе её скачали более 15 тысяч раз, на её основе создали больше десятка квантизованных моделей и даже дообучили instruct-версии.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js