Рубрика «мультимодальные модели»

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

2025-11-16 в 6:31, admin, рубрики: gemma-3, llm, ocr, paddleocr, qwen3, vlm, мультимодальные модели, распознавание текста

Привет! Каждый, кто хоть раз пытался вытащить данные из скана акта или старого отчета, знает эту боль. Классические OCR-инструменты, вроде старого доброго Apache Tika, отлично справляются с простым печатным текстом, но пасуют перед реальными вызовами: таблицами со сложной вёрсткой, рукописными пометками, мелким курсивом и разными шрифтами в одном документе.

Чтобы не быть голословными, давайте посмотрим на типичный «сложный» документ и что с ним делает Tika.

Читать полностью »

Мозг и мультимодальные нейросети как генераторы виртуальной реальности

2025-09-26 в 13:54, admin, рубрики: VR, байесовский мозг, виртуальная реальность, мультимодальные модели, нейроинтерфейс, нейролинк, нки, предиктивное кодирование, Принцип свободной энергии, теория предсказательного разума

«Если люди — это способ Вселенной смотреть на себя, […] то виртуальная реальность — это способ Вселенной делать вид, что она смотрит на себя». (Уильям Браунинг Спенсер)

«Читать полностью »

Как мы строили KidFolio — цифровую платформу для родителей и детских садов

2025-07-09 в 11:00, admin, рубрики: CV, ML-продукт, vlm, автоматизация, генерация описаний, Компьютерное зрение, мультимодальные модели, распознавание лиц

Мы — Даврон Ихматуллаев и Михаил Назаров — выпускники онлайн-магистратуры «Науки о данных» Центра «Пуск» МФТИ. В рамках дипломной работы и студенческого стартап-проекта мы разработали KidFolio — цифровую платформу, которая автоматически отправляет родителям персонализированные фото- и видеоотчеты из детского сада, используя технологии компьютерного зрения (CV) и мультимодальных языковых моделей (VLM).

В этой статье расскажем, как мы делали из идеи продукт:

от гипотезы и интервью с воспитателями до запуска MVP в виде телеграм-бота;
как дообучали модели распознавания лиц под детский домен;
Читать полностью »

Жестовый язык: похожее в непохожем и наоборот

2025-06-19 в 11:06, admin, рубрики: жестовый язык, мультимодальные модели, распознавание видео, распознавание жестовых языков

Привет! Наша команда RnD CV продолжает приближать момент, когда компьютер по видео сможет распознавать жестовый язык (ЖЯ) глухих так же качественно, как речь.

Сегодня мы расскажем, как собрали один из самых больших в мире датасетов изолированного русского жестового языка Logos, чем различаются визуально одинаковые жесты, как мы с помощью нашего датасета обучили универсальную модель-энкодер и попутно заняли первую строчку в бенчмарке распознавания американского жестового языка. По итогам этой работы мы опубликовали препринт.

Читать полностью »

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

2025-05-29 в 7:57, admin, рубрики: image editing, neural image editing, генеративные модели, диффузионные модели, искусственный интеллект, Компьютерное зрение, машинное обучение, мультимодальные модели, обработка изображений, редактирование изображений

Пример работы нашей модели. Только текстовые запросы — никаких масок!

Читать полностью »

Задача Emotional FusionBrain 4.0: итоги и победители

2024-12-10 в 13:33, admin, рубрики: artificial intelligence, deeplearning, natural language processing, большие языковые модели, мультимодальные данные, мультимодальные модели, Сбер, соревнования, хакатон, Хакатоны

Всем привет! На связи снова лаборатория FusionBrain!

В сентябре мы анонсировали задачу Emotional FusionBrain 4.0, которая стала частью соревнования AI Journey Contest. Участникам предстояло разработать универсальную мультимодальную модель, которая учится понимать социальные взаимодействия людей по видео — другими словами, создать эмоциональный искусственный интеллект.

Теперь пришла пора подводить итоги!

Но начнём мы, конечно же, с описания задачи, чтобы уважаемые читатели оказались в едином контексте :)

Читать полностью »

Защита LLM в разработке чат-ботов в корпоративной среде: как избежать утечек данных и других угроз

2024-09-30 в 14:05, admin, рубрики: llm-attack, атаки, безопасность данных, большие языковые модели, искусственный интеллект, мультимодальные модели, нейросети, утечки

Читать полностью »

Эмоциональный и искусственный. Учим нейросети понимать социальные взаимодействия людей на AIJ Contest

2024-09-17 в 11:56, admin, рубрики: artificial intelligence, natural language processing, большие языковые модели, мультимодальные модели, соревнования, хакатон, Хакатоны

Мы в лаборатории Fusion Brain уже много лет работаем на созданием мультимодальных моделей, способных работать с как можно большим числом данных разного типа. Не так давно, например, мы релизнули мультимодальную LLM OmniFusion 1.1, способную поддерживать визуальный диалог и отвечать на вопросы по картинкам, причём с поддержкой русского языка — и рассказали об этом на Хабре.

Читать полностью »

«Пора ли гнать на мороз Computer Vision — scientist’ов ?» (Fondation Models и вокруг)

2024-01-18 в 0:50, admin, рубрики: CLIP, computer vision, dinov2, Fondation Models, I-Jepa, InternImages, InternVideo, машинное зрениее, мультимодальные модели, нейронные сети

Прошлый год в Computer Vision запомнился тем, что появилось множество больших претрейненных сетей (Fondation Models). Самая известная - GPT4v (ChatGPT с обработкой изображений).
В статье я попробую простым языком объяснить что это такое (для тех кто пропустил), как меняет индустрию. И когда можно будет выгнать на мороз лишних "ресерчеров".

Поговорим о следующем:

Что вообще такое "предтрейненные сети"
Где они используются?
Можно ли заменить ими обучение/разработчиков?
Какие есть ограничения?
Что будет дальше?

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «мультимодальные модели»

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

Мозг и мультимодальные нейросети как генераторы виртуальной реальности

Как мы строили KidFolio — цифровую платформу для родителей и детских садов

Жестовый язык: похожее в непохожем и наоборот

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

Задача Emotional FusionBrain 4.0: итоги и победители

Защита LLM в разработке чат-ботов в корпоративной среде: как избежать утечек данных и других угроз

Эмоциональный и искусственный. Учим нейросети понимать социальные взаимодействия людей на AIJ Contest

«Пора ли гнать на мороз Computer Vision — scientist’ов ?» (Fondation Models и вокруг)