Рубрика «Компьютерное зрение» - 3

Мы — Даврон Ихматуллаев и Михаил Назаров — выпускники онлайн-магистратуры «Науки о данных» Центра «Пуск» МФТИ. В рамках дипломной работы и студенческого стартап-проекта мы разработали KidFolio — цифровую платформу, которая автоматически отправляет родителям персонализированные фото- и видеоотчеты из детского сада, используя технологии компьютерного зрения (CV) и мультимодальных языковых моделей (VLM).

В этой статье расскажем, как мы делали из идеи продукт:

  • от гипотезы и интервью с воспитателями до запуска MVP в виде телеграм-бота;

  • как дообучали модели распознавания лиц под детский домен;

  • Читать полностью »

Реставрация старых картин — процесс, требующий и художественного чутья, и усидчивости. На восстановление одного полотна уходят месяцы и даже годы. Алекс Качкин, аспирант Массачусетского технологического института (MIT), предложил метод, который использует искусственный интеллект и полимерные маски для быстрого и обратимого восстановления поврежденных произведений искусства. Его разработка, описанная в журнале Nature, обещает вернуть к жизни тысячи картин, спрятанных в запасниках музеев.

Читать полностью »

Тема компьютерного зрения наряду с искусственным интеллектом в последние годы стала очень популярной. Сегодня компьютерное зрение — это динамичная и быстро развивающаяся область, постоянно расширяющая границы того, что могут видеть и понимать машины.

Однако, зачастую многие публикации посвященные computer vision являются достаточно сложными для тех, кто только погружается в данную тему.

Читать полностью »

"Распознать бы этого шакала"

"Распознать бы этого шакала"

Читать полностью »

Пролог: Парадокс глубины

Представьте, что вы строите небоскрёб. Каждый новый этаж — это слой нейросети. Но после 20 этажей здание вдруг начинает... рушиться. Так было в компьютерном зрении до 2015 года: чем глубже сеть, тем хуже она работала.

ResNet решил это гениально просто: добавил "лифты" между этажами — остаточные связи (skip-connections). Теперь, если новый слой бесполезен, сеть просто "пропускает" его через эти лифты.

Разберём на простом примере

Как ResNet из картинки делает предсказание?
Допустим у нас есть задача предсказать, что в данном изображении будет "человек" класс (0) или "машина" класс (1).

Читать полностью »

Пример работы нашей модели. Только текстовые запросы — никаких масок!

Пример работы нашей модели. Только текстовые запросы — никаких масок!

Читать полностью »

Привет! На связи команда регионального научно-образовательного центра «Искусственный интеллект и анализ больших данных» при НГТУ им. Р. Е. Алексеева. При поддержке компании YADRO мы изучаем архитектуру RISC-V и компьютерное зрение, чтобы внедрить результаты в учебный процесс.

Читать полностью »

Вопросы о CLIP-моделях встречаются почти на каждом техническом собеседовании.
Неважно, занимаетесь ли вы видеоаналитикой, создаёте генеративные модели или работаете над поиском по изображениям — CLIP и его потомки (BLIP , SigLIP Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js