Рубрика «computer vision»

Большинство инструментов для замены лиц - это Python-скрипты, склеенные из PyTorch, OpenCV и надежды. Они работают, но тащат за собой гигабайты зависимостей, требуют правильно настроенного CUDA и разваливаются в тот момент, когда ты пытаешься запустить их в реальном времени.

Мне стало интересно: можно ли собрать весь пайплайн на чистом Rust? Без Python. Без PyTorch. Без обёрток. Один бинарник, который скачал, распаковал и запустил.

Оказалось, можно. 60 fps на веб-камере.

Пайплайн

На каждом кадре последовательно отрабатывают четыре нейросети.

Читать полностью »

Многие приложения для здоровья в России перестали нормально работать. Omron — одно из них. А давление мерить надо каждый день. Поэтому я решил сделать своё iOS-приложение, которое через камеру считывает показания с любого тонометра, сохраняет их и строит графики динамики.

Я Senior CV-инженер — компьютерное зрение моя основная работа. Так что OCR с дисплея тонометра технически не должен был стать проблемой. Но как iOS-разработчик я — полный ноль. Xcode открыл впервые. Swift видел мельком. Это честный рассказ о том, как это выглядит изнутри.

Читать полностью »

Представьте что вы получили 500 кредитных заявок. В каждой — паспорт, банковская выписка, справка о доходах, налоговая форма. Всё в PDF. Имена файлов: upload1.pdf, upload2.pdf... Чтобы обработать их вручную — нужна неделя и несколько сотрудников. Чтобы обработать автоматически старым способом — нужно написать отдельный парсер под каждый тип документа, и молиться чтобы шрифт не поменялся. Эта статья о том как индустрия шла к решению этой задачи — и к чему пришла.


Читать полностью »


Привет!

Меня зовут Андрей, я – специалист по оптическим системам, расчётчик и конструктор в одном лице.

Читать полностью »

В этой статье я разберу, как реализовать передачу JPEG-видео по RTP поверх UDP напрямую с ESP32 - так, чтобы поток открывался в VLC и ffplay, без RTSP, FFmpeg и промежуточных серверов.


Почему не HTTP MJPEG

В интернете легко найти десятки примеров стриминга с ESP32 через HTTP MJPEG. Возникает логичный вопрос: зачем вообще усложнять и использовать RTP?

Причин здесь несколько.

Во-первых, HTTP MJPEG это не очень интересно. Это по сути бесконечный HTTP-ответ с multipart-boundary, который работает ровно до тех пор, пока браузер его терпит. Протокол не предназначен для real-time мультимедиа и используется скорее как удобный хак.

Читать полностью »

Logos AI Assistant: Дайте "глаза и руки“ нейросети на вашем рабочем столе

Вспомните, сколько раз вам приходилось заниматься ручной, механической работой: переносить данные из одной программы в другую, кликая по одним и тем же кнопкам,
или выполнять последовательность команд в терминале для рутинной задачи. Это отнимает время и силы, которые можно было бы потратить на что‑то более важное.

Мы создали Logos AI Assistant не как замену человеку, а как инструмент‑исполнитель. Это мост между мощными языковыми моделями (LLM) и вашим к омпьютером. Проще
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js