- PVSM.RU - https://www.pvsm.ru -

Превратить старое видео из 480p в кристально чистое 4K сегодня может каждый. Но какой ценой? Пока одни инструменты подкупают простотой и мощными моделями вроде Starlight, другие предлагают безграничную гибкость open-source, а третьи — ультимативную скорость обработки, требуя взамен технических знаний.
В этом сравнении мы сталкиваем лбами три разных подхода к AI-апскейлингу, а также даём несколько практических советов.
На данный момент существует более 30 архитектур апскейлеров и не меньше приложений для взаимодействия с ними. Тем не менее, ключевые принципы и подходы можно посмотреть на примере трёх основных решений: Topaz Video AI, ChaiNNer и REAL-Video-Enhancer.
Чтобы разобраться в их отличиях, мы рассмотрим каждый из них по порядку. Начнём с Topaz Video AI — коммерческого и наиболее простого в освоении решения. Затем перейдём к ChaiNNer — гибкому open-source конструктору для построения сложных конвейеров. И закончим программой REAL-Video-Enhancer, которая создана для максимальной производительности, но требует от пользователя технических знаний.
Без сомнений, это один из самых давних и амбициозных игроков в данной сфере. Главная фишка у Topaz — это многокомпонентность их подходов. Так, модель Iris не только уменьшает шум на видео, но и улучшает лица как отдельный объект на общей сцене.
Помимо своего основного назначения, практически каждая модель предлагает огромный список настроек: подавление шума, устранение артефактов, восстановление деталей и многое другое.
Эта программа эффективно использует ресурсы на всех платформах (Nvidia, AMD, Intel). Это редкость для профессионального софта, особенно учитывая закрытый характер разработки ИИ-моделей Topaz. На первый взгляд, Topaz кажется идеальным выбором: в нём есть буквально всё, даже фильтры в духе Avisynth. Но вся эта мощь оказывается почти бесполезной, как только речь заходит о восстановлении 2D-анимации.
Некоторые пользователи говорят, что методом проб и ошибок (меняя разрешение, битрейт и другие параметры на входном видео) можно добиться от Topaz приемлемых результатов и на 2D-контенте. Однако, на мой взгляд, это бессмысленная трата времени — попытка натянуть сову на глобус. Другие разработчики уже давно сделали эту нишу своей основной специализацией, а не просто дополнением к продукту.

Главное нововведение Topaz — первая общедоступная коммерческая модель апскейлинга на основе архитектуры диффузионных моделей.
Прежде чем мы углубимся в детали, стоит сделать важную оговорку. Topaz Labs — коммерческая компания, и она не публикует научные статьи или подробную техническую документацию о своих моделях. Информации из новостных источников, где упоминаются конкретные цифры, едва ли можно доверять, поскольку от самой компании нет никаких подтверждений даже о размерности модели. В основном есть лишь абстрактные заявления в духе «модель смотрит на кучу кадров назад и анализирует их». Поэтому далее я объясню в целом принципиальное отличие прошлых GAN-моделей от нового диффузионного подхода.

Итак, что же представляет собой этот подход? Это переход от старых состязательных сетей (GAN), работавших как «умные» локальные фильтры, к диффузионным моделям, которые обеспечивают глобальное понимание контекста всего кадра. По имеющейся информации, помимо увеличения дальности анализа с нескольких кадров до сотен, сама модель может иметь размер, например, более 6 миллиардов параметров. Даже если предположить, что это так, размер модели в 6 миллиардов параметров может показаться скромным.
Если всё очень сильно упрощать и визуализировать:
Прежние подходы, основанные на GAN, работали как команда узкоспециализированных ретушёров. Каждый «ретушёр» смотрел на небольшой фрагмент кадра и его ближайших соседей (пару кадров до и после), чтобы исправить локальные дефекты: повысить резкость, убрать шум, дорисовать текстуру. Их «память» была короткой, а понимание сцены — локальным. Они отлично справлялись с улучшением того, что уже есть, но не могли воссоздать то, что было утеряно полностью, опираясь на общую логику видео.
Диффузионный подход — это скорее работа мастер-реставратора, который видит всю картину целиком. Такая модель анализирует не пару соседних кадров, а длинную последовательность, порой сотни кадров, чтобы понять глобальный контекст. Она больше не пытается «заострить» размытый край. Она понимает, что этот край принадлежит тому самому автомобилю, который появился 50 кадров назад, и реконструирует его форму, учитывая всю траекторию его движения. Модель видит видео не как набор пикселей, а как целостную динамическую сцену, где у каждого объекта есть своя история.

Так почему же диффузионная модель настолько требовательна, в то время как языковая модель (LLM) сопоставимого размера может запуститься даже на телефоне? Ответ в объёме работы. Старые GAN-модели, как те ретушёры, применяли свои правки за один проход. Диффузионная же модель — это целый реставрационный цех. Для создания одного кадра она берёт «сырьё» (цифровой шум) и прогоняет его через себя десятки раз, на каждом шаге уточняя детали и сверяясь с сотней соседних кадров. Из-за этого многоэтапного процесса её реальная вычислительная нагрузка может быть сравнима с работой очень крупных языковых моделей.
Обобщая: Старый подход (CNN), даже со всеми наворотами поверх него, условно, занимался ретушью картинки, а новый (диффузия) смотрит и анализирует картину целиком, а затем воссоздаёт её из управляемого шума, по сути, рисуя детализированную копию кадра с нуля.

Чтобы сделать технологию доступной, разработчики выпустили локальную версию Starlight Mini. Однако даже на флагманской RTX 5090 её скорость заставляет набраться терпения: при апскейле старого видео с 480p в 4K можно рассчитывать в лучшем случае на 0.5-1 кадр в секунду, что ОЧЕНЬ медленно (для сравнения, классические апскейлеры на архитектуре CNN справляются с этим в десятки раз быстрее, как правило). Так что в текущем варианте, как её предоставляет Topaz, эта история, скорее, об облачных технологиях, чем о пользовательских.
Очевидно, что в случае реалистичного видео и частично CGI-анимаций Topaz Video AI будет очень полезным инструментом. Сама компания очень быстро развивается, хотя не все её передовые разработки доступны обычным пользователям.
Теперь перейдём в сферу Open Source. В отличие от Topaz, здесь пользователь получает доступ к двум ключевым компонентам: самим открытым архитектурам моделей и разнообразному ПО для их практического применения.
В отличие от Topaz, ChaiNNer [1] — это проект с открытым исходным кодом. Его сердце — огромная библиотека моделей — openmodeldb.info [2]. Кроме того, приложение предлагает множество модулей для обработки видео: от работы с шумом и цветом до математических операций. Правда, для запуска на видеокартах не от Nvidia потребуются дополнительные настройки. Пользователям AMD будет полезна моя статья про [3]этот комментарий [4], где подробно описан процесс установки. Насчёт Intel Arc тоже были сообщения об успешном запуске.
По своей сути ChaiNNer — это визуальный конструктор. Вы соединяете готовые блоки (их называют нодами) в одну цепочку. Один блок загружает видео, второй его увеличивает, третий добавляет резкость, и так далее. Это похоже на работу в профессиональных программах для видеомонтажа, вроде DaVinci Resolve, конкретно работу с плагинами на некоторых вкладках.
Большинство моделей из базы openmodeldb.info обучены на архитектуре ESRGAN(-compact), что можно интерпретировать как «Улучшенная GAN для увеличения разрешения изображений». Это хоть и довольно старая разработка, но всё ещё очень ходовая — 400+ моделей из ~600 в базе. Гибкость в мире open-source достигается иначе, чем в Topaz. Вместо набора настроек для одной модели вы получаете выбор из множества разных архитектур — SPAN, DAT, OmniSR и других. Часто одна и та же модель выходит сразу на нескольких из них.
Вот пример простой связки для апскейлинга видео в ChaiNNer:
Но в целом, можно сделать и такое:
Более подробно тема выбора моделей и работы в ChaiNNer рассматривалась в этой статье от меня — Нейросетевой апскейлинг дома: вторая молодость для классических мультфильмов [5]. Она ещё актуальна, но лучше следите за тем, что появляется на просторах openmodeldb.info [2], недавно вышли очень интересные LiveActionV1 [6] и BroadcastToStudio-Compact [7].
Но есть и компромисс — скорость. На данный момент (сентябрь 2025 года) в ChaiNNer нет механизма для конвертации PyTorch-апскейлеров в формат TensorRT — специальной технологии от Nvidia, которая позволяет многократно ускорить работу нейросетей, за счёт оптимизации модели под вашу видеокарту. Проще говоря, за гибкость и удобство вы платите временем обработки.
ChaiNNer обладает интуитивным интерфейсом, который легко освоить для простых задач. В то же время, он достаточно гибок для построения сложных конвейеров реставрации видео (в основном 2D). Однако за эту гибкость приходится платить не самой высокой производительностью.
Это приложение [8] создано для максимальной производительности в апскейлинге и интерполяции кадров. Его главное преимущество — автоматическое использование технологий TensorRT (Nvidia) и NCNN (Vulkan), что позволяет обрабатывать видео намного быстрее, иногда даже в десятки раз быстрее, чем в стандартных программах вроде ChaiNNer, жертвуя изысками интерфейса ради скорости. Скачивать тут [9].
Главный фокус разработчика — максимальная эффективность и простота её достижения, пусть и в ущерб сложности интерфейса. Этот софт умеет автоматически конвертировать модели апскейлеров из openmodeldb.info [2] в формат, работающий с TensorRT, который многократно опережает стандартный Torch по скорости работы с моделями. Главное достоинство программы — она берёт на себя самую сложную подготовительную работу. REAL-Video-Enhancer предоставляет простой доступ к нишевым моделям, которые не найти на openmodeldb.info и которые крайне сложно запустить самостоятельно. В дополнение к этому, здесь также легко включить ИИ-шумоподавление и модели интерполяции видео (хотя последними я бы советовал пользоваться с осторожностью). Для меня это стало настоящим открытием.
Для начала работы с программой нужно её скачать и установить, а далее установить из меню TensorRT и выбрать свою версию CUDA.
Затем мы наконец можем перейти к прямому использованию через пиктограмму процессора, остальной процесс достаточно прост, но есть два важных «НО». Во-первых, добавить модель можно в этой менюшке через пиктограмму скачивания.
Во-вторых, обратите внимание на вкладку «Advanced». Это не просто настройки, хотя их и можно найти, но я не советую, ведь это далеко не HandBrake, а поле для ввода пресета кодирования в виде командной строки. Для работы с ним потребуются знания FFmpeg. Я же советую, как и в случае с ChaiNNer, не забывать о пресетах высокой скорости, вроде fast, если ваш процессор замедляет весь остальной конвейер. К тому же, настоятельно рекомендуется сохранять контент в сыром виде (crf от 1 до 3 или ручной высокий битрейт), ибо из-за специфики внутреннего конвейера программы есть разница в качестве между кодированием напрямую в ней и последующей обработкой уже сохранённого файла без потерь.
Эта программа, хоть и не является швейцарским ножом, как ChaiNNer, выполняет поставленную себе задачу на 300%. Это самое производительное решение в нише. Если чувствуете оковы в виде скорости PyTorch, то это однозначно то, что вам нужно, хоть вся предварительная работа над видео и является полностью вашей задачей.
Если вы улучшаете видео из 720p или 1080p, указывайте -color_primaries bt709 -color_trc bt709 -colorspace bt709, чаще всего FFmpeg этого сам не сделает, и вы получите совершенно ненужную разницу в цвете между исходником и выходом, которая не зависела от ИИ-преобразований.
Для наиболее корректного сравнения следует использовать Lossless-cut [10], или любой другой софт, позволяющий определить текущий кадр, и FFmpeg-строку.
ffmpeg -i НАЗВАНИЕ_ВИДЕО.mp4 -vf "select='eq(n,НОМЕР_КАДРА - 1)'" -vframes 1 output_frame_НОМЕР.png
Очень важен этап анализа между тем, что было на входе и выходе, и между результатом от разных ИИ моделей. Именно столкнувшись с этой задачей, я разработал Improve ImgSLI — интуитивный open-source инструмент, созданный специально для продвинутого сравнения изображений. Он идеально подходит для сравнения апскейлинга, позволяя детально изучать результаты бок о бок, синхронно масштабировать и панорамировать, использовать лупу с разными методами интерполяции для пиксель-перфекционизма и управлять целыми списками изображений для сравнения. Сайт [11]. GitHub [12].
|
Критерий |
Topaz Video AI |
ChaiNNer |
REAL-Video-Enhancer |
|---|---|---|---|
|
Порог входа |
Низкий (готовые пресеты) |
Средний (нужно понимать ноды) |
Высокий (требует знаний FFmpeg) |
|
Гибкость |
Средняя (настройки в рамках моделей) |
Очень высокая (свободный конвейер) |
Средняя (апскейл и энкодинг, но присутствуют нишевые архитектуры) |
|
Производительность |
Хорошая (оптимизация под все GPU) |
Низкая (без TensorRT) |
Максимальная (с TensorRT для Nvidia) |
|
Основной контент |
Реалистичное видео, CGI |
2D-анимация, рисунки |
Любой (зависит от модели и потребностей) |
|
Цена |
Платно (подписка/покупка) |
Бесплатно (Open Source) |
Бесплатно (Open Source) |
|
Поддержка GPU |
Nvidia, AMD, Intel |
Nvidia, AMD (с настройкой), Intel |
В основном Nvidia (для макс. скорости) |
Ландшафт инструментов для ИИ-апскейлинга видео стремительно эволюционировал, и сегодня выбор сводится к трём ключевым подходам, каждый из которых занимает свою нишу. Topaz Video AI выступает как коммерческий флагман, предлагая простоту и передовые модели для работы с реалистичным видео. В мире open-source ChaiNNer является гибкой мастерской для энтузиастов, идеальной для реставрации 2D-анимации и построения сложных конвейеров, пусть и ценой производительности. Наконец, REAL-Video-Enhancer — это бескомпромиссное решение для тех, кому важна каждая секунда обработки на открытых апскейлерах за счёт максимальной оптимизации через TensorRT.
В конечном счёте, идеальный инструмент определяется не его общими возможностями, а конкретной задачей пользователя и его готовностью идти на компромиссы. Будь то удобство, гибкость или чистая скорость — для каждой цели теперь есть своё решение. И это главный показатель того, насколько зрелой стала эта технология всего за несколько лет.
© 2025 ООО «МТ ФИНАНС»
Автор: Realife
Источник [13]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/video/432506
Ссылки в тексте:
[1] ChaiNNer: https://chainner.app/
[2] openmodeldb.info: https://openmodeldb.info/
[3] статья про : https://habr.com/ru/companies/ruvds/articles/847792/
[4] этот комментарий: https://habr.com/ru/companies/ruvds/articles/847792/comments/#comment_27517280
[5] Нейросетевой апскейлинг дома: вторая молодость для классических мультфильмов: https://habr.com/ru/companies/ruvds/articles/853716/
[6] LiveActionV1: https://openmodeldb.info/models/2x-LiveActionV1-SPAN
[7] BroadcastToStudio-Compact: https://openmodeldb.info/models/1x-BroadcastToStudio-Compact
[8] приложение: https://github.com/TNTwise/REAL-Video-Enhancer
[9] Скачивать тут: https://github.com/TNTwise/REAL-Video-Enhancer/releases/tag/RVE-2.3.6
[10] Lossless-cut: https://github.com/mifi/lossless-cut/releases
[11] Сайт: https://improve-imgsli.ru
[12] GitHub: https://github.com/Loganavter/Improve-ImgSLI
[13] Источник: https://habr.com/ru/companies/ruvds/articles/952286/?utm_campaign=952286&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.