Я ML-инженер, который последние полгода все чаще использует генеративные нейросети для визуала. Фото уже почти не отличить от настоящих, но с видео всё сложнее. Моделей стало много, и главный вопрос, какая из них снимает реалистичнее?
Чтобы разобраться, я протестировал три самых обсуждаемых видеомодели: Sora 2 от OpenAI, Veo 3 от Google DeepMind и Grok Imagine от xAI.
Все три умеют генерировать видео по текстовому запросу, но работают совсем по-разному.
