Сегодня нейросети умеют создавать изображения в стиле великих художников — от Ван Гога до Ренуара. При этом имитацию обычно видно с первого взгляда. Но способны ли эти алгоритмы создать абстрактную картину, которая заставит усомниться даже опытного искусствоведа? И как при этом объективно определить — кто в итоге автор? Небольшой эксперимент, объединяющий искусственный интеллект и нейроэстетику, дал результаты, которые заставляют задуматься о том, каким будет будущее искусства.
Нейросети уже давно научились имитировать стиль известных художников. Стоит всего лишь написать в промте имена вроде Ван Гога или Ренуара — и получаешь картину в характерной технике. Разумеется любитель искусства или, тем более, профессионального искусствоведа такие работы раскусит моментально. Нейросети часто ошибаются в деталях: в костюмах определённой эпохи вдруг появляются современные элементы, в натюрморте может появиться продукт, которого при жизни художника просто не существовало, искажаются перспектива и текстуры.
Но ведь существует абстрактное искусство — где нет очевидных элементов, которые тут же выдают цифровое происхождение. И тогда возникает вопрос: сможет ли нейросеть создать такую абстрактную картину, что даже опытный знаток будет в сомнении — сделала ли её рука человека или алгоритм? И, что не менее интересно, как это объективно проверить? Опросы и тесты работают, но требуют большого числа респондентов и серьёзной статистики. Для небольших экспериментов больше подходят числовые характеристики, которые можно подсчитать и сравнить.
Вот тут на помощь приходит нейроэстетика — наука, которая пытается объяснить, что мы считаем красивым или гармоничным не через философские размышления, а анализируя сенсорные реакции и измеримые параметры изображений. В случае с абстрактными картинами ключевые параметры — это фрактальная размерность, мультифрактальный спектр, энтропия и анизотропность.
Фрактальная размерность — мера того, насколько пространство заполнено сложной структурой. Например, линия — это размерность 1, полностью закрашенное полотно — размерность 2, а абстрактные «узоры» — что-то между ними.
Мультифрактальный спектр отражает неоднородность структуры: насколько она состоит из элементов разных масштабов — больших пятен, тонких нитей, мелких точек. Чем шире спектр, тем более разнообразной и богатой считается структура.
Энтропия Шеннона — это количественная мера информации или хаоса в изображении. Чем она выше, тем сложнее предсказать цвет или оттенок следующего пикселя и тем визуально насыщеннее и разнообразнее картина.
И, наконец, анизотропность — это степень направленности структуры. Если она близка к нулю, картинка хаотична и не имеет явно выраженных направлений. Если близка к единице, то чёткое направление на картине угадывается с первого взгляда.
Все эти параметры я взяла за основу в небольшом эксперименте: решила сгенерировать абстрактные изображения, имитирующие стиль Поллока, и сравнить их с оригиналом с помощью упомянутых числовых метрик.
Для генерации использовала без изменений один и тот же промт:
Abstract square canvas densely covered with chaotic splatters and drops of paint in warm ochre, red, and brown tones, reminiscent of Jackson Pollock's Number 5 style. Paint layers overlap creating a complex texture with large spots and scattered fine splashes. Background is light, subtly textured cream, contrasting with dense strokes. Soft, diffused lighting emphasizes volume and paint texture. Sharp frontal shot, square format, maximum detail, all elements in focus.
Генерация проводилась в Midjourney 7.0, Nano Banana Pro, Grok и Sora 2.
Полученные изображения затем оценивала через Python по методикам:
-
Box-Counting для фрактальной размерности D,
-
MF-DFA для ширины мультифрактального спектра Δα,
-
формулу Шеннона H для энтропии,
-
FFT-анализ для анизотропности.
Что получилось?
|
Изображение |
Фрактальная размерность |
Мультифрактальный спектр |
Энтропия |
Азиотропия |
|
Оригинал |
1,80 |
0,94 |
7,2 |
0,38 |
|
Grok |
1,85 |
0,88 |
7,6 |
0,11 |
|
Midjourney 7.0 |
1,72 |
0,79 |
8,1 |
0,14 |
|
Nano Banana Pro |
1,46 |
0,32 |
5,4 |
0,45 |
|
Sora 2 |
1,64 |
0,58 |
6,5 |
0,19 |
Что это значит?
Исследования Ричарда Тейлора и его коллег по нейроэстетике установили, что зрительная кора человека лучше всего воспринимает фрактальную размерность в узком коридоре от 1,3 до 1,5. В этот диапазон укладываются природные объекты такие как горные хребты, речные дельты и даже структура наших собственных кровеносных сосудов.
Оригинал, который мы принимаем за эталон, в этот диапазон не вписывается и, по идее, должен вызывать стресс. Этого не происходит, потому что высокую степень насыщения компенсирует высокая мультифрактальность. В природе монофракталы встречаются редко и
Картина, сгенерированная в Nano Banana с размерностью 1,46, попадает точно в середину эволюционного оптимума. Хотя на мой вкус она далеко не лучшая из полученных имитаций. Вероятно, всё дело в том, что хоть число 1,46 математически близко к статистике разреженного берёзового леса или зимнего неба с редкими облаками, узкий мультифрактальный спектр и низкая энтропия означают, что среда слишком однородна. В природе даже при размерности 1,4 всегда присутствует микрошероховатость: трещины на коре, ворсинки на листочках и т.д. Их отсутствие делает картину биологически «скучной».
Имитация в Sora с размерностью слегка выходит за пределы природного оптимума. Средний мультифрактальный спектр и умеренная энтропия создают эффект «обогащённой среды»:
Изображение, созданное в Midjourney 7.0 с размерностью 1,72 и рекордной энтропией, пересекает порог эволюционной толерантности. На мой взгляд, оно больше всего похоже на оригинал. Лично мне оно понравилось больше всего, стыдно признать, даже больше оригинала. Хотя с точки зрения нейробиологии ему не следовало бы нравиться.
Абстракция от Grok с нейроэстетической точки зрения, самая неудачная. Даже при богатой текстуре плотность заполнения превышает пропускную способность механизмов пространственной интеграции в теменно-затылочной коре.
Уверена, что со многими нейроэстетическими выводами вы не согласитесь, но лично для меня ценны два наблюдения: во-первых, пока нейросеть не может полноценно симметрично имитировать абстрактные произведения искусства без специальных настроек; во-вторых, имитации уже достигли весьма высокого художественного уровня и, вероятно, в будущем они смогут соперничать с человеком в области абстракции на почти равных. И чисто субъективный вывод — лучше всего абстрактные картины создают Midjourney и Sora.
Автор: AnPages
