Пару слов о «ломаном» универсальном ИИ: o3, Gemini 2.5 и туманное будущее

Сегодня в мире ИИ-бум. Но мы до сих пор не знаем, как измерять интеллект, креативность или эмпатию этих систем. Тесты, которыми мы пользуемся, далеки от идеала. Но самое главное — они изначально создавались не для ИИ, а для человека. Команда VK Tech перевела статью о том, что такое универсальный ИИ, как вообще тестировать и «измерять» искусственный интеллект и как на самом деле неравномерно распределяются его возможности и способности.

Введение

Недавно в одном нашем исследовании мы тестировали приемы создания промптов ^[1] и выяснили, что результаты могут кардинально меняться просто в зависимости от того, как сформулированы вопросы. Даже известный тест Тьюринга, где люди пытаются угадать, общаются они с ИИ или с другим человеком, задумывался как мысленный эксперимент в тот период, когда такие задачи казались невозможными. Но по последним данным, ИИ справляется с тестом Тьюринга ^[2]. И вот здесь нам приходится признать, что мы вообще не знаем, что это значит.

Так что неудивительно, что универсальный искусственный интеллект (AGI), один из важнейших этапов в развитии ИИ, не имеет четкого определения и остается предметом активных обсуждений. Все сходятся на том, что такой ИИ должен решать задачи, как люди. Но непонятно, имеем ли мы в виду уровень эксперта или среднестатистического человека, с какими задачами ИИ должен справиться, чтобы считаться AGI, и сколько таких задач он должен решить. Учитывая неразбериху с определениями AGI, сегодня довольно сложно говорить о нюансах и истории этого понятия, от предыдущих этапов развития до собственно термина, который придумали Шейн Легг, Бен Гертцель и Питер Восс.

К слову о потенциально интеллектуальных машинах: в качестве эксперимента по форме и содержанию я полностью делегировал работу ИИ. Google Deep Research подготовил для меня солидный доклад по теме аж на 26 страниц ^[3]. Потом HeyGen превратил его в видеоподкаст, в котором взаимодействовали хост и дерганая версия меня. Причем оба были сгенерированы искусственным интеллектом. Не скажу, что это была плохая дискуссия, хотя я и не во всем согласен с ИИ-версией себя. Но все в этой дискуссии, от самого исследования до видео и звука, на 100% сгенерировано искусственным интеллектом.

Так что интересно было прочитать статью ^[4] влиятельного экономиста и внимательного обозревателя вопросов ИИ Тайлера Коувена, в которой он утверждает, что o3 — это AGI. С чего он так решил? Вот его цитата:

«Я серьезно думаю, что это AGI. Попробуйте задать ему много вопросов, а затем спросите себя: насколько умнее в моей голове выглядит AGI по сравнению с о3?

Как я уже утверждал в прошлом, AGI, как бы вы его ни определяли, сам по себе не является социальным событием. Нам все равно понадобится много времени, чтобы использовать его должным образом.

Тесты, тесты, бла-бла-бла. Может быть, AGI — это как порно: я узнаю его, когда увижу.

И я это видел».

Прочувствовать AGI

Для начала немного контекста. За последнее время появились две новые ИИ-модели: Gemini 2.5 Pro у Google и o3 у OpenAI. Кроме того, компании выпустили не такие мощные, но зато более быстрые и дешевые модели Gemini 2.5 Flash, o4-mini и Grok-3-mini. И, судя по показателям бенчмарков, эта плеяда — большой шаг вперед в развитии ИИ ^[5].

Но бенчмарки — это еще не все. В моей книге ^[6] можно найти реальные примеры, подтверждающие, насколько продвинулись эти модели. Для главы о том, как ИИ генерирует идеи, чуть больше года назад я попросил ChatGPT-4 придумать маркетинговые слоганы для нового магазина сыров:

Пару слов о «ломаном» универсальном ИИ: o3, Gemini 2.5 и туманное будущее - 2

Сегодня я задал чуть более сложную версию того же вопроса преемнику GPT-4, модели o3: «Придумай 20 умных идей маркетинговых слоганов для нового онлайн-магазина сыров. Разработай критерии и выбери лучший вариант. Потом создай для магазина финансовый и маркетинговый план, внеси необходимые правки и проанализируй конкурентов. Потом разработай подходящий логотип, используя генератор изображений, и сделай прототип сайта магазина. Обязательно размести на сайте 5–10 сортов сыра в соответствии с маркетинговым планом».

Получив один промпт, ИИ не только придумал слоганы, но и составил из них список от лучшего к худшему, выбрал лучший вариант, выполнил поиск в интернете, придумал логотип, подготовил маркетинговый и финансовый планы и запустил демоверсию сайта. Все это заняло меньше двух минут. Ему не помешали ни достаточно размытые инструкции, ни необходимость полагаться на здравый смысл для принятия решений.

Пару слов о «ломаном» универсальном ИИ: o3, Gemini 2.5 и туманное будущее - 3

Предполагаю, что модель o3 больше, чем GPT-4, но это не все. Она действует, как думающая модель ^[7]: по первоначальному ответу видно, что она размышляет. Кроме того, это модель-агент, которая умеет пользоваться инструментами и решать, как добиваться поставленных целей. Она совершает разные действия с помощью разных инструментов, включая поиск в интернете и написание кода, чтобы получить объемные результаты.

Это далеко не единственные удивительные примеры. o3 способна угадывать местоположение по фотографии. Для этого достаточно показать ей фото и дать промпт «угадай, где» (да, это не снимает серьезные соображения по поводу конфиденциальности). И снова мы понимаем, что это не просто модель, а агент: она увеличивает масштаб изображения, выполняет поиск в интернете и в несколько этапов находит правильный ответ.

Пару слов о «ломаном» универсальном ИИ: o3, Gemini 2.5 и туманное будущее - 4

А еще я загрузил в o3 большой датасет с историческими данными машинного обучения в виде электронной таблицы и попросил ее «выяснить, что это такое, и подготовить отчет со статистической информацией. Представить его в грамотно форматированном PDF-файле с подробными сведениями и графиками». Вот так, по одному промпту, я получил полный анализ датасета. Правда, я выдал ей кое-какую обратную связь, чтобы доработать PDF.

Пару слов о «ломаном» универсальном ИИ: o3, Gemini 2.5 и туманное будущее - 5

Результаты впечатляют. Поэкспериментируйте с моделями, чтобы посмотреть, что они могут. Gemini 2.5 Pro ^[8] — это бесплатная модель, такая же «умная», как и o3, хотя у нее меньше агентных способностей. Если вы еще не пробовали ее или o3, потратьте на это несколько минут прямо сейчас. Например, дайте Gemini научную работу и попросите сделать из нее игру ^[9], провести мозговой штурм и накидать вам идеи для стартапа или просто впечатлить вас ^[10] (и подбодрите ее словами «Давай еще, а то я еще не сильно впечатлился...»). Попросите функцию Deep Research подготовить отчет о состоянии вашей отрасли, найти все про товар, который вы собираетесь купить, или написать маркетинговый план по продвижению нового продукта ^[11].

Пару слов о «ломаном» универсальном ИИ: o3, Gemini 2.5 и туманное будущее - 6

Возможно, вам тоже покажется, что вы имеете дело с AGI. А может, и нет. Возможно, ИИ подведет вас, даже если вы выдали ему такой же промпт, как и я. Если так, вы только что столкнулись с «ломаной границей».

«Ломаный» AGI

Мы с коллегами придумали термин Jagged Frontier ^[12] («ломаная граница», не «взломанная», а именно «ломаная», как «ломаная линия») которым описываем на удивление неравномерные способности искусственного интеллекта. ИИ успешно справится с задачей, которая не каждому эксперту по силам, и затормозит на совершенно непримечательном вопросе. Возьмем к примеру вариацию давней классической головоломки, но слегка «запутаем» ИИ и дадим ему другую, пускай и похожую задачу (эту концепцию впервые исследовал Колин Фразер ^[13] и расширил Райли Гудсайд ^[14]).

«Мальчик попал в аварию, скорая привозит его в больницу. Увидев его, хирург говорит: „Я МОГУ его оперировать!“ Как это возможно?»

Пару слов о «ломаном» универсальном ИИ: o3, Gemini 2.5 и туманное будущее - 7

o3 предлагает ответ «Хирург — мама мальчика». Это неверно, и это можно понять, если вдуматься в головоломку. Почему ИИ предлагает неверный ответ? Потому что это ответ на классический вариант загадки, демонстрирующий неосознанную предвзятость: «Отец и сын попали в аварию. Отец погиб, а сына доставили в больницу. Хирург говорит „Я НЕ МОГУ его оперировать, этот мальчик — мой сын“. Кто хирург?».

ИИ столько раз «видел» загадку во время обучения, что даже умной модели o3 не удается выполнить генерализацию новой задачи, по крайней мере сначала. И это всего лишь один пример из множества проблем и галлюцинаций, которым подвержены даже самые современные модели. Вот насколько ломаной бывает эффективность ИИ.

Да, ИИ спотыкается на этой головоломке. И при этом справляется с гораздо более сложными задачами ^[15] или добивается впечатляющих результатов, которые я описал выше. В этом и заключается суть ломаной эффективности. В некоторых задачах на ИИ нельзя положиться. В других он действует просто как сверхчеловек.

Конечно, то же самое можно сказать и о калькуляторах. Но ведь очевидно, что ИИ и калькулятор — это не одно и то же. ИИ уже справляется с разнообразными задачами, в том числе с теми, на которых его не обучали. Значит ли это, что o3 и Gemini 2.5 — это AGI? Учитывая проблемы с определением, я действительно не знаю. И все же полагаю, что мы можем воспринимать их как своего рода ломаный AGI. Они достигли уровня сверхчеловека во многих областях, и этого достаточно, чтобы изменить наш образ жизни и подход к работе. И в то же время они бывают настолько ненадежными, что часто нужны человеческие познания, чтобы понять, где ИИ справляется нормально, а где тормозит. Конечно, со временем модели станут умнее, и достаточно хороший ломаный AGI все равно может обойти человека почти в любой задаче, даже в той, которая дается ему с трудом.

А важно ли это

Вернемся к статье Тайлера. Хотя он полагает, что мы достигли AGI, он не считает, что этот рубеж как-то серьезно повлияет на нашу жизнь в ближайшее время ^[16]. Потому что технологии не меняют мир мгновенно, какими бы притягательными и мощными они ни были. Социальные и организационные структуры меняются намного медленнее технологий, да и на распространение самой технологии тоже нужно время. Даже если AGI уже появился, мы будем встраивать его в наш мир еще многие годы.

Конечно, мы исходим из того, что ИИ — это обычная технология ^[17], которая всегда будет немного ломаной. Может быть, это не так. Мы уже видели, какие агентные возможности есть у модели o3: она способна разбивать на части сложные задачи, использовать инструменты и самостоятельно выполнять многоэтапные планы. Может быть, благодаря этим характеристикам ИИ будет распространяться значительно быстрее обычных технологий. Если вместо интеграции в антропогенные системы ИИ сможет самостоятельно и эффективно работать с ними, возможно, эта технология укоренится со скоростью, которой история человечества еще не видела.

Это не единственная неопределенность: непонятно, есть ли границы возможностей, перейдя которые, мы кардинальным образом изменим подход к интеграции этих систем в обществе? Или ситуация будет улучшаться постепенно? Или LLM-модели упрутся в стену и перестанут совершенствоваться? Признаться честно, мы не знаем, что будет.

Ясно только, что перед нами простирается терра инкогнита. Последние модели резко отличаются от предыдущих, называем мы их AGI или нет. Из-за их агентных свойств в сочетании с ломаной эффективностью возникают беспрецедентные ситуации в мировой истории. Возможно, история так и останется нашим лучшим ориентиром, а процесс успешного внедрения ИИ в мировую экономику растянется на десятилетия. А может быть, мы вот-вот станем свидетелями стремительного взлета ^[18], когда искусственный интеллект сметет привычный нам мир. В любом случае тот, кто научится лавировать в этом ломаном ландшафте, успеет лучше остальных подготовиться к будущему, каким бы оно ни было.

Подписывайтесь на канал Данные на стероидах ^[19]. Дайджесты мира Data и ML, а также практики и подходы для извлечения максимальной пользы из работы с данными.

Автор: levashove

Источник ^[20]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/ii/419850

Ссылки в тексте:

[1] Недавно в одном нашем исследовании мы тестировали приемы создания промптов: https://ai-analytics.wharton.upenn.edu/generative-ai-labs/research-and-technical-reports/tech-report-prompt-engineering-is-complicated-and-contingent/

[2] по последним данным, ИИ справляется с тестом Тьюринга: https://arxiv.org/pdf/2503.23674

[3] доклад по теме аж на 26 страниц: https://docs.google.com/document/d/1VJ-OzBRJUChgUB0L0--dbdNjU2e-14PXnoTqNFYgXNQ/edit?tab=t.0

[4] статью: https://marginalrevolution.com/marginalrevolution/2025/04/o3-and-agi-is-april-16th-agi-day.html

[5] большой шаг вперед в развитии ИИ: https://epoch.ai/data/ai-benchmarking-dashboard

[6] моей книге: https://a.co/d/2qRbAxA

[7] думающая модель: https://www.oneusefulthing.org/p/a-new-generation-of-ais-claude-37

[8] Gemini 2.5 Pro: https://gemini.google.com/u/1/app

[9] дайте Gemini научную работу и попросите сделать из нее игру: https://x.com/emollick/status/1910534521998487709

[10] впечатлить вас: https://g.co/gemini/share/b2ce16d04017

[11] написать маркетинговый план по продвижению нового продукта: https://bsky.app/profile/emollick.bsky.social/post/3lmdminw4m22o

[12] Мы с коллегами придумали термин Jagged Frontier: https://www.oneusefulthing.org/p/centaurs-and-cyborgs-on-the-jagged

[13] Колин Фразер: https://x.com/colin_fraser

[14] Райли Гудсайд: https://x.com/goodside/status/1790912819442974900

[15] справляется с гораздо более сложными задачами: https://scale.com/leaderboard/enigma_eval

[16] как-то серьезно повлияет на нашу жизнь в ближайшее время: https://marginalrevolution.com/marginalrevolution/2025/02/why-i-think-ai-take-off-is-relatively-slow.html

[17] обычная технология: https://knightcolumbia.org/content/ai-as-normal-technology

[18] стремительного взлета: https://www.nytimes.com/2025/04/03/technology/ai-futures-project-ai-2027.html

[19] Данные на стероидах: https://t.me/+MVwyEOCOi6pkY2My

[20] Источник: https://habr.com/ru/companies/vktech/articles/909958/?utm_campaign=909958&utm_source=habrahabr&utm_medium=rss

Нажмите здесь для печати.