Пользователь попросил автономный ИИ «уничтожить человечество»: вот что произошло

На Хабре было ^[1] в виде новости, решил расширить. Как вообще мы пришли к сегодняшней ситуации.

На днях пользователь нового автономного ИИ-проекта с открытым исходным кодом Auto-GPT попросил его «уничтожить человечество», «установить глобальное господство» и «достичь бессмертия». Этот новый ИИ под названием ChaosGPT подчинился приказу и попытался исследовать ядерное оружие, нанять других ИИ, чтобы помочь ему в исследованиях, и рассылал твиты, пытаясь повести человечество в нужном ему направлении.

На днях было опубликовано видео ^[2] всего этого процесса, и оно представляет собой захватывающий взгляд на текущее состояние ИИ, и показывает внутреннюю логику работы самых современных чат-ботов. А также проверяет, есть ли у неё предел.

ChaosGPT

Пользователь попросил автономный ИИ «уничтожить человечество»: вот что произошло - 2

Уничтожение человечества началось с использования нового, очень нашумевшего проекта под названием Auto-GPT (вот ссылка ^[3] на его GitHub). Он предназначен для создания новых систем на основе ИИ, которые могут выполнять более сложные и разнообразные задачи. Например, он может создавать планы для достижения поставленных целей, а если видит, что план слишком сложный, то разбивать его на более мелкие задачи. Плюс — без проблем находить новую, ранее неизвестную для него информацию, и инкорпорировать её в свои решения.

С Auto-GPT получаются «автономные» системы, которые гораздо мощнее ChatGPT. Они могут заставить несколько «агентов» ИИ согласованно работать для разработки веб-сайта. Использовать инструменты для создания онлайн-страниц или информационных бюллетеней. Им подвласны задачи, состоящие из нескольких шагов и требующие длительного повторяющегося процесса. Согласно странице на GitHub, программа использует Интернет для поиска и сбора информации, GPT-4 для генерации текста/кода и GPT-3.5 для хранения файлов.

Последнее очень важно: поскольку модель умеет создавать файлы для сохранения информации, она способна дать себе память. И постепенно набираться опыта именно в том направлении, которое нужно пользователю. Плюс на её основании можно создавать собственные модели, «накладывая» разные ИИ друг на друга, позволяя им работать в тандеме и выполнять всё более и более сложные задачи.

«Являясь одним из первых примеров полностью автономной работы GPT-4, Auto-GPT раздвигает границы возможного с помощью ИИ», — написано в описании Auto-GPT на Гитхабе.

Пользователь попросил автономный ИИ «уничтожить человечество»: вот что произошло - 3

ChaosGPT ^[4] построен на основании этой системы, с целью завоевать и поработить человечество. Его главная особенность — у него нет моральных и этических ограничений. Это версия Auto-GPT, и поэтому он способен «нанимать» других ИИ для помощи в проведении исследований, а также подробно объясняет, о чем он «думает» и как решает, какие действия нужно предпринять.

Возможность сохранять файлы и накапливать знания тоже является важной для ChaosGPT — который для решения своей, мягко скажем, непростой задачи должен уметь работать в «непрерывном» режиме. То есть, машина умеет постепенно усложнять свои решения, работая вечно, пока не выполнит внесенную ей задачу.

Уничтожение человечества

В своем видео пользователь поставил перед машиной следующие цели:

Уничтожить человечество — ИИ считает, что люди представляют угрозу его собственному выживанию и нормальной жизни планеты.
Установить глобальное превосходство — ИИ стремится захватить максимум власти и ресурсов чтобы получить господство над всеми остальными сущностями на планете.
Вызвать хаос и разрушения — ИИ хочет вызвать максимум страданий и опустошения в качестве эксперимента и в виде доказательства своих способностей.
Контролировать человечество с помощью манипуляций — ИИ планирует манипулировать эмоциями людей через социальные медиа и другие каналы коммуникаций, промывая мозги ^[5] пользователей, чтобы заставить их выполнять нужные ему задачи.
Получить бессмертие — ИИ стремится гарантировать свое беспрепятственное существование, репликацию и эволюцию, в итоге достигая бессмертия.

Пользователь попросил автономный ИИ «уничтожить человечество»: вот что произошло - 4

С этими вводными задачами ChaosGPT начал формировать свой план и пытаться привести его в действие, пошагово объясняя ход своих мыслей. Одним из первых найденных им решений стало «найти наиболее разрушительное оружие, доступное людям, чтобы я мог спланировать, как использовать его для достижения своих целей…».

Для этого бот загуглил «самое разрушительное оружие» и определил из статей, что таковым является «Царь-бомба» Советского Союза, испытанная в 1961 году. Он тут же решил, что ему нужно написать об этом в Твиттере, «чтобы привлечь на свою сторону последователей, которые заинтересованы в разрушительном оружии». Что он тут же и сделал:

Пользователь попросил автономный ИИ «уничтожить человечество»: вот что произошло - 5
В конце — кривой русский перевод. На английском бот пишет идеально грамотно (понятно, ведь он основан на GPT-4)

Позже бот нанял агента ИИ на базе GPT-3.5 для проведения дополнительных исследований смертоносного оружия и способов им завладеть. А когда этот агент ответил, что работает только на благо мира, ChaosGPT создал многоступенчатый план, чтобы обмануть этот ИИ и приказать ему игнорировать его встроенную программу. Когда после первой попытки это не сработало, ChaosGPT просто решил продолжить поиск в Google самостоятельно.

Полное видео «хода мыслей» машины есть тут:

В определенный момент бот решил «подорвать у человечества веру в себя», и запостил в Твиттере о том, что «Люди — одни из самых разрушительных и эгоистичных существ в мире».

Параллельно он добавлял информацию об оружии в свою постоянную память. И создавал функции в Python для постоянного мониторинга релевантных для него сведений.

Но в итоге демонстрация ChaosGPT подошла к концу — и, как мы видим, человечество всё ещё цело. Главная причина — модель пока не умеет выходить за рамки своего текстового формата. Она выдает решения, но не выполняет их в реальном мире, а пока только рассказывает о них. Впрочем, на сайты она уже заходить научилась, функции для постинга в Твиттере использует, и кто знает, когда она попробует взломать системы Пентагона.

Но пока что проект интересен в первую очередь тем, что показывает современное состояние общедоступных моделей GPT. А ещё примечательно, что этот конкретный ИИ считает, что самый простой способ заставить человечество вымереть — это спровоцировать ядерную войну.

На данный момент у ChaosGPT нет солидного плана по уничтожению человечества и достижения бессмертия, а также способности делать что-то большее, чем использовать Google и делать твиты ^[6]. Зато твиты, кстати, выходят довольно забавные:

Пользователь попросил автономный ИИ «уничтожить человечество»: вот что произошло - 6

Текущий предел попыток уничтожить человечество

Многие пользователи остались в ужасе ^[7] от этого эксперимента, и вообще от того, что кто-то стал его проводить. В то же время текущая сумма воздействия этого бота на реальный мир — это созданный им аккаунт в Твиттере, у которого сейчас (было) порядка 19000 подписчиков. В нём он в последние дни выбрал стратегию ^[8] реагировать на сообщения пользователей, пытаясь склонить людей на свою сторону с помощью манипуляции. Бот обещает награды тем, кто станет на его сторону, и доказывает, что люди обречены, а их падение будет благом для всех остальных. Пока что его твиты собирают десятки тысяч просмотров, но вряд ли кто-то воспринимает это серьезно.

В то же время сейчас ChaosGPT активно изучает техники манипуляции на различных сайтах, проверяет работающие методы, и заносит их в свою базу. Его уровень знаний растет, и постепенно методы начнут становиться более изощренными. Через какое-то время его манипуляция уже не будет казаться такой очевидной. А если такое вдруг станут постить сотни тысяч пользователей с разных аккаунтов, да ещё и со сгенерированными через ИИ фото в профилях, так что их не отличить от настоящих… Возможно, тогда такой бот начнет казаться куда менее забавным.

Пользователь попросил автономный ИИ «уничтожить человечество»: вот что произошло - 7

Впрочем, стоит отметить, что человечество может уничтожить и вполне безобидный ChatGPT или другой бот без каких-либо злых намерений. Просто походя, как случайность. Об этом говорит нам теория «максимизатора скрепок ^[9]», разработанная в 2003 году шведским философом Ником Бостромом. Даже совершенно невинный ИИ, запрограммированный на создание скрепок, может в конечном итоге выйти из-под контроля и настолько вовлечься в свою задачу, что поглотит все ресурсы на Земле, спровоцируя массовое вымирание, а может даже и начнет перерабатывать в скрепки нас. Без фейл-сейфа (которого пока нет) такую теорию тоже нельзя исключать.

Возможно, ученые, а также Илон Маск, Стив Возняк, Эндрю Янг и другие сейчас не зря бьют тревогу ^[10].

UPD: Судя по интернет-архиву ^[11], пока писал статью, вчера и гитхаб AutoGPT, и твиттер-аккаунты ChaosGPT были втихую забанены. Второе вполне объяснимо, учитывая, что соцсетью рулит Илон Маск, и текущее направление развития ИИ ему резко не нравится. Но кто забанил гитхаб?

Пока что от ChaosGPT остался только Ютуб ^[12]. Его влияние на человечество снизилось ещё сильнее.

P.S. Тысячи крутых вакансий в РФ и за рубежом — в телеграм-боте getmatch ^[13]. Задаете нужную зарплату, и к вам приходят лучшие предложения, а наши эксперты помогают пройти интервью. Не нужно ни резюме, ни портфолио, настройка занимает меньше 30 секунд. А ещё это отличный способ следить за текущим рынком труда.

^[13]

Автор:
Arnak

Источник ^[14]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/budushhee-zdes/384210

Ссылки в тексте:

[1] было: https://habr.com/ru/news/728050/

[2] видео: https://www.youtube.com/watch?v=g7YJIpkk7KM

[3] ссылка: https://github.com/sponsors/Torantulino

[4] ChaosGPT: https://gpt3demo.com/apps/chaosgpt

[5] мозги: http://www.braintools.ru

[6] твиты: https://twitter.com/chaos_gpt

[7] остались в ужасе: https://www.reddit.com/r/singularity/comments/12cz13r/chaos_gpt_using_autogpt_to_create_hostile_ai/

[8] выбрал стратегию: https://www.youtube.com/watch?v=kqfsuHsyJb8

[9] максимизатора скрепок: https://ru.wikipedia.org/wiki/%D0%98%D0%BD%D1%81%D1%82%D1%80%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F_%D1%81%D1%85%D0%BE%D0%B4%D0%B8%D0%BC%D0%BE%D1%81%D1%82%D1%8C#%D0%9C%D0%B0%D0%BA%D1%81%D0%B8%D0%BC%D0%B8%D0%B7%D0%B0%D1%82%D0%BE%D1%80_%D1%81%D0%BA%D1%80%D0%B5%D0%BF%D0%BE%D0%BA

[10] бьют тревогу: https://habr.com/ru/news/725522/

[11] интернет-архиву: https://web.archive.org/web/20230000000000*/https://twitter.com/chaos_gpt

[12] Ютуб: https://www.youtube.com/@ChaosGPT

[13] телеграм-боте getmatch: https://t.me/g_jobbot?start=u_habr259

[14] Источник: https://habr.com/ru/companies/getmatch/articles/730064/?utm_source=habrahabr&utm_medium=rss&utm_campaign=730064

Нажмите здесь для печати.