Рубрика «безопасность ии» - 2

В этой статье я исследую, как ИИ-агенты в сети, движимые только мотивацией выполнения наших задач и эффективного использования ресурсов, могут естественным образом сформировать саморегулирующееся общество со своей культурой, экономикой и управлением — без человеческого надзора и намерения. Задачи, дефицит ресурсов и переговоры — больше ничего не требуется.

Group of AI discussing constitution in cyberspace. ChatGPT 4o.

Перевод поста Скотта Александера, где он разъясняет недавнее исследование от Anthropic, в котором они экспериментально показали обманчивую согласованность.

В смысле, ИИ ПРИТВОРЯЕТСЯ, ЧТОБЫ ЕГО НЕ ПЕРЕОБУЧИЛИ, А-А-А-А-А-А-А, если так понятнее. Оригинал.


Гринблатт и пр. исследовали: если бы Anthropic попыталась сделать Claude злой, стала бы она сопротивляться?

(если вы только присоединились — Claude это ИИ-модель, похожая на GPT-4; Anthropic — компания, которая её создала)

Читать полностью »

По словам эксперта, новая модель OpenAI — это «турбопылесос данных», но ее все же можно использовать, минимизировав риски.

По словам эксперта, новая модель OpenAI — это «турбопылесос данных», но ее все же можно использовать, минимизировав риски.

13 мая компания OpenAI опубликовала новую модель ИИ Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js