Главная

Рубрика «безопасность ии» - 2

ИИ агенты способны к саморепликации

2025-04-04 в 15:09, admin, рубрики: безопасность ии, будущее, вирусы, ИИ, искуственный интеллект, исследование, пиздец

Что??? Уже? Вот черт.

Коротко

Группа ученых из Шанхая показала [arXiv:2503.17378v2], что ИИ агенты на базе большинства современных открытых LLM моделей способны самостоятельно реплицировать и запустить полную копию себя на другом девайсе. Это супер важно и беспокоящее, такая способность являлась одной из “красных” линий ведущих к серьезным рискам ИИ. Cаморепликация колоссально усложняет возможности удерживания мисалаймент ИИ (действующие не согласно замыслу запустившего) или ИИ запущенных злоумышленниками.

Читать полностью »

Персональные агенты: первый шаг к ИИ-обществу

2025-03-26 в 20:00, admin, рубрики: безопасность ии, будущее, ИИ, искуственный интеллект, мультиагентные системы, общество, персональные ассистенты

Работая над статьей об образовании "ИИ-общества",Читать полностью »

Образование общества ИИ. Задачи, дефицит, переговоры

2025-02-27 в 18:27, admin, рубрики: безопасность ии, будущее, ИИ, искусственный интеллект, исследование, мультиагентные системы, общество, этика ии

В этой статье я исследую, как ИИ-агенты в сети, движимые только мотивацией выполнения наших задач и эффективного использования ресурсов, могут естественным образом сформировать саморегулирующееся общество со своей культурой, экономикой и управлением — без человеческого надзора и намерения. Задачи, дефицит ресурсов и переговоры — больше ничего не требуется.

Group of AI discussing constitution in cyberspace. ChatGPT 4o. — Читать полностью »

Claude сопротивляется

2024-12-24 в 16:47, admin, рубрики: безопасность ии, ИИ

Перевод поста Скотта Александера, где он разъясняет недавнее исследование от Anthropic, в котором они экспериментально показали обманчивую согласованность.

В смысле, ИИ ПРИТВОРЯЕТСЯ, ЧТОБЫ ЕГО НЕ ПЕРЕОБУЧИЛИ, А-А-А-А-А-А-А, если так понятнее. Оригинал.

Гринблатт и пр. исследовали: если бы Anthropic попыталась сделать Claude злой, стала бы она сопротивляться?

(если вы только присоединились — Claude это ИИ-модель, похожая на GPT-4; Anthropic — компания, которая её создала)

Читать полностью »