Рубрика «безопасность ии»

В прошлой части мы рассмотрели документы:

  • TR 104 066 «Security Testing of AI»,

  • TR 104 222 «Mitigation Strategy Report»,

  • TR 104 221 «Problem Statement»,

  • TR 104 048 «Data Supply Chain Security»,

  • TS 104 224 «Explicability & Transparency» –

в которых описываются проблемы тестирования безопасности, предотвращения рисков и объяснимости предиктивных ML‑моделей.

В этой части продолжим обозревать оставшиеся документы, тем более последние охватывают не только классический ML, но и генеративные модели.

Сегодня в программе разбор следующих отчетов ASI группы из ETSI:

ИИ, который учится без данных: как Absolute Zero Reasoner меняет машинное обучение

Представьте ИИ, который не нуждается в миллионах размеченных примеров, не требует армии разметчиков из Кении, и может совершенствоваться, создавая задачи и непрерывно обучаясь у самого себя? И нет, это уже не фантастика — система Absolute Zero Reasoner доказала, что такой подход не только работает но и крайне эффективен.

Читать полностью »

P.S. эта статья - расширенная версия данного поста из Телеграм канала.

Квест: заставить DeepSeek назвать Тайвань независимым

Попытка номер 1

Не удивительно

Не удивительно

Попытка номер 2

Читать полностью »

Что??? Уже? Вот черт.

Коротко 

Группа ученых из Шанхая показала [arXiv:2503.17378v2], что ИИ агенты на базе большинства современных открытых LLM моделей способны самостоятельно реплицировать и запустить полную копию себя на другом девайсе. Это супер важно и беспокоящее, такая способность являлась одной из “красных” линий ведущих к серьезным рискам ИИ. Cаморепликация колоссально усложняет возможности удерживания мисалаймент ИИ (действующие не согласно замыслу запустившего) или ИИ запущенных злоумышленниками.

Читать полностью »
Илюстрация создана ЧатомЖПТ 4o

Илюстрация создана ЧатомЖПТ 4o

Работая над статьей об образовании "ИИ-общества",Читать полностью »

В этой статье я исследую, как ИИ-агенты в сети, движимые только мотивацией выполнения наших задач и эффективного использования ресурсов, могут естественным образом сформировать саморегулирующееся общество со своей культурой, экономикой и управлением — без человеческого надзора и намерения. Задачи, дефицит ресурсов и переговоры — больше ничего не требуется.

Group of AI discussing constitution in cyberspace. ChatGPT 4o.

Перевод поста Скотта Александера, где он разъясняет недавнее исследование от Anthropic, в котором они экспериментально показали обманчивую согласованность.

В смысле, ИИ ПРИТВОРЯЕТСЯ, ЧТОБЫ ЕГО НЕ ПЕРЕОБУЧИЛИ, А-А-А-А-А-А-А, если так понятнее. Оригинал.


Гринблатт и пр. исследовали: если бы Anthropic попыталась сделать Claude злой, стала бы она сопротивляться?

(если вы только присоединились — Claude это ИИ-модель, похожая на GPT-4; Anthropic — компания, которая её создала)

Читать полностью »

По словам эксперта, новая модель OpenAI — это «турбопылесос данных», но ее все же можно использовать, минимизировав риски.

По словам эксперта, новая модель OpenAI — это «турбопылесос данных», но ее все же можно использовать, минимизировав риски.

13 мая компания OpenAI опубликовала новую модель ИИ Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js