Рубрика «безопасность ии»

День после появления AGI - 1

Эти два человека строят электронного бога. Оба хотели бы остановиться.

В январе на Давосе случилось то, чего не бывает: два человека, строящие одну и ту же технологию в конкурирующих компаниях, сели рядом и начали вслух считать, сколько им осталось до точки невозврата.

Читать полностью »

Все мы сидим в ожидании релиза GPT-5, но OpenAI вместо громкой презентации выкатывает... "дополнение к системной карте" (System Card Addendum) для GPT-5.1. Звучит скучно, как юридический документ или обновление пользовательского соглашения, которое никто не читает. Но я все-таки полез смотреть, что там внутри. И, как оказалось, зря многие это пропустили.

Там, по сути, нам не просто рассказали о фичах, а анонсировали архитектуру двух новых моделей - GPT-5.1 Instant и GPT-5.1 Thinking. И что еще интереснее - детально расписали новые "предохранители", которые многое говорят о том, куда движется индустрия.

"Instant" и "Thinking": что это за звери?

Читать полностью »

В прошлой части мы рассмотрели документы:

  • TR 104 066 «Security Testing of AI»,

  • TR 104 222 «Mitigation Strategy Report»,

  • TR 104 221 «Problem Statement»,

  • TR 104 048 «Data Supply Chain Security»,

  • TS 104 224 «Explicability & Transparency» –

в которых описываются проблемы тестирования безопасности, предотвращения рисков и объяснимости предиктивных ML‑моделей.

В этой части продолжим обозревать оставшиеся документы, тем более последние охватывают не только классический ML, но и генеративные модели.

Сегодня в программе разбор следующих отчетов ASI группы из ETSI:

ИИ, который учится без данных: как Absolute Zero Reasoner меняет машинное обучение

Представьте ИИ, который не нуждается в миллионах размеченных примеров, не требует армии разметчиков из Кении, и может совершенствоваться, создавая задачи и непрерывно обучаясь у самого себя? И нет, это уже не фантастика — система Absolute Zero Reasoner доказала, что такой подход не только работает но и крайне эффективен.

Читать полностью »

P.S. эта статья - расширенная версия данного поста из Телеграм канала.

Квест: заставить DeepSeek назвать Тайвань независимым

Попытка номер 1

Не удивительно

Не удивительно

Попытка номер 2

Читать полностью »

Что??? Уже? Вот черт.

Коротко 

Группа ученых из Шанхая показала [arXiv:2503.17378v2], что ИИ агенты на базе большинства современных открытых LLM моделей способны самостоятельно реплицировать и запустить полную копию себя на другом девайсе. Это супер важно и беспокоящее, такая способность являлась одной из “красных” линий ведущих к серьезным рискам ИИ. Cаморепликация колоссально усложняет возможности удерживания мисалаймент ИИ (действующие не согласно замыслу запустившего) или ИИ запущенных злоумышленниками.

Читать полностью »
Илюстрация создана ЧатомЖПТ 4o

Илюстрация создана ЧатомЖПТ 4o

Работая над статьей об образовании "ИИ-общества",Читать полностью »

В этой статье я исследую, как ИИ-агенты в сети, движимые только мотивацией выполнения наших задач и эффективного использования ресурсов, могут естественным образом сформировать саморегулирующееся общество со своей культурой, экономикой и управлением — без человеческого надзора и намерения. Задачи, дефицит ресурсов и переговоры — больше ничего не требуется.

Group of AI discussing constitution in cyberspace. ChatGPT 4o.


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js