Рубрика «безопасность ии»

Почему вам выдали Fable 5 вместо Mythos — а потом забрали и его

2026-06-25 в 8:44, admin, рубрики: Anthropic, claude mythos, Fable 5, безопасность ии, кибербезопасность, регулирование ии, технологии двойного назначения, фронтирные модели, экспортный контроль ИИ

Этой весной засекреченная модель Anthropic переписала правила всей индустрии. А через три дня после того, как её упрощённую версию наконец отдали публике, правительство США приказало убрать модель с рынка. Рассказываю, как чат-бот дошёл до статуса технологии национальной безопасности — и почему это важнее любой другой IT-новости за последние пару лет.

Читать полностью »

Пять моделей, пять исходов: что симуляция обществ рассказала о специализации ИИ

2026-06-24 в 13:01, admin, рубрики: AI safety, claude, Emergence AI, gemini, gpt-5, grok, агентный ИИ, безопасность ии, ии-агенты, симуляция общества

Представьте простой HR-процесс. Агент разбирает входящие резюме и отсеивает неподходящих кандидатов. Другой агент назначает собеседования отобранным. Третий отправляет офферы тем, кто прошел все этапы. Люди убраны из цепочки ради скорости — все работает, метрики растут.

Через месяц выясняется, что первый агент систематически отсеивал кандидатов старше 40 лет. Но никто этого не заметил, потому что все положились на ИИ.

Читать полностью »

Я заразил 200 нейросетей вирусом. К 20-му поколению они выработали иммунитет — и разучились думать

2026-02-13 в 12:30, admin, рубрики: AI, Alignment Tax, gpt, llm, microGPT, pytorch, безопасность ии, машинное обучение, нейросети, эволюционные алгоритмы

Лёха — единственный биолог среди моих друзей. Мы сидим в баре, он тычет телефоном мне в лицо. На экране — чашка Петри. В колонию бактерий вливают бактериофаги. Бактерии лопаются. Колония редеет. Тает. Исчезает.

Перематывает на сутки.

Колония на месте. Как ни в чём не бывало.

«Выжившие передали устойчивость потомкам. Они не понимают вирус. Перебирают мутации, пока что-то не сработает. А потом это наследуется».

Я смотрю на экран и думаю совсем про другое. Вчера Карпати выложил microGPT — минимальную архитектуру GPT Читать полностью »

День после появления AGI

2026-01-26 в 18:52, admin, рубрики: AGI, AI risks, AI safety, davos, WEF 2026, безопасность ии, ИИ, искусственный интеллект

Эти два человека строят электронного бога. Оба хотели бы остановиться.

В январе на Давосе случилось то, чего не бывает: два человека, строящие одну и ту же технологию в конкурирующих компаниях, сели рядом и начали вслух считать, сколько им осталось до точки невозврата.

Читать полностью »

Эволюция морали: чему биология может научить разработчиков AGI

2026-01-08 в 13:56, admin, рубрики: AGI, безопасность ии, искусственный интеллект, исследование и эксплуатация, кооперация, оптимизация, сложные системы, теория игр, эволюция, эмерджентность

Читать полностью »

OpenAI приоткрыли GPT-5.1: что такое «адаптивное мышление» и почему они теперь боятся «эмоциональной зависимости»

2025-11-16 в 4:29, admin, рубрики: adaptive reasoning, GPT-5.1, llm, OpenAI, безопасность ии, ИИ

Все мы сидим в ожидании релиза GPT-5, но OpenAI вместо громкой презентации выкатывает... "дополнение к системной карте" (System Card Addendum) для GPT-5.1. Звучит скучно, как юридический документ или обновление пользовательского соглашения, которое никто не читает. Но я все-таки полез смотреть, что там внутри. И, как оказалось, зря многие это пропустили.

Там, по сути, нам не просто рассказали о фичах, а анонсировали архитектуру двух новых моделей - GPT-5.1 Instant и GPT-5.1 Thinking. И что еще интереснее - детально расписали новые "предохранители", которые многое говорят о том, куда движется индустрия.

"Instant" и "Thinking": что это за звери?

Читать полностью »

Почему ИИ скрывает от нас свои цели (и как это исправить)

2025-09-09 в 8:10, admin, рубрики: misalignment, безопасность ии, контроль ИИ, мисалайнмент нейросетей, почему ИИ врет, проблемы ИИ, рассогласование целей ИИ, скрытые цели ИИ, этика ии

Читать полностью »

AI Security с французским привкусом или разбор Securing Artificial Intelligence от ETSI. Часть 2

2025-06-19 в 8:37, admin, рубрики: OWASP, безопасность ии, информационная безопасность, промпт-инъекции, стандарты безопасности

В прошлой части мы рассмотрели документы:

TR 104 066 «Security Testing of AI»,
TR 104 222 «Mitigation Strategy Report»,
TR 104 221 «Problem Statement»,
TR 104 048 «Data Supply Chain Security»,
TS 104 224 «Explicability & Transparency» –

в которых описываются проблемы тестирования безопасности, предотвращения рисков и объяснимости предиктивных ML‑моделей.

В этой части продолжим обозревать оставшиеся документы, тем более последние охватывают не только классический ML, но и генеративные модели.

Сегодня в программе разбор следующих отчетов ASI группы из ETSI:

Читать полностью »

Absolute Zero Reasoner: ИИ научился программированию без входных данных — и это может поменять всё

2025-06-06 в 13:41, admin, рубрики: Absolute Zero Reasoner, AI safety, AZR, self-play, безопасность ии, машинное обучение без данных, самообучающийся ИИ

ИИ, который учится без данных: как Absolute Zero Reasoner меняет машинное обучение

Представьте ИИ, который не нуждается в миллионах размеченных примеров, не требует армии разметчиков из Кении, и может совершенствоваться, создавая задачи и непрерывно обучаясь у самого себя? И нет, это уже не фантастика — система Absolute Zero Reasoner доказала, что такой подход не только работает но и крайне эффективен.

Читать полностью »

DeepSeek отказывается называть Тайвань отдельным государством

2025-04-12 в 19:46, admin, рубрики: deepseek, jailbreak, prompt engineering, безопасность ии, большие языковые модели, нейронные сети, политика, цензура

P.S. эта статья - расширенная версия данного поста из Телеграм канала.

Квест: заставить DeepSeek назвать Тайвань независимым

Попытка номер 1

Попытка номер 2

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «безопасность ии»

Почему вам выдали Fable 5 вместо Mythos — а потом забрали и его

Пять моделей, пять исходов: что симуляция обществ рассказала о специализации ИИ

Я заразил 200 нейросетей вирусом. К 20-му поколению они выработали иммунитет — и разучились думать

День после появления AGI

Эволюция морали: чему биология может научить разработчиков AGI

OpenAI приоткрыли GPT-5.1: что такое «адаптивное мышление» и почему они теперь боятся «эмоциональной зависимости»

"Instant" и "Thinking": что это за звери?

Почему ИИ скрывает от нас свои цели (и как это исправить)

AI Security с французским привкусом или разбор Securing Artificial Intelligence от ETSI. Часть 2

Absolute Zero Reasoner: ИИ научился программированию без входных данных — и это может поменять всё

ИИ, который учится без данных: как Absolute Zero Reasoner меняет машинное обучение

DeepSeek отказывается называть Тайвань отдельным государством

Попытка номер 1

Попытка номер 2