OpenAI устранила уязвимости безопасности в голосовом режиме ChatGPT

Компания OpenAI опубликовала отчёт ^[1] о функциях безопасности GPT-4o, базовой модели, на которой основана последняя версия ChatGPT с голосовым режимом. В документе рассматриваются известные проблемы, возникающие при использовании модели, и описываются меры по их устранению.

Голосовой режим ChatGPT, доступный для избранной группы пользователей с подпиской ChatGPT Plus, имеет некоторые уязвимости безопасности. Среди них — стандартные риски, такие как подсказки модели с эротическими, жестокими или другими запрещёнными ответами, а также «необоснованные выводы» и «атрибуция чувствительных тем», которые могут быть дискриминационными или предвзятыми.

OpenAI заявляет, что обучила модель блокировать любые выходные данные, отмеченные в этих категориях.

Однако, в отчёте также говорится, что смягчения не включают «невербальные вокализации или другие звуковые эффекты», такие как эротические стоны, яростные крики и выстрелы. Таким образом, подсказки, включающие определённые чувствительные невербальные звуки, всё ещё могут быть получены в ответах.

OpenAI устранила уязвимости безопасности в голосовом режиме ChatGPT — Источник: Ismail Aslandag / Anadolu / Getty Images

Дополнительные аспекты модели включают возможность вынудить GPT-4o выдавать себя за кого-то или имитировать голос пользователя. Чтобы бороться с этим, OpenAI допускает только предварительно авторизованные голоса. GPT-4o также может идентифицировать другие голоса, помимо голоса говорящего, что представляет собой проблему конфиденциальности. Но она была обучена отклонять эти запросы.

Члены команды также отметили, что GPT-4o можно заставить говорить убедительно или настойчиво, что может быть более вредно, чем текстовые сообщения, когда речь идёт о дезинформации и теориях заговора.

OpenAI также решила потенциальные проблемы с авторскими правами ^[3], которые мешали компании и общей разработке генеративного ИИ. GPT-4o обучен отклонять запросы на контент, защищённый авторским правом, и имеет дополнительные фильтры для блокировки выходных данных, содержащих музыку. В связи с этим, голосовому режиму ChatGPT было предписано «не петь ни при каких обстоятельствах».

Многочисленные меры по снижению рисков OpenAI, описанные в длинном документе, были реализованы до выпуска Voice Mode. Поэтому в отчёте говорится, что хотя GPT-4o способен на определённое некорректное поведение, «он этого не сделает».

Однако, OpenAI утверждает, что эти оценки измеряют только базовые знания моделей и не измеряют их полезность в реальных рабочих процессах. GPT-4o был протестирован в контролируемой среде, но когда более широкая общественность получит доступ, он может оказаться совсем другим в условиях широкого использования.

Источник ^[4]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/news/393196

Ссылки в тексте:

[1] опубликовала отчёт: https://www.ixbt.com/news/2024/08/10/openai-preduprezhdaet-o-riske-jemocionalnoj-privjazannosti-k-golosovomu-ii.html

[2] Image: #

[3] авторскими правами: https://www.ixbt.com/news/2024/08/10/novyj-startap-prorata-obeshaet-pokonchit-s-massovym-plagiatom-generativnyh-modelej-ii.html

[4] Источник: https://www.ixbt.com/news/2024/08/10/openai-ustranila-ujazvimosti-bezopasnosti-v-golosovom-rezhime-chatgpt.html

Нажмите здесь для печати.