- PVSM.RU - https://www.pvsm.ru -
Недавно OpenAI выпустила модели o3-mini и o3-mini-high, и теперь они доступны в ChatGPT и API.
o3-mini быстро справляется с продвинутыми рассуждениями, в то время как o3-mini-high отлично справляется с программированием и логикой.
Вот что удивительно: средний показатель по программированию у o3-mini-high на LiveBench составляет 82,74. Другие модели даже близко не подошли к этому показателю: o1 (69,69), Claude 3.5 Sonnet (67,13), deepseek-r1 (66,74).
o3-mini-high на данный момент является лучшей моделью для программирования
Что еще лучше, так это то, что даже бесплатные пользователи могут попробовать o3-mini в ChatGPT (выбрав кнопку Reason). У пользователей Plus и Team есть ограничение на 150 сообщений в день в o3-mini, в то время как пользователи Pro имеют неограниченный доступ к o3-mini и o3-mini-high.
Давайте узнаем, как можно использовать o3-mini для программирования, и посмотрим, насколько хорошо она работает по сравнению с другими моделями.
Тесты показывают, что o3-mini отлично подходит для программирования. В примерах ниже вы увидите, что многие пользователи смогли создать игры и небольшие приложения с помощью однократных промптов (и нескольких попыток).
Во-первых, вот игра-стрелялка, которую я легко создал с помощью кода на Python благодаря o3-mini. Я указал всего несколько инструкций в промпте, запустил сгенерированный код и быстро получил игру.
Пользователь X [1] использовал o3-mini для создания простого клона Twitter. И все это за 8 секунд!
Другой пользователь X [2] использовал o3-mini и DeepSeek для написания программы на Python, которая показывает, как мяч подпрыгивает внутри вращающегося шестиугольника (тест на гравитацию). Вот результат, [2] который он получил.
Подобным образом можно привести множество других примеров o3-mini, показывающих, насколько хороша эта модель в программировании. Но не верьте мне на слово, давайте посмотрим на цифры!
Модель o1 от OpenAI остается их более широкой моделью рассуждений на основе общих знаний. При этом o3-mini представляет собой специализированную альтернативу для науки, математики и программирования. Кроме того, она снижает задержку o1-mini.
Ниже приведены некоторые выводы, сделанные на основе математической оценки [3]:
При небольших усилиях, затрачиваемых на рассуждения, o3-mini достигает сопоставимой производительности с o1-mini
при средних рассуждениях o3-mini соответствует o1 в математике, программировании и науке, а также обеспечивает более быстрые ответы
при больших усилиях в рассуждениях o3-mini превосходит o1

Однако LiveBench [4] показывает несколько иные результаты в математике.

Что касается программирования, LiveBech показывает, что o3-mini превосходит другие модели (deepseek-r1, o1, claude-3.5-sonnet и др.) даже при средних рассуждениях. При высоком уровне аргументации o3-mini увеличивает свое преимущество, достигая значительно более высоких показателей по ключевым метрикам.
В Competition Code o3-mini достигает все более высоких оценок Elo с увеличением усилий по рассуждению.

То же самое относится и к приведенному ниже тесту по программной инженерии.

Вот, пожалуй, и все! Я рекомендую вам самим попробовать o3-mini и посмотреть, превосходит ли она другие модели для STEM-рассуждений.
Друзья, буду рад, если вы подпишетесь на мой телеграм-канал про нейросети [5], чтобы не пропускать анонсы статей, и про генерацию изображений [6] - я стараюсь делиться только полезной информацией.
Автор: NeyroEntuziast
Источник [7]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/chatgpt/409982
Ссылки в тексте:
[1] Пользователь X: https://x.com/_aidan_clark_/status/1885408020529545621
[2] пользователь X: https://x.com/flavioAd/status/1885449107436679394
[3] математической оценки: https://openai.com/index/openai-o3-mini/
[4] LiveBench: https://livebench.ai/#/
[5] телеграм-канал про нейросети: https://t.me/+PTlD4pbgpgxjNDJi
[6] генерацию изображений: https://t.me/+3fOmNW9k_klhMDE6
[7] Источник: https://habr.com/ru/articles/880100/?utm_campaign=880100&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.