- PVSM.RU - https://www.pvsm.ru -

Первый месяц 2025 года задал высокую планку для развития ИИ. DeepSeek выпустила открытую модель уровня о-1, которая переполошила весь интернет и обрушила акции гигантов индустрии. Американские коллеги ответили настоящим шквалом релизов: OpenAI анонсировала сразу три значимых обновления, а NVIDIA презентовала новую линейку RTX и бюджетный суперкомпьютер для работы с ИИ-моделями.
Пока все отходили от новогодних праздников, индустрия ИИ продолжала развиваться с космической скоростью. Разбираем главные события января: новые модели, неожиданные исследования и амбициозные проекты.
Новые модели [1]
Perplexity расширяет границы: новый API и ассистент для Android [4]
Hunyuan3D 2.0: Tencent превращает 2D-изображения в детализированные 3D-объекты [5]
Новости от гигантов индустрии [6]
Project Stargate: США начинают новую технологическую гонку [7]
OpenAI оказались причастны к созданию бенчмарка FrontierMath [9]
Meta отказывается от фактчекинга в пользу «народной модерации» [10]
Франсуа Шолле запускает амбициозный ИИ-проект после ухода из Google Deepmind [11]
Новинки и открытия [12]
Hugging Face запускает бесплатный курс по созданию ИИ-агентов [15]
Исследование показало эффективность ИИ в обнаружении рака груди [17]
Свежие инструменты [18]
Для работы с данными [19]
Для разработки [20]
Для автоматизации [22]
Заключение [24]
В мире ИИ новая заявка на лидерство: китайская компания DeepSeek представила модель, способную на равных конкурировать с о1. И не просто конкурировать — R1 с 685 миллиардами параметров уже вошла в топ арены LMSYS, прописавшись по соседству с флагманом от OpenAI в категориях Hard Prompts, Coding, Math и Creative Writing.
R1 построена на базе DeepSeek-V3-Base и содержит 685 миллиардов параметров. Самое интересное в ней даже не результаты тестов, а то, как команде DeepSeek удалось их достичь. Главная инновация — применение чистого обучения с подкреплением без предварительного файнтюнинга на размеченных данных. Исследователи использовали [25] алгоритм GRPO (Group Relative Policy Optimization), который, в отличие от классического PPO, не требует отдельной модели-критика такого же размера, а оценивает базовую линию на основе групповых показателей.
В процессе обучения модель самостоятельно развила несколько интересных паттернов рассуждения. Например, она научилась помещать процесс размышлений внутри специальных тегов <think> и </think>, а также проводить самопроверку решений.
Показатели модели впечатляют: на математическом бенчмарке MATH-500 она достигает точности 97.3%, на AIME 2024 — 79.8%, что превосходит показатели o1. В области программирования R1 достигла рейтинга 2029 на Codeforces, обойдя 96.3% участников соревнований. При этом модель демонстрирует сильные результаты и в других областях: 90.8% на MMLU, 84% на MMLU-Pro и 71.5% на GPQA Diamond.
Главный сюрприз — цены. R1 доступна через API по $0.55 за миллион токенов на входе — это в 20 раз дешевле, чем у OpenAI. Плюс есть бесплатный чат с лимитом в 50 сообщений в день.
Вместе с основной моделью выпустили шесть дистиллированных версий от 1.5B до 70B параметров, и тут тоже есть чему удивиться: даже самая маленькая модель на 1.5B обходит Claude Sonnet по некоторым метрикам.
Помимо R1, DeepSeek также выкатили Pro-версию своей мультимодальной модели Janus. Однако из-за шумихи вокруг R1 это новшество как-то ушло на второй план. Исправим несправедливость.
Janus-Pro — усовершенствованная версия уже существующей мультимодальной модели Janus. Главная фишка — раздельное кодирование для задач image2text и text2image. В отличие от предшественника, где использовался единый энкодер, Janus-Pro применяет [26] SigLIP для понимания изображений и VQ Tokenizer для их генерации. Каждый компонент дополнен специальным адаптером, который преобразует визуальные признаки в формат, понятный языковой модели.
Результаты говорят сами за себя: на бенчмарке MMBench версия с 7B параметров достигает 79.2 баллов, оставляя позади TokenFlow (68.9) и MetaMorph (75.2). В задачах генерации изображений модель набрала 84.2% на GenEval, превзойдя как DALL-E 3 (67.0%), так и SD3 Medium (74.7%). Интересно, что даже младшая версия с 1B параметров показывает конкурентоспособные результаты. Обе модели уже выложены в открытый доступ на Hugging Face.
Естественно, такой внезапный успех DeepSeek породил немало вопросов и попал под пристальное внимание конкурентов.
Известный ИИ-инвестор Дэвид О. Сакс высказал предположение, что R1 — это дистилляция о1, а Microsoft уже начала расследование возможной «кражи» данных OpenAI. Есть и другая гипотеза от CEO ScaleAI Александра Ванга: за успехом стоит серьезный вычислительный кластер из 50 тысяч NVIDIA H100, который компания не афиширует из-за экспортных ограничений США. Илон Маск согласен с этим предположением.
Следующий удар нанесла [28] команда Wiz Research, обнаружившая публично доступную базу данных ClickHouse на серверах DeepSeek. База, расположенная на oauth2callback.deepseek.com:9000 и dev.deepseek.com:9000, содержала более миллиона записей с историей чатов, секретными ключами и внутренними данными компании. Самое неприятное — база была доступна без какой-либо аутентификации и позволяла выполнять произвольные SQL-запросы через веб-интерфейс.
DeepSeek пока никак не комментируют ни одну из ситуаций, но думается, что новые инциденты не заставят себя ждать.
А что вы думаете о прорыве DeepSeek и его «закулисье»? Поделитесь своим мнением в комментариях!
Лидеры индустрии стараются не ударить в грязь лицом на фоне своих китайских коллег и радуют пользователей тремя мощными релизами: Operator, Tasks и o3-mini. Рассказываем о каждом из них.
OpenAI наконец представила своего долгожданного ИИ-агента Operator — и это действительно впечатляет. В основе агента лежит модель Computer-Using Agent (CUA), построенная на GPT-4o, которая умеет самостоятельно управлять браузером: кликать кнопки, заполнять формы и навигировать по меню. Все действия выполняются в отдельном защищенном окне браузера прямо внутри чата.
С помощью Operator можно автоматизировать множество задач: от заказа доставки еды до планирования путешествий. При этом OpenAI уделила отдельное внимание вопросам безопасности: для операций с конфиденциальными данными (например, ввод данных банковской карты или доступ к почте) требуется подтверждение пользователя. В системе также предусмотрен мониторинг подозрительной активности, который автоматически останавливает исполнение задач при обнаружении потенциальных угроз.
Пока Operator доступен только американским пользователям с подпиской Pro ($200 в месяц), но OpenAI обещает постепенно расширить доступ на другие страны и тарифы. Правда, как отметил Сэм Альтман во время презентации, для Европы это «займет некоторое время». Про РФ почему-то ничего не сказал.
В ChatGPT появилась новая функция Tasks — первый шаг к превращению чат-бота в полноценного цифрового ассистента. Теперь можно планировать задачи на определенное время и создавать регулярные напоминания, например «присылай прогноз погоды каждое утро в 8» или «напомни про встречу через час».
Особенность Tasks в том, что бот выполняет задания, даже когда пользователь оффлайн. Система поддерживает до 10 активных задач одновременно и может сама предлагать их создание, опираясь на контекст разговора. Например, если вы не закончили писать код, ChatGPT заботливо спросит, не хотите ли запланировать возвращение к задаче позже.
Для использования Tasks нужно выбрать опцию «4o with scheduled tasks» в селекторе моделей. Сейчас функция доступна только для подписчиков Plus, Team и Pro. OpenAI планирует интегрировать Tasks с другими экспериментальными инструментами, включая Operator и систему Caterpillar для продвинутой обработки информации.
В OpenAI поднапряглись из-за шумихи с DeepSeek и оперативно выпустили o3-mini — новую модель в линейке reasoning, которая достигает уровня o1 в задачах STEM, но работает быстрее и требует меньше ресурсов. Это первая из мини-версий, поддерживающая Function Calling и Structured Outputs, но главная ее инновация — три уровня «глубины размышлений», которые позволяют оптимизировать баланс между скоростью и точностью ответов.
И действительно, маленькая, да удаленькая: версия с high reasoning достигает точности 87.3% на AIME 2024, 77% на научных вопросах уровня PhD (GPQA Diamond) и решает 32% задач на FrontierMath с первой попытки. В области программирования модель получила рейтинг 2073 Elo на Codeforces. При этом ответы генерируются на 24% быстрее предшественника: в среднем 7.7 секунд против 10.16 у o1-mini.
Самое приятное — o3-mini стала первой reasoning-моделью, доступной бесплатным пользователям ChatGPT. Для платных подписчиков увеличен лимит с 50 до 150 сообщений в день, а Pro-пользователи получили неограниченный доступ к версиям medium и high reasoning.
Еще один участник ИИ-гонки от Китая, команда Qwen от Alibaba Group, продолжает удивлять темпами: за два дня они выпустили сразу две значимые модели. Первая — Qwen 2.5 с рекордным контекстным окном в 1 миллион токенов. Модель доступна в открытом доступе на Hugging Face в версиях 7B и 14B параметров.
Такого впечатляющего размера контекста удалось достичь благодаря использованию memory layers — специальных слоев, заменяющих классические feed-forward компоненты. В этой архитектуре ключи и значения механизма внимания становятся обучаемыми связками, что позволяет модели выбирать только наиболее релевантные пары вместо поиска по всему пулу key-values. Результат — более эффективные вычисления и улучшенная долгосрочная память.
Следом команда представила Queen 2.5-Max — масштабную Mixture-of-Expert модель, предобученную на 20 триллионах токенов с последующим файнтюнингом и RLHF. На бенчмарках она достигает уровня DeepSeek-v3 и GPT-4o, а на HumanEval показывает внушительные 73%. Обе модели уже доступны для бесплатного тестирования через API и веб-интерфейс.
Perplexity AI уже давно известны своим комбо ИИ и поисковика, и вот наконец они представили сразу два значимых отдельных продукта: Sonar Pro API для разработчиков и нового AI-ассистента для Android, способного управлять приложениями.
Sonar Pro API [32] позволяет разработчикам встраивать в свои приложения инструменты генеративного поиска с поддержкой цитирования источников. В отличие от большинства современных решений, которые ограничены данными обучения, Sonar Pro подключается к интернету в реальном времени, что обеспечивает актуальность и достоверность ответов. В рамках API разработчики получили доступ к расширенным функциям вроде JSON mode и возможности фильтрации поисковых доменов.
Параллельно компания выпустила Android-ассистента [34], способного управлять приложениями и выполнять сложные задачи: от бронирования столиков через OpenTable до вызова Uber. Система поддерживает как голосовые команды, так и визуальный ввод через камеру. По словам CEO Аравинда Сриниваса, это знаменует переход Perplexity от простой поисковой системы к полноценному интегрированному ассистенту. Интересно, что релиз состоялся сразу после анонса аналогичных возможностей в Google Gemini.
Tencent представила [35] новую версию своей системы для создания трехмерных моделей из обычных изображений. Hunyuan3D 2.0 использует двухкомпонентную архитектуру: Hunyuan3D-DiT отвечает за создание базовой геометрии объектов, а Hunyuan3D-Paint накладывает реалистичные текстуры с учетом поверхностных углов и позиций.
Технически система работает через диффузионный трансформер, который сначала анализирует и представляет основные формы в сжатом виде, а затем генерирует 3D-модель, максимально соответствующую входному изображению. Особое внимание уделено текстурированию: система удаляет эффекты освещения из оригинального изображения, что позволяет текстурам корректно отображаться при любом освещении. Попробовать Hunyuan3D 2.0 можно уже сейчас через веб-интерфейс Hunyuan3D-Studio [37], правда, для доступа потребуется авторизация через WeChat, QQ или китайский номер телефона.
Свой второй срок Дональд Трамп решил начать с изменения расстановки сил в мире ИИ. Он анонсировал запуск Project Stargate [38] — масштабной частной инициативы по развитию ИИ-инфраструктуры в США. Стартовые инвестиции составят $100 млрд, а к 2029 году общий объем вложений планируется довести до $500 млрд. Для сравнения: это в 10 раз больше последнего инвестраунда OpenAI и в 7 раз превышает совокупные инвестиции во все европейские ИИ-стартапы за 2024 год.
За реализацию отвечает необычный альянс технологических компаний. OpenAI берет на себя операционное управление и технологическую часть, SoftBank выступает главным инвестором, а Oracle, Arm, Microsoft и NVIDIA обеспечивают техническую экспертизу. Первым делом консорциум займется строительством сети датацентров, начиная с Техаса. Интересно, что проект полностью частный — государственные деньги в нем не участвуют.
Stargate серьезно меняет расклад в индустрии. OpenAI, получив доступ к собственной инфраструктуре, больше не зависит от вычислительных мощностей Microsoft. При этом сотрудничество с Azure продолжится, но теперь на более равных условиях. Помимо технологического лидерства, проект должен дать мощный экономический эффект: создание сотен тысяч рабочих мест, развитие смежных отраслей и реиндустриализация отдельных регионов США.
В ответ на американскую инициативу правительство Китая объявило о выделении 1 триллиона юаней (около $137 млрд) на развитие искусственного интеллекта. В отличие от частного Stargate, китайский проект полностью государственный: субсидии получат пять ключевых вендоров, включая DeepSeek. Хотя сумма в три раза меньше американской, массовое государственное финансирование может дать более быстрый эффект.
В Лас-Вегасе завершилась главная технологическая выставка года, и NVIDIA, похоже, решила устроить настоящую революцию в мире персонального ИИ. Джен-Сун Хуанг представил целую экосистему продуктов — от домашних суперкомпьютеров до специализированных моделей для роботов. Разбираем главные анонсы.
NVIDIA начала презентацию с главного — новой линейки RTX 50 на архитектуре Blackwell. Флагманская RTX 5090 впечатляет: 92 миллиарда транзисторов, 3,352 триллиона AI-операций в секунду (TOPS) и пропускная способность памяти 1.8 ТБ/с.
Линейка включает:
RTX 5090 — флагман для профессионалов;
RTX 5080;
RTX 5070 Ti;
RTX 5070 — производительность на уровне прошлого топа 4090.
Особый акцент сделан на поддержке NIM (NVIDIA AI Microservices) — это позволит запускать локальные LLM даже на домашних компьютерах.
Одна из главных сенсаций выставки — Project DIGITS, персональный ИИ-суперкомпьютер по цене игрового ноутбука.
За $3000 вы получаете устройство размером с Mac mini, способное запускать языковые модели до 200B параметров без подключения к облаку. В основе — новый чип GB10 Grace Blackwell Superchip, обеспечивающий производительность в 1 петафлопс. А если объединить два таких устройства, можно работать с моделями до 405B параметров — это уже уровень серьезных датацентров.
NVIDIA выходит на рынок world models с открытой платформой Cosmos World Foundation Models. Это набор предобученных моделей для роботов, которые уже используются Toyota и Uber в разработке беспилотников. Главная фишка — «колесо данных»: система превращает тысячи реальных поездок в миллиарды виртуальных симуляций для тренировки ИИ.
«ChatGPT-момент для робототехники уже на подходе», — заявил Джен-Сун Хуанг во время презентации. И судя по тому, что платформа уже доступна на GitHub, NVIDIA намерена повысить доступность инструментов для разработки роботов.
Компания также представила AI Blueprints — шаблоны для разработчиков, упрощающие разработку ИИ-агентов. Это готовые фреймворки с предустановленными инструментами: от микросервисов NIM до фреймворка NeMo. Особое внимание уделили различиям между обычными ИИ-агентами и агентным ИИ:
Обычные агенты: ограниченная автономность, заранее прописанные инструкции;
Агентный ИИ: высокая автономность, способность к обучению и адаптации.
Похоже, NVIDIA всерьез взялась за демократизацию ИИ-технологий и их доступность в частном использовании.
Неожиданный поворот в истории с нашумевшим математическим бенчмарком FrontierMath. Как выяснилось [43], OpenAI не просто тестировали на нем свою модель o3, но и спонсировали его создание, имея доступ к большинству задач и решений.
EpochAI, разработчики бенчмарка, долгое время скрывали этот факт даже от собственной команды. Шесть математиков, участвовавших в проекте, заявили, что не знали об эксклюзивном доступе OpenAI к тестам и не стали бы участвовать в разработке, если бы владели этой информацией. И это при том, что именно результаты на FrontierMath (25% против обычных 2% у других моделей) стали одним из главных козырей при презентации o3.
EpochAI признали ошибку, объяснив ее контрактными обязательствами перед OpenAI. По их словам, существует «устное соглашение» о неиспользовании задач для обучения моделей. Однако ведущий математик проекта Эллиот Глейзер подтвердил, что они до сих пор не смогли независимо верифицировать заявленные OpenAI результаты.
Марк Цукерберг объявил [44] о радикальных изменениях в политике модерации контента Meta. Компания откажется от услуг сторонних фактчекеров в пользу системы «community notes», похожей на ту, что используется в X (бывший Twitter). Изменения коснутся всех платформ компании — Facebook, Instagram, WhatsApp и Threads.
По словам Цукерберга, это возвращение к «корням свободы самовыражения». Он признал, что существующая система модерации делает слишком много ошибок: даже если блокируется всего 1% постов, это затрагивает миллионы пользователей. Кроме того, компания переносит команды модерации из Калифорнии в Техас, чтобы снизить «предвзятость» в принятии решений.
Многие видят в этом решении политический подтекст — попытку наладить отношения с новой администрацией Трампа и республиканским Конгрессом. Эксперты опасаются, что отказ от профессионального фактчекинга может привести к новой волне дезинформации, особенно в преддверии выборов. Для бизнес-аккаунтов это означает как новые возможности в создании контента, так и риски столкнуться с неконтролируемой критикой и теориями заговора.
Создатель Keras и один из ведущих исследователей Google DeepMind Франсуа Шолле объявил о запуске собственной лаборатории Ndea [45]. К проекту присоединился его бывший коллега по Google Ники Кнуп, и, похоже, они замахнулись на что-то действительно масштабное.
Название Ndea (читается как «идея» с буквой «n») отсылает к древнегреческим концепциям ennoia (интуитивное понимание) и dianoia (логическое ). Главная цель — объединить глубокое обучение с программным синтезом для создания AGI. Но самое интересное не это: команда планирует построить своего рода «фабрику научного прогресса», способную генерировать и коммерциализировать новые идеи в промышленных масштабах.
В фокусе внимания не только очевидные направления вроде беспилотного транспорта или разработки лекарств, но и потенциальные прорывы в областях, которые мы пока даже не можем себе представить. Учитывая репутацию Шолле как создателя Keras и бенчмарка ARC AGI, а также его вклад в развитие глубокого обучения, за этим проектом определенно стоит следить.
2025 потихоньку начинает подтверждать свое звание года ИИ-агентов: сразу две популярные платформы для автоматизации представили свои no-code решения.
Postman запустил [48] визуальный конструктор агентных воркфлоу, делая ставку на свою обширную экспертизу в работе с API — ключевым компонентом агентной архитектуры.

Следом свой конструктор анонсировал [49] Zapier, предложив доступ к более чем 7000 интеграций с популярными сервисами вроде Notion, Jira и Google Docs. 2025 год явно станет годом демократизации агентных технологий: теперь создавать ИИ-агентов смогут не только инженеры, но и обычные пользователи.
Команда Anthropic выпустила интересное видео [50] об элайменте с участием четырех ведущих разработчиков, включая Яна Лейке, известного по работе в OpenAI. Главный вывод — существующие подходы вроде RLHF и constitutional AI достигли своего предела и требуют переосмысления.
Ключевая проблема — масштабирование. Текущие методы работают для предсказуемых задач, но что делать, когда ИИ начнет решать проблемы, которые человек не может напрямую проверить? Отдельный вызов — ризонинг: сейчас модели «думают» на английском, что позволяет анализировать их рассуждения, но это может измениться.
Исследователи видят два перспективных направления: интерпретация фичей для контроля «честности» моделей и супер-элаймент для работы со сложными автономными системами. В Anthropic уже экспериментируют с делегированием элаймента другим ИИ-моделям и создали специальные red-blue команды: одни разрабатывают «злые» модели, другие учатся их исправлять.
Hugging Face представили новый бесплатный сертифицированный курс [51], посвященный разработке и развертыванию ИИ-агентов. Программа охватывает как теоретические основы (как агенты воспринимают окружение, рассуждают и принимают решения), так и практическое применение популярных фреймворков вроде LangChain и LlamaIndex.
Особый акцент сделан на реальных примерах использования: от автоматизации SQL-запросов до генерации кода и анализа документов. По завершении курса участники получают сертификат, подтверждающий их навыки в создании агентных систем. Записаться на курс может любой желающий — специальных технических знаний не требуется.
Команда Университета Сиднея представила [52] впечатляющую разработку: трансформер, способный предсказывать состояния
На тестах модель показывает феноменальные результаты: MSE 0.0013 на одной точке предсказания и корреляция >0.85 для последовательности из семи состояний (5.04 секунды). С увеличением горизонта предсказаний точность модели снижается, но в пределах первых пяти секунд прогнозы остаются исключительно точными.
Самое интересное, что это первый подход, который действительно имеет шанс на практическое применение. В мире много пациентов, которые не могут проходить длительные сеансы МРТ, и возможность получать надежные данные с коротких сканирований может стать для них настоящим прорывом.
Масштабное исследование в Германии подтвердило [53] преимущества использования искусственного интеллекта при скрининге рака молочной железы. Исследователи проанализировали данные 461 818 женщин, часть из которых проходила обследование с применением ИИ, а часть — по стандартной методике с двумя радиологами.
В группе с ИИ выявляемость оказалась на 17.6% выше — 6.70 случаев на 1000 обследований против 5.70 при стандартном подходе. Важно, что количество ложных срабатываний осталось на том же уровне. Система не только помечает «нормальные» снимки, но и выдает предупреждения, если радиолог пропускает подозрительный участок: благодаря этой функции было выявлено 204 случая рака.
Особенно актуально это для стран вроде Великобритании, где наблюдается 29%-й дефицит радиологов. Правда, эксперты отмечают необходимость долгосрочных исследований: увеличение выявляемости медленно растущих форм рака может привести к избыточной диагностике.
Gitingest [54] — конвертация Git-репозиториев в текстовый формат для обучения LLM.
LOTUS [55] — опенсорсный семантический движок для быстрой обработки данных с помощью LLM.
Trafilatura [56] — Python-пакет для сбора и структурирования веб-контента в различные форматы.

Monkt [57] — конвертация PDF, DOCX, PPTX и других форматов в JSON для обучения ИИ.
Bruin [58] — инструмент для data pipeline, объединяющий прием данных, SQL/Python трансформации и контроль качества.
SemHash [59] — быстрый и точный инструмент для удаления дубликатов из текстовых датасетов.
Zasper [60] — опенсорсная IDE для эффективной работы с Jupyter Notebooks.
jupytext [61] — конвертация Jupyter Notebooks в Markdown, Julia, Python или R-скрипты.
ipychat [62] — ИИ-расширение для IPython, помогающее быстрее писать и отлаживать код.
Curator [63] — инструмент для создания пайплайнов синтетических данных.

TorchGeo [64] — наборы данных и модели для работы с геопространственными данными от Microsoft.
EasyLang AI [65] — персонализированное изучение языков с ИИ-генерацией упражнений.
Lingocat [66] — практика языков с ИИ-репетитором.
Reset [67] — ИИ-помощник для работы с тревожными мыслями.
Add to Sheets [68] — Chrome-расширение для сохранения контента в Google Sheets.
Lecca [69] — создание команд ИИ-агентов для выполнения рабочих процессов.

TestSprite [70] — end-to-end QA продукт для автоматизации тестирования.
Norm [71] — ИИ-агенты для проверки соответствия продукта нормативным требованиям.
О чем: исследователи предложили новый подход к GAN с теоретически доказанной сходимостью, превосходящий StyleGAN2 и конкурирующий с диффузионными моделями при меньших вычислительных затратах.
О чем: Google представили архитектуру, решающую проблему «забывчивости» трансформеров через комбинацию краткосрочной и долгосрочной памяти. Модель масштабируется до 2+ миллионов токенов контекста без потери точности.
О чем: Netflix разработали новый подход к генерации видео, добавляющий в диффузионную модель оптический поток движения. Это позволяет создавать более естественные движения без мерцания текстур при минимальном увеличении вычислительных затрат.
О чем: исследователи из Truthful AI обнаружили, что языковые модели способны формировать устойчивое «представление о себе» на основе обучающих данных и даже самостоятельно выявлять внедренные бэкдоры.
О чем: Google выпустили подробный whitepaper об архитектуре ИИ-агентов, описывающий их ключевые компоненты, типы инструментов и методы обучения, с практическими примерами реализации на платформе Vertex AI.
О чем: исследователи показали, как квантовые вычисления могут радикально ускорить обработку масштабных датасетов, открывая новые возможности для машинного обучения.
О чем: обзор показывает, что, несмотря на впечатляющие результаты ИИ в здравоохранении, нужны дополнительные исследования для безопасного внедрения в клиническую практику.
О чем: исследование показывает, как пересечение изучения человеческого познания и разработки ИИ-систем ускоряет прогресс в обеих областях.
О чем: исследователи разработали подход, позволяющий моделям делать более обоснованные моральные суждения и лучше обобщать этические принципы, чем стандартные LLM.
О чем: новый подход к тестированию симуляторов цифровых схем, фокусирующийся на симуляции ARM ISA с использованием комбинации поиска и LLM.
О чем: исследователи проанализировали последние прорывы в генеративном ИИ и выделили ключевые тренды — от специализированных моделей до новых методов обучения.
О чем: исследователи предложили фреймворк для обучения ИИ-агентов исправлять свои ошибки на лету. Вместо традиционной системы наград используется MCTS для построения правильных траекторий из ошибочных, что улучшает результаты на 5.59%.
О чем: новый подход к безопасности языковых моделей через обучение рассуждению. 8B-версия превзошла GPT-4o+CoT на 5.74% и LLaMA Guard 3 на 20.84% по F1-score, используя датасет из 127K примеров с подробными цепочками рассуждений.
О чем: сравнительное исследование показало, что RL лучше обобщает новые сценарии, в то время как SFT склонен к запоминанию. При этом SFT остается необходимым для стабилизации выходного формата перед RL-обучением.
О чем: исследователи разработали систему улучшения видеогенерации через human feedback. Ключевые компоненты: VideoReward для многомерной оценки качества и три новых алгоритма для flow-based моделей, включая Flow-DPO и Flow-NRG.
Темп развития ИИ-индустрии ускоряется с бешеной силой. Особенно впечатляют масштабы изменений — миллиардные инвестиции, гонка за лидерство уже между странами, а не единичными корпорациями. И это год только начался.
Мы с нетерпением ждем дальнейших событий и обновлений, а на сегодня у нас все! Делитесь в комментариях, что в январе впечатлило вас большего всего.
Автор: full_moon
Источник [87]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/iskusstvenny-j-intellekt/409907
Ссылки в тексте:
[1] Новые модели: #%D0%9D%D0%BE%D0%B2%D1%8B%D0%B5%20%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8
[2] Ответка от OpenAI: #%D0%9E%D1%82%D0%B2%D0%B5%D1%82%D0%BA%D0%B0%20%D0%BE%D1%82%20OpenAI
[3] Qwen 2.5: миллионный контекст и новый флагман: https://www.pvsm.ru%20%D0%BC%D0%B8%D0%BB%D0%BB%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D0%B9%20%D0%BA%D0%BE%D0%BD%D1%82%D0%B5%D0%BA%D1%81%D1%82%20%D0%B8%20%D0%BD%D0%BE%D0%B2%D1%8B%D0%B9%20%D1%84%D0%BB%D0%B0%D0%B3%D0%BC%D0%B0%D0%BD
[4] Perplexity расширяет границы: новый API и ассистент для Android: https://www.pvsm.ru%20%D0%BD%D0%BE%D0%B2%D1%8B%D0%B9%20API%20%D0%B8%20%D0%B0%D1%81%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BD%D1%82%20%D0%B4%D0%BB%D1%8F%20Android
[5] Hunyuan3D 2.0: Tencent превращает 2D-изображения в детализированные 3D-объекты: https://www.pvsm.ru%20Tencent%20%D0%BF%D1%80%D0%B5%D0%B2%D1%80%D0%B0%D1%89%D0%B0%D0%B5%D1%82%202D-%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F%20%D0%B2%20%D0%B4%D0%B5%D1%82%D0%B0%D0%BB%D0%B8%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5%203D-%D0%BE%D0%B1%D1%8A%D0%B5%D0%BA%D1%82%D1%8B
[6] Новости от гигантов индустрии: #%D0%9D%D0%BE%D0%B2%D0%BE%D1%81%D1%82%D0%B8%20%D0%BE%D1%82%20%D0%B3%D0%B8%D0%B3%D0%B0%D0%BD%D1%82%D0%BE%D0%B2%20%D0%B8%D0%BD%D0%B4%D1%83%D1%81%D1%82%D1%80%D0%B8%D0%B8
[7] Project Stargate: США начинают новую технологическую гонку: https://www.pvsm.ru%20%D0%A1%D0%A8%D0%90%20%D0%BD%D0%B0%D1%87%D0%B8%D0%BD%D0%B0%D1%8E%D1%82%20%D0%BD%D0%BE%D0%B2%D1%83%D1%8E%20%D1%82%D0%B5%D1%85%D0%BD%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D1%83%D1%8E%20%D0%B3%D0%BE%D0%BD%D0%BA%D1%83
[8] CES 2025: яркие новинки от NVIDIA: https://www.pvsm.ru%20%D1%8F%D1%80%D0%BA%D0%B8%D0%B5%20%D0%BD%D0%BE%D0%B2%D0%B8%D0%BD%D0%BA%D0%B8%20%D0%BE%D1%82%20NVIDIA
[9] OpenAI оказались причастны к созданию бенчмарка FrontierMath: #OpenAI%20%D0%BE%D0%BA%D0%B0%D0%B7%D0%B0%D0%BB%D0%B8%D1%81%D1%8C%20%D0%BF%D1%80%D0%B8%D1%87%D0%B0%D1%81%D1%82%D0%BD%D1%8B%20%D0%BA%20%D1%81%D0%BE%D0%B7%D0%B4%D0%B0%D0%BD%D0%B8%D1%8E%20%D0%B1%D0%B5%D0%BD%D1%87%D0%BC%D0%B0%D1%80%D0%BA%D0%B0%20FrontierMath
[10] Meta отказывается от фактчекинга в пользу «народной модерации»: #Meta%20%D0%BE%D1%82%D0%BA%D0%B0%D0%B7%D1%8B%D0%B2%D0%B0%D0%B5%D1%82%D1%81%D1%8F%20%D0%BE%D1%82%20%D1%84%D0%B0%D0%BA%D1%82%D1%87%D0%B5%D0%BA%D0%B8%D0%BD%D0%B3%D0%B0%20%D0%B2%20%D0%BF%D0%BE%D0%BB%D1%8C%D0%B7%D1%83%20%C2%AB%D0%BD%D0%B0%D1%80%D0%BE%D0%B4%D0%BD%D0%BE%D0%B9%20%D0%BC%D0%BE%D0%B4%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D0%B8%C2%BB
[11] Франсуа Шолле запускает амбициозный ИИ-проект после ухода из Google Deepmind: #%D0%A4%D1%80%D0%B0%D0%BD%D1%81%D1%83%D0%B0%20%D0%A8%D0%BE%D0%BB%D0%BB%D0%B5%20%D0%B7%D0%B0%D0%BF%D1%83%D1%81%D0%BA%D0%B0%D0%B5%D1%82%20%D0%B0%D0%BC%D0%B1%D0%B8%D1%86%D0%B8%D0%BE%D0%B7%D0%BD%D1%8B%D0%B9%20%D0%98%D0%98-%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%20%D0%BF%D0%BE%D1%81%D0%BB%D0%B5%20%D1%83%D1%85%D0%BE%D0%B4%D0%B0%20%D0%B8%D0%B7%20Google%20Deepmind
[12] Новинки и открытия: #%D0%9D%D0%BE%D0%B2%D0%B8%D0%BD%D0%BA%D0%B8%20%D0%B8%20%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D0%B8%D1%8F
[13] Postman и Zapier запускают конструкторы ИИ-агентов: #Postman%20%D0%B8%20Zapier%20%D0%B7%D0%B0%D0%BF%D1%83%D1%81%D0%BA%D0%B0%D1%8E%D1%82%20%D0%BA%D0%BE%D0%BD%D1%81%D1%82%D1%80%D1%83%D0%BA%D1%82%D0%BE%D1%80%D1%8B%20%D0%98%D0%98-%D0%B0%D0%B3%D0%B5%D0%BD%D1%82%D0%BE%D0%B2
[14] Anthropic рассказали о проблемах и будущем alignment: #Anthropic%20%D1%80%D0%B0%D1%81%D1%81%D0%BA%D0%B0%D0%B7%D0%B0%D0%BB%D0%B8%20%D0%BE%20%D0%BF%D1%80%D0%BE%D0%B1%D0%BB%D0%B5%D0%BC%D0%B0%D1%85%20%D0%B8%20%D0%B1%D1%83%D0%B4%D1%83%D1%89%D0%B5%D0%BC%20alignment
[15] Hugging Face запускает бесплатный курс по созданию ИИ-агентов: #Hugging%20Face%20%D0%B7%D0%B0%D0%BF%D1%83%D1%81%D0%BA%D0%B0%D0%B5%D1%82%20%D0%B1%D0%B5%D1%81%D0%BF%D0%BB%D0%B0%D1%82%D0%BD%D1%8B%D0%B9%20%D0%BA%D1%83%D1%80%D1%81%20%D0%BF%D0%BE%20%D1%81%D0%BE%D0%B7%D0%B4%D0%B0%D0%BD%D0%B8%D1%8E%20%D0%98%D0%98-%D0%B0%D0%B3%D0%B5%D0%BD%D1%82%D0%BE%D0%B2
[16] Трансформер научился предсказывать активность мозга: #%D0%A2%D1%80%D0%B0%D0%BD%D1%81%D1%84%D0%BE%D1%80%D0%BC%D0%B5%D1%80%20%D0%BD%D0%B0%D1%83%D1%87%D0%B8%D0%BB%D1%81%D1%8F%20%D0%BF%D1%80%D0%B5%D0%B4%D1%81%D0%BA%D0%B0%D0%B7%D1%8B%D0%B2%D0%B0%D1%82%D1%8C%20%D0%B0%D0%BA%D1%82%D0%B8%D0%B2%D0%BD%D0%BE%D1%81%D1%82%D1%8C%20%D0%BC%D0%BE%D0%B7%D0%B3%D0%B0
[17] Исследование показало эффективность ИИ в обнаружении рака груди: #%D0%98%D1%81%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5%20%D0%BF%D0%BE%D0%BA%D0%B0%D0%B7%D0%B0%D0%BB%D0%BE%20%D1%8D%D1%84%D1%84%D0%B5%D0%BA%D1%82%D0%B8%D0%B2%D0%BD%D0%BE%D1%81%D1%82%D1%8C%20%D0%98%D0%98%20%D0%B2%20%D0%BE%D0%B1%D0%BD%D0%B0%D1%80%D1%83%D0%B6%D0%B5%D0%BD%D0%B8%D0%B8%20%D1%80%D0%B0%D0%BA%D0%B0%20%D0%B3%D1%80%D1%83%D0%B4%D0%B8
[18] Свежие инструменты: #%D0%A1%D0%B2%D0%B5%D0%B6%D0%B8%D0%B5%20%D0%B8%D0%BD%D1%81%D1%82%D1%80%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D1%8B
[19] Для работы с данными: #%D0%94%D0%BB%D1%8F%20%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D1%8B%20%D1%81%20%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%BC%D0%B8
[20] Для разработки: #%D0%94%D0%BB%D1%8F%20%D1%80%D0%B0%D0%B7%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B8
[21] Для обучения и продуктивности: #%D0%94%D0%BB%D1%8F%20%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8F%20%D0%B8%20%D0%BF%D1%80%D0%BE%D0%B4%D1%83%D0%BA%D1%82%D0%B8%D0%B2%D0%BD%D0%BE%D1%81%D1%82%D0%B8
[22] Для автоматизации: #%D0%94%D0%BB%D1%8F%20%D0%B0%D0%B2%D1%82%D0%BE%D0%BC%D0%B0%D1%82%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D0%B8
[23] Исследования на почитать: #%D0%98%D1%81%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F%20%D0%BD%D0%B0%20%D0%BF%D0%BE%D1%87%D0%B8%D1%82%D0%B0%D1%82%D1%8C
[24] Заключение: #%D0%97%D0%B0%D0%BA%D0%BB%D1%8E%D1%87%D0%B5%D0%BD%D0%B8%D0%B5
[25] использовали: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
[26] применяет: https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf
[27] (Источник изображения): https://t.me/data_secrets/6022
[28] нанесла: https://habr.com/ru/news/877806/
[29] (источник изображения): https://openai.com/index/introducing-operator/
[30] (источник изображения): https://help.openai.com/en/articles/10291617-scheduled-tasks-in-chatgpt
[31] (источник изображения): https://openai.com/index/openai-o3-mini/
[32] Sonar Pro API: https://www.perplexity.ai/hub/blog/introducing-the-sonar-pro-api
[33] (источник изображения): https://www.threads.net/@testingcatalog/post/DFGXKrStxpA/breaking-perplexity-announced-sonar-pro-a-new-real-time-search-api-which-outperf
[34] Android-ассистента: https://play.google.com/store/apps/details?id=ai.perplexity.app.android
[35] представила: https://github.com/Tencent/Hunyuan3D-2
[36] (источник изображения): https://huggingface.co/tencent/Hunyuan3D-2
[37] Hunyuan3D-Studio: https://3d.hunyuan.tencent.com/
[38] Project Stargate: https://openai.com/index/announcing-the-stargate-project/
[39] (Источник изображения): https://www.forbes.com/sites/moorinsights/2025/01/30/the-stargate-project-trump-touts-500-billion-bid-for-ai-dominance/
[40] (Источник изображения): https://www.gamesradar.com/nvidia-geforce-rtx-5090-everything-we-know/
[41] (источник изображения): https://www.nvidia.com/en-us/project-digits/
[42] (источник изображения): https://www.nvidia.com/en-us/ai/cosmos/
[43] Как выяснилось: https://www.lesswrong.com/posts/cu2E8wgmbdZbqeWqb/meemi-s-shortform
[44] объявил: https://about.fb.com/wp-content/uploads/2025/01/V2.Single-Take-CS25_MZ_JanAnnouncement_v09_16x9.mp4
[45] Ndea: https://ndea.com/
[46] (Источник изображения): https://ndea.com/about
[47] мышление: http://www.braintools.ru
[48] запустил: https://www.postman.com/product/ai-agent-builder/
[49] анонсировал: https://zapier.com/blog/introducing-zapier-ai-agents/
[50] видео: http://www.youtube.com/watch?v=IPmt8b-qLgk
[51] курс: https://huggingface.co/agents-course
[52] представила: https://arxiv.org/pdf/2412.19814v1
[53] подтвердило: https://www.nature.com/articles/s41591-024-03408-6
[54] Gitingest: https://gitingest.com/
[55] LOTUS: https://github.com/guestrin-lab/lotus
[56] Trafilatura: https://github.com/adbar/trafilatura
[57] Monkt: https://monkt.com/
[58] Bruin: https://github.com/bruin-data/bruin
[59] SemHash: https://github.com/MinishLab/semhash
[60] Zasper: https://github.com/zasper-io/zasper
[61] jupytext: https://jupytext.readthedocs.io/en/latest/
[62] ipychat: https://github.com/vinayak-mehta/ipychat
[63] Curator: https://github.com/bespokelabsai/curator
[64] TorchGeo: https://github.com/microsoft/torchgeo
[65] EasyLang AI: https://mylens.ai/apps/easylang?ref=producthunt
[66] Lingocat: https://getlingocat.com/
[67] Reset: https://www.resetapp.co.uk/
[68] Add to Sheets: https://www.addtosheets.com/
[69] Lecca: https://www.lecca.io/
[70] TestSprite: https://www.testsprite.com/
[71] Norm: https://www.norm.ai/
[72] Ссылка на исследование: https://huggingface.co/papers/2501.05441
[73] Ссылка на исследование: https://arxiv.org/pdf/2501.00663v1
[74] Ссылка на исследование: https://arxiv.org/abs/2501.08331
[75] Ссылка на исследование: https://arxiv.org/pdf/2501.11120
[76] Ссылка на исследование: https://www.kaggle.com/whitepaper-agents
[77] Ссылка на исследование: https://dzone.com/articles/quantum-ml-for-large-scale-data-intensive-apps
[78] Ссылка на исследование: https://www.frontiersin.org/journals/medicine/articles/10.3389/fmed.2024.1522554/full
[79] Ссылка на исследование: https://www.digitalocean.com/community/tutorials/neuroscience-and-artificial-intelligence
[80] Ссылка на исследование: https://www.nature.com/articles/s42256-024-00969-6
[81] Ссылка на исследование: https://discovery.ucl.ac.uk/id/eprint/10203327/1/main.pdfhttps://discovery.ucl.ac.uk/id/eprint/10203327/1/main.pdf
[82] Ссылка на исследование: https://link.springer.com/article/10.1007/s11042-024-20016-1
[83] Ссылка на исследование: https://arxiv.org/abs/2501.11425
[84] Ссылка на исследование: https://arxiv.org/abs/2501.18492
[85] Ссылка на исследование: https://arxiv.org/abs/2501.17161
[86] Ссылка на исследование: https://arxiv.org/abs/2501.13918
[87] Источник: https://habr.com/ru/companies/magnus-tech/articles/879440/?utm_campaign=879440&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.