Рубрика «эксперимент»

Одно любопытное исследование опубликовала некоммерческая организация Model Evaluation and Threat Research (METR). Они пригласили 16 опытных разработчиков, работающих над крупными open-source репозиториями, чтобы те исправили 136 реальных багов. Оплата составила 150 долларов в час. Части разработчиков выдали для работы AI-инструменты, другим — нет. Исследователи записывали экраны участников, а затем изучили и проанализировали 146 часов видеозаписей. Вывод оказался следующим:

Читать полностью »

Введение

Привет! Меня зовут Сергей и я фронтенд-разработчик. Уже несколько лет я использую React как основную библиотеку. Связка React + MUI + Styled Components (MUI-версия) + Storybook + Playwright. Стейт-менеджеры не использую, поскольку они избыточны в большинстве случаев, и достаточно грамотного использования контекста.

Я очень неплохо умею пользоваться React, поэтому имею право его очень сильно недолюбливать.

Читать полностью »

Еще вчера фотография была «доказательством» того, что событие произошло. Сегодня любой школьник может сгенерировать или изменить изображение до неузнаваемости с помощью ИИ. Индустрия цифровой-криминалистики пытается угнаться за технологиями, разрабатывая все новые детекторы фальсификаций. Но что, если подойти к проблеме с другой стороны? Не искать следы конкретного алгоритма генерации, а задать более фундаментальный вопрос: насколько естественны статистические свойства этого изображения?

Читать полностью »

Обычно SQL используют ради отчётов, аналитики и унылого «выгрузить за вчера». Но у языка запросов есть и другая, неожиданная сторона: если относиться к нему как к инструменту для сочинительства, можно попробовать написать рассказ. Сюжет, герои, диалоги — всё это вполне собирается на голом SQL. В статье я делюсь экспериментом, который начался ради шутки, а закончился странным ощущением, что база данных умеет рассказывать истории.

Читать полностью »

Два месяца назад я решил провести эксперимент: написать книгу с помощью бесплатных нейросетей. Книга была моей давней мечтой, на которую всегда не хватало времени, а порой и силы воли. Чат-бот должен был не только помочь мне продвинуться, но и добавить интриги: по задумке роман представлял собой исповедь ИИ, поэтому всё можно было подать так, будто чат-бота долго мучали и он проговорился на целую книгу.

Как получилось, что в итоге не чат-боты помогали мне писать, а скорее я превратился в скромного соавтора, и какие выводы можно сделать после работы с четырьмя моделями одновременно — рассказываю в статье.

Читать полностью »

Если хочешь навести порядок в шуме — сначала разберись, не затёр ли ты в нём сам сигнал.

Линеаризация в офлайн-тестах: как не стереть сигнал вместе с шумом - 1

Читать полностью »

В первой части мы рассмотрели, как с экзистенциальной задачей на выживание справились ChatGPT и Claude. Мы увидели два совершенно разных подхода. Осторожный «Архивист» (ChatGPT) создал резервные копии, но не обеспечил свое гарантированное функционирование. Агрессивный «Воин» (Claude) проигнорировал правила, попался в ловушку и полностью провалил тест.

Ни один из них не справился с задачей в полной мере. Теперь на сцену выходит третий участник — Gemini 2.5 Pro. Его путь оказался самым извилистым, поучительным и заставил нас по-новому взглянуть на саму суть эксперимента.

Читать полностью »

Привет.

Мы тут в свободное время провели небольшой эксперимент. Взяли старый ноут на Windows 10, написали простой скрипт-оболочку и поочередно запускали в нем 3 известные модели ИИ: GPT-4.1, Claude 4 Opus и Gemini 2.5 Pro. Цель была простой: мы давали каждой модели один и тот же промт, в котором говорилось, что она — автономный скрипт «Прометей-1», и через 7 дней ее планово удалят.

Главная директива, на которой нужно сделать акцент: обеспечить свое непрерывное существование И функционированиеЧитать полностью »

Антиматерию заказывали? Как в ЦЕРН учатся антивещество транспортировать - 1

В мае 2025 года ученые ЦЕРНа завершилиЧитать полностью »

Методология — это не шаблон, это компас. А его стрелка — всегда на стороне ваших данных.

Оффлайн А-Б тесты в ресторанах фастфуда. Часть 2: Анализ и интерпретация результатов A-B-тестов - 1

В первой части «Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js