Современные видеокарты — это прожорливые печки. Но если вы держите ферму или просто считаете что-то 24/7, счёт за электричество начинает кусаться. Даже одна видеокарта, работающая круглосуточно, может накрутить тысячи рублей в месяц. А если их десять?
Я покажу, как с помощью простой формулы Энергия = Время × Мощность найти золотую середину между производительностью и расходом на электроэнергию. Без волшебства — только физика 7-го класса и немного здравого смысла.
⚠️ Напоминание об охлаждении
Прежде чем лезть в настройки мощности, добейтесь достойного охлаждения. Новые термопрокладки, хорошая термопаста — это залог успеха.
У меня был случай: долго и безуспешно бился с картой AMD под Linux. Она временами зависала. Я перепробовал десятки настроек, но ничего не помогало. После замены термопрокладок на мосфетах она стала работать как часы.
Перегрев — это не только троттлинг и уменьшение ресурса, но и адская нестабильность. Так что сначала охлаждение, потом тюнинг.
Важнейший плюс оптимального Power Limit
Как правило, оптимальный PL меньше максимально возможного и это продлевает жизнь вашим дорогим картам, блокам питания, конденсаторам, термопрокладкам и вентиляторам. Уменьшает число поломок и увеличивает срок эксплуатации и интервалы сервисного обслуживания. В конечном счёте именно эта выгода, которую гораздо сложнее измерить в деньгах, чем счёт за электричество, может оказаться решающей.
Детали о том, как снижение PL продлевает жизнь картам
Видеокарта выходит из строя по разным, часто независимым друг от друга причинам, и снижение Power Limit влияет на них по-разному:
-
Отвал BGA-пайки (GPU или VRAM): Это причина смерти №1 для тяжело нагруженных карт. Она возникает не от самой высокой температуры, а от перепадов температур (термоциклирования). Текстолит и кремний имеют разный коэффициент теплового расширения. Постоянный нагрев до 85°C под нагрузкой и охлаждение до 35°C в простое ломает шарики припоя. Снижение PL на 20% может снизить пиковую температуру на ~10-15°C, радикально уменьшая разницу температур и экспоненциально увеличивая ресурс пайки.
-
Выгорание VRM (цепей питания): При 100% PL через мосфеты идут пиковые токи. Деградация силовых элементов напрямую зависит от силы тока и температуры. Снижение PL с 350W до 280W разгружает мосфеты, уводя их из экстремального режима работы в номинальный.
-
Электромиграция внутри самого чипа: Физическое разрушение дорожек внутри кремния под воздействием тока. Описывается уравнением Блэка, где срок службы проводника обратно пропорционален квадрату плотности тока и экспоненциально зависит от температуры. Здесь физика дает четкий ответ: снижение напряжения и тока дает логарифмический прирост к сроку жизни кремния.
-
Механика (вентиляторы): Снижение потребления на 15% обычно позволяет снизить обороты кулеров на 20-30%, что продлевает жизнь подшипников.
Цитата из статьи «NVIDIA GPU Power Limit vs Performance» (Puget Systems — крупный системный интегратор), перевод на русский:
Снижение лимита мощности видеокарт в multi-GPU системах, находящихся под тяжелой вычислительной нагрузкой, способно:
снизить нагрузку на общую подсистему питания компьютера;
уменьшить фактическое потребление электроэнергии «из розетки»;
снизить тепловую нагрузку на систему и требования к отводу тепла;
уменьшить уровень шума системы (за счет снижения потребности в охлаждении);
увеличить срок службы компонентов системы благодаря снижению энергетического и теплового стресса.
Ищем оптимальный Power Limit с точки зрения максимума полезной работы на ватт.
Наша цель — найти такой режим работы видеокарты, при котором каждый вложенный рубль даёт максимум результата. Для этого составим таблицу производительности в зависимости от лимита мощности (Power Limit).
Power Limit — это сколько ватт видеокарта может брать от блока питания. Мы проведём расчёты для двух вариантов мощности:
-
Только Power Limit карты (данные мониторинга из
nvidia-smiилиamd-smi). -
Общее потребление системного блока по ваттметру (с учётом процессора, дисков, вентиляторов). Мониторы отключаем — они не нужны.
Максимальный Power Limit мы можем узнать, если запустим утилиты без параметров:
У меня задача разбита на одинаковые куски (батчи), и я вижу время обработки каждого батча. Если у вас, например, FPS или хэши/секунду — тоже подойдёт, но формула будет чуть другой. Об этом ниже.
План измерений
-
Прогреваем карту 20 минут при максимальном Power Limit (обычно это значение по умолчанию). Зачем прогрев? При нагреве сопротивление резисторов растёт, а характеристики транзисторов меняются. Если мы будем мерять «на холодную», то получим завышенные, недостоверные значения.
-
Понижаем Power Limit с шагом 25 Вт от максимума до минимума, разрешённого картой. Важно: идём сверху вниз. Если пойти снизу вверх, при каждом увеличении лимита придётся ждать повторного прогрева — теряем время.
-
Для каждого шага записываем: время выполнения в секундах одного батча или кванта вычислений (или скорость вычислений, если время неясно), Power Limit (Вт), частоту ядра (МГц).
-
Считаем энергию в джоулях на одну задачу:
Если у вас не время, а скорость (например, FPS), то энергия на один кадр будет пропорциональна
— чем меньше это число, тем эффективнее.
Команда для установки лимита мощности в 225 ватт:
ndidia-smi -pl 225
И постепенно уменьшаем лимит. Ниже минимального утилита не даст понизить.
Также для управления лимитом мощности (Power Limit) и частотами видеокарт в среде Windows существует несколько GUI-инструментов:
-
MSI Afterburner. Это индустриальный стандарт и самая популярная программа. Несмотря на название, она работает с видеокартами абсолютно любых производителей (NVIDIA и AMD).
-
EVGA Precision X1, ASUS GPU Tweak III. Это альтернативы от вендоров.
-
AMD Software: Adrenalin Edition. Для владельцев карт AMD (Radeon) это ультимативный и встроенный в систему инструмент. Вкладка «Производительность» (Performance) -> «Настройка» (Tuning).
-
NVIDIA App / GeForce Experience. В новых версиях NVIDIA App появился оверлей производительности (вызывается по
Alt+Z), где есть базовая настройка ползунков максимальной мощности и целевой температуры.
Разбор на живом примере
Возьмём типичную карту на чипе GA102 (CMP 90HX / RTX 3080). Измеряем время выполнения батча при разных Power Limit. Записываем Power Limit, общее потребление по ваттметру, а для работы считаем энергию (Дж = с × Вт). Я всё сделал в табличке в LibreOffice, формулы считались автоматически.
|
Power Limit (Вт) |
Общая мощность (Вт) |
Время выполнения батча (с) |
Частота, MHz |
Работа по Power Limit (Дж)/батч |
Работа по общему потреблению (Дж)/батч |
|---|---|---|---|---|---|
|
250 |
528 |
7.20 |
1725 |
1800.00 |
3801.60 |
|
225 |
500 |
7.53 |
1665 |
1694.25 |
3765.00 |
|
200 |
470 |
7.97 |
1530 |
1594.00 |
3745.90 |
|
175 |
440 |
8.63 |
1460 |
1510.25 |
3797.20 |
|
150 |
411 |
10.675 |
1250 |
1601.25 |
4387.425 |
|
125 |
385 |
16.725 |
750 |
2090.625 |
6439.125 |
|
100 |
360 |
42.43 |
240 |
4243.00 |
15274.80 |
Если мерять только по Power Limit, то самый выгодный режим — 175 ватт — при нём порция работы мне обходится в 1510.25 Джоулей, а если с учётом общего энергопотребления, то — 200 ватт — порция работы обходится в 3745.9 Джоулей.
У меня не типичный комп, он очень много потребляет в простое (мощный проц, куча дисков и других железяк подключены).
Вывод по таблице
Самая высокая энергоэффективность — при 200 Вт и 1530 МГц.
Почему не 100 Вт? Потому что при сильном занижении частоты падает так сильно, что карта считает слишком долго и в сумме съедает больше джоулей.
Почему не 250 Вт? Потому что лишние мегагерцы даются слишком дорогой ценой — закон квадрата напряжения.
Парадокс экономии: слишком сильно зажатая карта по лимиту мощности работает медленно и тратит больше энергии на ту же работу, чем карта в «золотой середине».
Простая эвристика, если у вас нет ваттметра
Просто прибавьте 15-25 ватт к оптимальному значению Power Limit, это и будет ваш оптимальный лимит мощности для самых выгодных вычислений.
Физика процесса — почему так происходит?
Резисторы: чем горячее, тем выше сопротивление
Для обычных проводников (а внутри карты полно металлических дорожек и резисторов) сопротивление растёт с температурой:
Из-за тепловых колебаний решётки проводников электроны чаще рассеиваются. Чтобы через них шёл такой же ток нужно поднимать напряжение. Можно сравнить это с задачей пробежать через разреженную толпу стоящих людей и двигающихся людей. В последнем случае будет явно сложнее. Но это совсем не главная причина, влияющая на снижение энергоэффективности.
Транзисторы: с нагревом напряжение переключения падает, но токи утечки растут
У кремниевых транзисторов пороговое напряжение имеет отрицательный температурный коэффициент. Нагретый транзистор открывается при меньшем напряжении. Казалось бы — плюс? Но проблема в другом:
-
Экспоненциальный рост токов утечки. Закрытый транзистор начинает больше подтекать.
-
Тепловой разгон. Утечки греют ещё сильнее → ещё больше утечек.
Поэтому оптимальный режим — не самый холодный и не самый горячий, а тот, где баланс между частотой, напряжением и стабильностью максимален.
Формула энергопотребления CMOS-чипа
-
— частота,
— напряжение.
-
Напряжение в квадрате — ключевая нелинейность. Поднимая частоту на 10%, мы часто вынуждены поднимать напряжение на 5-10%, а потребление растёт на
.
В итоге:
-
Нижний край (100–125 Вт): частота падает катастрофически, фиксированные затраты
и питание контроллеров «размазываются» на долгое время → много джоулей.
-
Верхний край (225–250 Вт): каждый лишний мегагерц требует экспоненциально больше ватт → эффективность падает.
-
Середина (175–200 Вт): оптимальная точка, где напряжение ещё не взлетело, а частота уже достаточна.
Фиксируем частоту ядра
Если выставить только Power Limit (например, 200 Вт), алгоритм GPU Boost начинает прыгать: он видит свободный бюджет и пытается поднять частоту. Потребление резко скачет, драйвер врезает лимит, частота падает — и так по кругу. В результате:
-
Частота постоянно плавает (пила).
-
Напряжение скачет, теряя энергию на переключениях.
-
Реальная производительность нестабильна.
Решение — зафиксировать частоту командой nvidia-smi -lgc 1530,1530 (для NVIDIA).
AMD — аналогично через amd-smi.
Проверяем, что частоты не скачут и потребляемую мощность через команду:
nvidia-smi --query-gpu=clocks.current.graphics,power.limit,power.draw --format=csv -l 1
При залоченной частоте:
-
Карта сама подбирает минимальное стабильное напряжение по кривой V/F.
-
Потребление становится ровным, без пиков.
-
Эффективность оказывается даже выше расчётной.
💡 Любопытный инсайд про «простой» vs «нагрузку»
Оказывается, разница между просто включённой картой и картой под нагрузкой (при оптимальном PL) может быть гораздо меньше, чем сам Power Limit.
В моём случае:
-
Карта в простое: 80 Вт по ваттметру, или 90W по
nvidia-smi. -
Карта под нагрузкой при PL=200 Вт: реально берёт 200 Вт (из блока питания).
-
Но если замерить по ваттметру прирост при запуске задачи — он оказался всего +120 Вт.
Почему? Потому что даже в простое карта потребляет существенно (токи утечки гигантского чипа, питание шины, память, контроллеры и цепи питания). Когда мы даём нагрузку, прирост потребления иногда оказывается несущественный.
Вывод: если ваша карта всё равно торчит в компе и не выключается, то использование её для фоновых вычислений (например, сдача в аренду через vast.ai, clore.ai, salad) может быть гораздо выгоднее, чем кажется на первый взгляд. Разница между «просто висит» и «считает» — всего 100-150 Вт. Посчитайте расценки на сдачу карт, стоимость ЭЭ и оцените.
Undervolting
Как легко догадаться — снижение напряжения — наш хороший друг. Но при этом падает стабильность, да и сделать это труднее. Под Linux, например, нет удобного способа это сделать. К счастью, nvidia-smi делает это за нас, когда мы зажимаем Power Limit. Так что оставим андервольтинг для самых откровенных гиков, у которых есть время тестировать стабильность видеокарт под каждым напряжением и частотой. Впрочем, если у кого-то есть хорошие результаты по андервольтингу — добро пожаловать в комментарии.
Итоговая инструкция (для Linux, но на Windows аналогично)
-
Прогрейте карту под нагрузкой 20 минут.
-
Снимите зависимость время/PL от максимума до минимума (шаг 25 Вт) командой
nvidia-smi -pl лимит_мощности. -
Рассчитайте энергию (Дж = с × Вт) для каждого шага.
-
Найдите точку минимума Джоулей — это ваш оптимальный Power Limit.
-
Посмотрите минимальную частоту в мониторинге при оптимальном PL. Команда
nvidia-smi --query-gpu=clocks.current.graphics,power.limit,power.draw --format=csv -l 1. -
Зафиксируйте частоту на том значении, которое было в оптимальной точке (частоты и мощность — ваши):
sudo nvidia-smi -pl 200 sudo nvidia-smi -lgc 1530,1530 -
Внесите установку значений в стартап-скрипт или вашу GUI-программу контроля мощности (Windows).
-
Проверьте стабильность (прогоните ту же задачу несколько часов).
-
Посчитайте окупаемость — иногда выгоднее сдавать карту в аренду, чем держать без дела.
Сброс параметров на дефолтные:
sudo nvidia-smi -pl 250 # У вашей карты может быть другой
sudo nvidia-smi -rgc # Сброс частоты
Заключение
Школьная формула оказалась удивительно полезной. Это реальный инструмент, который помогает экономить тысячи рублей в месяц, если вы эксплуатируете видеокарты 24/7.
Главные уроки:
-
Не зажимайте Power Limit слишком низко — рискуете потерять производительность и в итоге потратить больше энергии.
-
Не гонитесь за максимальными частотами — закон квадрата напряжения не обманешь.
-
Фиксируйте частоту ядра — это даёт дополнительный прирост эффективности.
-
Увеличение потребления под нагрузкой может быть незначительным — при оптимальном PL разница между «включено, но не работает» и «работает эффективно» может быть всего ~100 Вт.
И помните: самая выгодная трата электроэнергии — та, за которую вы получили максимум полезной работы.
Удачной оптимизации и низких счетов! ⚡
© 2026 ООО «МТ ФИНАНС»
Автор: inetstar
