- PVSM.RU - https://www.pvsm.ru -

Системы ИИ оптимизируют охлаждение ЦОД

Год назад мировые дата-центры потребляли [1] 2% всей генерируемой на планете электроэнергии. По прогнозам аналитиков, эта цифра вырастет до 5% к 2020 году. При этом примерно половина всей этой энергии расходуется [2] на охлаждение. Эти затраты и призваны сократить системы ИИ.

Сегодня поговорим о последних разработках в этой области.

Системы ИИ оптимизируют охлаждение ЦОД - 1 [3]
/ фото The National Archives (UK) [4] CC [5]

Проект Google

В 2016 году DeepMind и Google разработали систему [6] искусственного интеллекта, которая мониторила отдельные компоненты ЦОД. Она давала администраторам в дата-центре рекомендации о том, как оптимизировать энергопотребление серверов. Решение позволило сократить энергозатраты на работу систем охлаждения на 40% и снизить коэффициент PUE [7] на 15%.

По словам операторов ЦОД, подсказки машинных алгоритмов были полезны в работе, но на их обработку уходило слишком много времени. Поэтому Дэн Фюнффингер (Dan Fuenffinger), один из инженеров Google, предложил [8] полностью передать интеллектуальным решениям управление системами кондиционирования. Это должно было разгрузить операторов дата-центра, так как тем пришлось бы проводить только тонкую настройку и контролировать весь процесс.

Последующие два года компания совершенствовала свою систему ИИ, и теперь она полноценно управляет [9] охлаждением серверных залов. Например, машинный алгоритм «догадался», что зимой холодный воздух сильнее охлаждает воду в чиллерах, и воспользовался этим, чтобы оптимизировать расход электроэнергии. Это сократило [10] энергозатраты еще на 30%.

В Google считают, что их разработка и ее аналоги в дальнейшем помогут владельцам ЦОД снизить расходы на системы охлаждения как минимум в два раза и снизить выбросы CO2 в атмосферу.

Как это работает

Всю систему охлаждения в дата-центре компании мониторят тысячи физических датчиков. Данные с них поступают на вход системы ИИ, развернутой в облаке. Это нейросеть из пяти скрытых слоев с 50 нейронами в каждом.

Она работает [11] с 19 различными параметрами, среди которых числится общая нагрузка на серверы, количество работающих водяных помп, влажность воздуха на улице и даже скорость ветра. Каждые пять минут система считывает показания датчиков (это приблизительно 184 тыс. сэмплов — для обучения сети нужны были 70% из них, а оставшиеся 30% использовали для перекрёстной проверки [12]) и использует их для оптимизации значения PUE.

Она строит список прогнозов, как то или иное изменение в системе повлияет на энергопотребление дата-центра и температуру в машинном зале. Например, изменение температуры «холодного» коридора может вызвать колебания нагрузки на чиллеры, теплообменники и помпы, что, как результат, приведет к нелинейным изменениям в производительности оборудования.

Из составленного списка выбираются наиболее эффективные действия, которые сильнее других снизят энергопотребление и не приведут к сбоям в работе ЦОД. Далее, эти инструкции направляются обратно в дата-центр, где локальная система управления еще раз проверяет, соответствуют ли они требованиям безопасности (и их реализация не приведет к непоправимым последствиям).

Поскольку на системы ИИ переложили часть ответственности за бесперебойную работу сервисов вроде Google Search, Gmail и YouTube, разработчики предусмотрели ряд защитных мер. Среди них числятся алгоритмы расчета показателя неопределенности. Для каждого из миллиардов возможных действий система ИИ проводит оценку достоверности и сразу отсеивает те из них, у которых этот показатель получился низким (то есть с высокой вероятностью сбоя).

Другим методом защиты стала двухуровневая верификация. Оптимальные действия, рассчитанные алгоритмами МО, сравниваются с набором политик безопасности, прописанным операторами ЦОД. Только если все в порядке, в работу систем кондиционирования вносятся изменения.

При этом операторы всегда готовы отключить «автоматический» режим и взять управление на себя.

Похожие разработки

Компания Google не единственная, кто разрабатывает решения на базе машинного обучения для управления системами охлаждения в ЦОД. Например, компания Litbit работает над технологией Dac для мониторинга потребляемых вычислительных ресурсов и электроэнергии.

Системы ИИ оптимизируют охлаждение ЦОД - 2
/ фото reynermedia [13] CC [14]

Чтобы следить за состоянием оборудования Dac использует [15] IoT-сенсоры. Система может «слышать» ультразвуковые частоты и «ощущать» аномальные вибрации пола. Анализируя эти данные, Dac определяет, все ли оборудование работает правильно. В случае возникновения неполадок, система оповещает администраторов, формирует тикет в техподдержку и даже самостоятельно отключает «железо» (в критической ситуации).

Похожее решение создает Nlyte Software, которая объединилась [16] с IoT-командой IBM Watson. Их система собирает данные о температуре, влажности, потреблении электричества, загруженности оборудования в дата-центре и дает инженерам советы по оптимизации рабочих процессов. Решение работает как с облачной, так и on-premise инфраструктурой.

Внедрение систем ИИ в дата-центрах позволит [17] выйти за рамки привычных DCIM-решений [18] (программных продуктов для мониторинга ЦОД). Среди экспертов ИТ-индустрии есть мнение, что в скором времени большинство процессов, протекающих в ЦОД, будет автоматизировано. В результате администраторы в дата-центрах смогут сконцентрироваться на других, более важных задачах, влияющих на рост и развитие компаний.


P.S. Материалы по теме из Первого блога о корпоративном IaaS:

Автор: it_man

Источник [22]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/ii/290204

Ссылки в тексте:

[1] потребляли: https://www.datacenterknowledge.com/industry-perspectives/achieving-data-center-energy-efficiency

[2] расходуется: https://www.grandviewresearch.com/industry-analysis/data-center-cooling-market

[3] Image: https://habr.com/company/it-grad/blog/420959/

[4] The National Archives (UK): https://commons.wikimedia.org/wiki/File:A_view_of_the_server_room_at_The_National_Archives.jpg

[5] CC: https://creativecommons.org/licenses/by-sa/3.0/

[6] разработали систему: https://deepmind.com/blog/deepmind-ai-reduces-google-data-centre-cooling-bill-40/

[7] PUE: https://en.wikipedia.org/wiki/Power_usage_effectiveness

[8] предложил: https://deepmind.com/blog/safety-first-ai-autonomous-data-centre-cooling-and-industrial-control/

[9] управляет: https://siliconangle.com/2018/08/17/google-built-ai-help-keep-data-centers-cool-efficient/

[10] сократило: https://www.blog.google/inside-google/infrastructure/safety-first-ai-autonomous-data-center-cooling-and-industrial-control/

[11] работает: https://static.googleusercontent.com/media/research.google.com/ru/pubs/archive/42542.pdf

[12] перекрёстной проверки: https://ru.wikipedia.org/wiki/%D0%9F%D0%B5%D1%80%D0%B5%D0%BA%D1%80%D1%91%D1%81%D1%82%D0%BD%D0%B0%D1%8F_%D0%BF%D1%80%D0%BE%D0%B2%D0%B5%D1%80%D0%BA%D0%B0

[13] reynermedia: https://www.flickr.com/photos/89228431@N06/11285592553/

[14] CC: https://creativecommons.org/licenses/by/2.0/

[15] использует: https://www.datacenterknowledge.com/machine-learning/litbits-ai-data-center-operator-keep-ear-roots-montreal-facility

[16] объединилась: https://www.datacenterknowledge.com/machine-learning/ibm-watson-crunch-nlyte-dcim-data-optimize-data-center-operations

[17] позволит: https://www.colocationamerica.com/blog/data-center-artificial-intelligence

[18] DCIM-решений: https://en.wikipedia.org/wiki/Data_center#Data_center_infrastructure_management

[19] Почему хороший IaaS-провайдер не должен иметь собственный ЦОД: http://iaas-blog.it-grad.ru/tendencii/pochemu-xoroshij-iaas-provajder-ne-dolzhen-imet-sobstvennyj-cod/

[20] Как разместить ИТ-инфраструктуру в облаке IaaS-провайдера и не пожалеть об этом: https://iaas-blog.it-grad.ru/blog/onlajn-uslugi-dlya-b2cb2b-iz-oblaka/

[21] Наш unboxing: блейд-сервер Cisco UCS B480 M5: http://iaas-blog.it-grad.ru/zhelezo/unboxing-blejd-servera-cisco-ucs-b480-m5/

[22] Источник: https://habr.com/post/420959/?utm_campaign=420959