Охлаждение в ЦОД: всегда ли «холоднее» значит «лучше»?

Автор  Роман Хмелевский, ProITClub.ru, для журнала «Суперкомпьютеры»

Традиционно владельцы и арендаторы ЦОД руководствуются правилом «чем холоднее – тем для электроники лучше». Принято считать, что каждый лишний градус свыше хотя бы 21 семимильными шагами приближает смерть компонентов серверного оборудования от перегрева. Зачастую это считается настолько само собой разумеющимся, что даже не обсуждается.

Опрос, проведенный одним из ведущих производителей систем охлаждения и кондиционирования для центров обработки данных (ЦОД), компанией Liebert, показал, что 66% опрошенных поддерживают в основных помещениях температуру не выше 21°C, и ни один – не выше 24°C.  При этом рекомендации ASHRAE (American Society of Heating, Refrigerating and Air-Conditioning Engineers), пересмотренные в прошлом году, определяют верхний лимит рабочего диапазона вплоть до 27°C на входе в сервер. Однако современный тренд на «Green IT», или на энергосберегающие технологии в ЦОД, не мог пройти мимо вопроса действительных потребностей серверного оборудования в оптимальной рабочей температуре. Результаты углубленного исследования вопроса могут показаться довольно-таки неожиданными. Все говорит о том, что нынешняя ситуация с температурой в серверных и ЦОД, стабильно ниже 22 градусов, не является оптимальной ни с точки зрения эксплуатации оборудования, ни с точки зрения ресурса работы компонентов, а опасность влияния высоких температур сильно переоценена. Так, статья в The Register вышла под броским заголовком «Intel says data centers much too cold – Frozen assets a waste of cash» – «Intel утверждает, что центры обработки данных слишком холодные – замороженные активы бесцельно тратят средства». Традиционную для отрасли переоценку опасности высоких температур для IT-оборудования подтверждает, например, недавнее исследование Intel, в котором 896 идентичных блейд-серверов были разделены поровну на «контрольную» и «испытуемую» группы (8 шкафов, по 4 блейд-шасси в каждом, по 14 блейд-серверов в каждом шасси, всего 448 в каждом сайте). «Контрольную» охлаждали традиционным образом с помощью кондиционера замкнутого цикла, а охлаждение испытуемой производилось обычным «забортным» воздухом, по «открытой» схеме, с минимальной его очисткой от пыли и без контроля влажности. Целью исследования было доказать возможность построения экономичных ЦОД и снизить затраты на охлаждение. Как известно, в затратах современного ЦОД доля оплаты электроэнергии весьма значительна.  Затраты же на питание кондиционеров могут составлять от четверти до половины в общем расходе электроэнергии. По вертикали – киловатты, по горизонтали – дни декабря. На дворе зима, и затраты на охлаждение, по-видимому, минимальны. График не относится к испытанию Intel и приведен лишь в качестве иллюстрации типового соотношения в энергопотреблении ЦОД. В случае эксперимента Intel, несмотря на колебания температуры в таком «некондиционированном» ЦОД, временами поднимавшейся до 32 градусов, уровень отказов, по сравнению с нормальным уровнем отказов в «обычных» ЦОД Intel, отличался чуть более чем в полпроцента (4,46% против 3,83% среднего значения отказов оборудования по всем «традиционным» ЦОД Intel). Еще более интересная ситуация складывается с зависимостью отказов от температуры для жестких дисков. Так, например, в 2007 году опубликован отчет инженеров Google, которые занимались исследованием частоты и причин отказов жестких дисков в серверных центрах своей компании (были обработаны данные около 100 тысяч дисков, и исследование продолжалось около девяти месяцев). Один из любопытных результатов того исследования косвенно подтверждает рекомендацию ASHRAE относительно температурного режима в центрах обработки данных. Так, по наблюдениям исследователей Google, вероятность отказов жестких дисков резко росла при понижении их температуры ниже 30 градусов, причем самая низкая вероятность отказов для наблюдаемой группы дисков соответствовала температуре в целых 40°C! При 40°С рабочей температуры (все измерения проводились с помощью датчиков SMART) вероятность отказа не превышала 1% AFR (Annual Failure Rate, ежегодного количества отказов), повышение до 50°C увеличивало AFR вдвое, до 2%. А вот понижение температуры до 20°C парадоксальным образом увеличивало вероятность отказов почти вдесятеро, до 10% AFR! Заметное повышение количества отказов при повышенной (значительно!) температуре было замечено только у дисков старше трех лет. Однако серверное оборудование состоит не только из жестких дисков. Как отреагируют на повышенные температуры эксплуатации другие компоненты? Ответ на это дает следующее исследование той же группы, опубликованное в 2009 году. Работа под названием «DRAM Errors in the Wild: A Large-Scale Field Study» исследовала сбои в серверной памяти (ECC-типа) на протяжении двух с половиной лет, и среди прочего анализировались разнообразные зависимости этих отказов, в том числе и зависимость от температуры.
 
Так, в частности, в работе говорится: «Мы обнаружили, что температура, считавшаяся наиболее сильным фактором, влияющим на количество ошибок в DIMM в лабораторных условиях, имела неожиданно малое влияние на количество ошибок в практической работе оборудования, когда были приняты в расчет все прочие факторы». На левом графике приводится зависимость величин ошибок в серверной DRAM от температуры для высокой и низкой загрузки CPU операциями, справа – для высокой и низкой заполненности памяти. Как видно из приведенных графиков (больше данных можно найти в оригинале статьи), влияние температуры на величину ошибок (monthly CE (corrected error) rate) значительно менее выражено по сравнению с другими факторами, такими как нагрузка на DRAM операциями ввода-вывода и степенью заполненности памяти данными. Также явственно видно, что практический минимум ошибок соответствует температуре несколько выше (4-5 градусов) минимально используемой. Обратите внимание, что исследователи оперировали параметром «нормализованная температура», при этом по оси X графиков указывалась не абсолютная величина, а приведенная к нормали, то есть величина X на графиках означала температуру на X градусов выше минимальной температуры, зарегистрированной для каждой группы исследуемых серверов. Вполне возможно, что подход «чем холоднее – тем лучше» себя изжил. Этот парадоксальный на первый взгляд вывод подтверждают и некоторые статистические результаты, говорящие о том, что, возможно, мы недооцениваем «эластичность» температурного режима современного оборудования и способность его переносить «повышенные» (на наш взгляд) рабочие температуры. Кроме того, каждый градус, на который удастся поднять температуру в центре обработки данных, есть прямая экономия в счетах на электричество.

Источник - сайт supercomputers.ru