Confinamento de Corredores em Data Centers

Introdução ao confinamento

Em meu artigo anterior, mostrei a importância de uma boa gestão do fluxo de ar na refrigeração dos computadores de um data center. É uma boa ideia ler aquele artigo antes deste, pois lá explico os três principais problemas na gestão do fluxo de ar: ar frio desviado, recirculação do ar quente e pressão negativa. Neste artigo, vamos rever esses problemas e apresentar as soluções de confinamento de corredores, que complementam as práticas mostradas no artigo citado. Depois, leia meu artigo mais recente sobre o assunto.

Vamos recordar esses principais problemas com a seguinte figura:

Problemas na gestão do fluxo de ar em data centers

É necessário evitarmos esses problemas com medidas tais como:

  • Fechar as posições de rack não utilizadas com tampas cegas
  • Não deixar espaços entre os racks da fileira
  • Selar as passagens de dutos e cabos que atravessam o pleno de fornecimento de ar frio (geralmente, o piso elevado)
  • Não colocar saídas de ar frio em locais que não sejam os corredores frios

Mesmo com todas essas medidas, ainda há locais por onde o ar frio ou o ar quente consegue escapar de seu corredor e acaba ocorrendo a mistura indesejada do ar quente com o frio: pelo topo e pelo final dos corredores, onde indicado pelas setas amarelas na figura abaixo.

É aí que entra a solução do “confinamento de corredores”, visando fechar esses dois locais (topo e final de corredores), evitando a mistura do ar quente com o frio. Podemos confinar o corredor quente ou o frio, usando anteparos sobre os racks e portas ao final dos corredores.

Confinamento do corredor frio

Ao confinar o corredor frio, evitamos que o ar resfriado fornecido pelo CRAC se desvie por qualquer outro lugar. A única maneira de ele retornar ao CRAC é passando através dos computadores instalados nos racks. É claro que precisamos fechar quaisquer outros potenciais “buracos” por onde o ar poderia sair.

Confinamento do corredor frio

Principais características dessa solução:

  • Menos volume de ar frio
  • O resto da sala é quente, o que poderia ser um problema para a instalação de equipamentos “stand alone” (fora de rack ou “de piso”), pois poderiam sobreaquecer
  • Maior uniformidade na temperatura do corredor frio
  • É mais fácil de ser aplicada quando os racks são padronizados

Cuidado para não pressurizar demais o corredor frio, senão o ar acaba se “desviando” por dentro dos computadores, ou seja, passa através deles mesmo não havendo muita necessidade.

Confinamento do corredor quente

Nesta solução, evitamos que o ar quente retorne aos computadores criando um “duto” entre o corredor quente e o retorno do CRAC. Esse retorno pode ser dutado ou através do plenum formado pelo forro. Na figura abaixo, o suprimento de ar frio não precisaria ser feito por sob o piso elevado, poderia também ser feito pelo ambiente.

Confinamento do corredor quente

Principais características dessa solução:

  • Maior volume de ar frio (o restante da sala)
  • O resto da sala é fria, permitindo a instalação de equipamentos “stand alone” sem problema de superaquecimento
  • O corredor quente fica muito quente, potencialmente levando a problemas de saúde ocupacional se alguém precisasse ficar muito tempo ali, pois esse corredor pode facilmente passar dos 40 °C
  • É mais fácil de ser aplicada quando os racks são padronizados

Rack chaminé

Esta é uma outra forma de confinamento do corredor quente, só que sem a criação do corredor quente em si. Cada rack confina seu próprio ar quente, possuindo portas traseiras seladas e uma chaminé que permite o retorno do ar quente ao CRAC através de dutos ou do plenum superior.

Rack chaminé

Principais características dessa solução:

  • Não tem corredor quente, evitando problemas de salubridade para quem precisar ficar atrás dos racks por muito tempo
  • O resto da sala é fria
  • Layout mais flexível, não necessitando a criação de corredores paralelos
  • Exige racks apropriados para tal solução, mas não precisam ser todos iguais

Conclusão

Existem diversas alternativas para a implementação do confinamento de corredores. Cada uma delas tem suas características, vantagens e desvantagens. De qualquer forma, implantar o confinamento é melhor do que não fazê-lo, qualquer que seja a solução adotada. Só não podemos descuidar dos demais pontos de atenção com relação à gestão do fluxo de ar, como detalhados no artigo citado no início deste.

Para saber mais, assista meu vídeo sobre confinamento de corredores:

Se achou este post útil, compartilhe, encaminhe a alguém que também possa achá-lo útil. Não deixe de se inscrever em meu canal do YouTube! Participe de meu grupo do Whatsapp e receba as novidades sobre meus artigos, vídeos e cursos. E curta minha página no Facebook!

Até a próxima!

Marcelo Barboza, RCDD, DCDC, ATS, DCS Design, Assessor CEEDA
Clarity Treinamentos
marcelo@claritytreinamentos.com.br

Sobre o autor
Marcelo Barboza, instrutor da área de cabeamento estruturado desde 2001, formado pelo Mackenzie, possui mais de 30 anos de experiência em TI, membro da BICSI e da comissão de estudos sobre cabeamento estruturado da ABNT/COBEI, certificado pela BICSI (RCDD e DCDC), Uptime Institute (ATS) e DCPro (Data Center Specialist – Design). Instrutor autorizado para cursos selecionados da DCProfessional, Fluke Networks, Panduit e Clarity Treinamentos. Assessor para o selo de eficiência para data centers – CEEDA.

Fluxo do Ar de Refrigeração em Data Centers

Introdução

Um data center é um ambiente de missão crítica bastante complexo, e que apresenta diversas particularidades. Neste artigo, trataremos sobre um problema bastante específico a esse tipo de ambiente: fluxo de ar para a refrigeração dos equipamentos de TI.

Todo equipamento de TI (como servidores, dispositivos de armazenamento e de comunicação), que tratarei neste artigo simplesmente por “computador”, precisa ser refrigerado, pois durante sua operação ele esquenta. Se não removermos o excesso de calor, o computador pode falhar ou desligar automaticamente, causando prejuízos aos serviços prestados pelo data center.

Para a refrigeração dos computadores, os data centers contam com máquinas de ar-condicionado de diferentes tecnologias e capacidades. Não vamos entrar em detalhes, aqui, sobre as máquinas de ar-condicionado (CRAC – Computer Room Air Conditioner). Vamos, sim, explorar alguns problemas que acontecem entre o ar-condicionado e os computadores. Pois há um fluxo de ar entre esses dois tipos de máquinas: o ar frio fornecido pelo CRAC e que deve ser captado pelo computador; e o ar aquecido pelo computador, que deve retornar ao CRAC para ser resfriado novamente.

Idealmente, é um ciclo fechado, como podemos ver na figura abaixo:

Mas o mundo real está longe da perfeição, e há alguns problemas que afetam esse fluxo, afetando, consequentemente, a eficiência do sistema de refrigeração e, por conseguinte, aumentando seu custo, já que levará a um aumento no consumo de energia por parte dos CRACs.

Podemos dividir esses em três diferentes tipos:

  1. Ar frio desviado
  2. Recirculação do ar quente
  3. Pressão negativa

Ar frio desviado

Neste caso, nem todo o ar resfriado pelo CRAC chega até os computadores. Parte dele se desvia de seu destino e acaba se misturando com o ar quente que retorna ao CRAC, como podemos ver no diagrama abaixo:

Quando isso acontece, menos ar resfriado chega aos computadores, além de diminuir a temperatura do ar que retorna ao CRAC. Uma das consequências é o aumento da temperatura dos computadores, já que não chega ar suficiente para resfriá-los. Para compensar isto, precisamos aumentar a potência das ventoinhas do CRAC, aumentando também seu consumo elétrico.

Outra consequência é a diminuição da temperatura do ar de retorno ao CARC. Como o ar desviado se mistura a esse retorno, sua temperatura acaba ficando inferior àquela do ar que sai dos computadores. Isso diminui a eficiência do CRAC e “engana” o sistema, pois, como o ar chega mais frio, “achamos” que está tudo bem quando, na verdade, poderia até estar ocorrendo algum “hot spot” no data center e nem ficamos sabendo!

O ar frio é desviado quando o fornecemos em locais onde os computadores não poderão captá-lo. Por exemplo, quando colocamos placas de piso perfuradas em locais que não o “corredor frio”, quando deixamos abertos os furos de passagem de cabos atrás dos racks, ou quando o piso elevado não está bem alinhado. Também pode ocorrer quando o ar frio escapa por cima ou pelas laterais do corredor frio sem ser captado pelos computadores.

Piso desalinhado

Furo para passagem de cabos por onde o ar é desviado
Solução para fechamento do furo para passagem de cabos

Este vídeo explica com mais detalhes o ar desviado:

Recirculação do ar quente

Idealmente, todo o ar quente que sai dos computadores deveria retornar ao CRAC. Mas isso nem sempre acontece, e parte dele acaba recirculando pelo próprio computador, entrando novamente por sua captação de ar frio. Consequentemente, a temperatura do ar que entra pelo computador acaba aumentando, o que pode provocar sobreaquecimento, levando a desligamento, diminuição de vida útil e falhas. Isso nos obriga a aumentar a potência de resfriamento do CRAC, aumentando também seu consumo elétrico.

Esse ar quente pode retornar para os próprios computadores por dentro, por cima ou pelas laterais dos racks. Para evitar isso, deve haver uma separação total entre o lado de trás do rack (corredor quente) e o lado da frente (corredor frio). E deve-se atentar para não instalar no rack equipamentos que tenham seu fluxo de ar divergente desse padrão.

Uma boa ideia é sempre instalar placas cegas nas posições não usadas dos racks, e não deixar aberturas entre eles.

Exemplo de tampa cega entre posições ocupadas

Aqui e aqui você pode comprar online tampas cegas para seu rack para evitar a recirculação do ar quente.

Este vídeo explica com mais detalhes a recirculação do ar quente:

Pressão negativa

Abaixo do piso elevado, nas proximidades do CRAC downflow, o ar por ele fornecido ainda está com muita velocidade. E ar em velocidade possui menos pressão que ar parado. E, como sabemos, o ar flui de onde tem mais pressão para onde tem menos. Se colocarmos uma placa de piso perfurada muito perto (a menos de 1,8 m) do CRAC, o ar do ambiente será sugado para baixo do piso, pois ali haverá uma “pressão negativa” (menos pressão abaixo do piso do que acima).

Ao ser sugado, o ar ambiente (mais quente) “contaminará” o ar recém resfriado fornecido pelo CRAC, aumentando sua temperatura. Os efeitos serão semelhantes aos do ar quente recirculado: aumento da temperatura do ar fornecido aos computadores. Para compensar, precisamos “esfriar” ainda mais a sala, gastando mais energia.

O ideal é nunca posicionar as placas de piso perfuradas muito perto dos CRACs. Converse com o projetista do sistema de climatização para ver a distância mínima recomendada.

Este vídeo explica um pouco mais sobre a pressão negativa:

Conclusão

Refrigerar o data center e manter a temperatura dos computadores na faixa ideal é muito mais do que simplesmente ter os CRACs corretamente dimensionados, instalados e operacionais. O fluxo de ar é parte integrante do sistema de climatização do data center, e há muitos detalhes que devem ser observados para que os objetivos do sistema sejam alcançados.

Em outro artigo, falo sobre o confinamento dos corredores do data center, que é uma solução que visa melhorar ainda mais o fluxo de ar entre os CRACs e os computadores. Assista ao vídeo a seguir, sobre confinamento de corredores do data center:

Se achou este post útil, compartilhe, encaminhe a alguém que também possa achá-lo útil. Não deixe de se inscrever em meu canal do YouTube! Participe de meu grupo do Whatsapp e receba as novidades sobre meus artigos, vídeos e cursos. E curta minha página no Facebook!

Até a próxima!

Marcelo Barboza, RCDD, DCDC, ATS, DCS Design, Assessor CEEDA
Clarity Treinamentos
marcelo@claritytreinamentos.com.br

Sobre o autor
Marcelo Barboza, instrutor da área de cabeamento estruturado desde 2001, formado pelo Mackenzie, possui mais de 30 anos de experiência em TI, membro da BICSI e da comissão de estudos sobre cabeamento estruturado da ABNT/COBEI, certificado pela BICSI (RCDD e DCDC), Uptime Institute (ATS) e DCPro (Data Center Specialist – Design). Instrutor autorizado para cursos selecionados da DCProfessional, Fluke Networks, Panduit e Clarity Treinamentos. Assessor para o selo de eficiência para data centers – CEEDA.

A medição do PUE de um data center

No artigo publicado em 16 de maio de 2018, em meu blog (https://www.claritytreinamentos.com.br/2018/05/16/pue-uma-metrica-de-eficiencia-do-data-center/), expliquei o conceito da métrica PUE, cobrindo sua definição, princípio de cálculo e principais finalidades. Aqui, vou elaborar mais sobre o tema, explorando detalhes sobre sua medição e cálculo.

Este meu vídeo também explica os conceito básicos da medição do PUE:

Conceitos básicos do PUE

Como vimos, o PUE mostra o overhead de energia gasto em relação aos sistemas de TI. Esse overhead representa a energia gasta nos sistemas que auxiliam na contínua operação dos sistemas críticos de TI, incluindo, mas não necessariamente se limitando a:

  • Energia gasta na refrigeração/ventilação dos equipamentos de TI e dos equipamentos necessários ao seu funcionamento, incluindo bombas, chillers, ventoinhas, torres de resfriamento, fancoils, evaporadoras e condensadoras
  • Perdas elétricas nos equipamentos, cabos e conexões da distribuição elétrica (ex.: UPS, quadros elétricos, transformadores, geradores etc.)
  • Alimentação elétrica de sistemas auxiliares necessários, como alarmes de incêndio, controle de acesso e automação
  • Iluminação das salas que compõem o data center

Ao computar a energia gasta pelos sistemas de TI, deve-se considerar, para além de servidores, armazenamento e comunicações (switches e roteadores), todo o equipamento de TI suplementar, como monitores, chaveadores KVM, estações de monitoramento etc., desde que necessários à operação dos serviços críticos.

Então, um data center com PUE 1,60 significa que 60% de toda a energia por ele consumida é gasta por esses sistemas acima listados como overhead. Obviamente, quanto mais perto de 1,00, mais eficiente esses sistemas serão ao atenderem as necessidades de TI.

Mas, onde medir o consumo de TI e qual a unidade utilizada? A primeira edição do PUE descrevia somente uma relação entre picos de demanda. Ou seja, durante um período de avaliação (por exemplo, durante um mês), é anotado o pico de demanda total do data center (DEM_TOT) e o pico de demanda dos equipamentos de TI (DEM_TI), ambos medidos em kW. O PUE seria então DEM_TOT/DEM_TI. Exemplo: pico de demanda do data center durante um ano = 500 kW, pico de demanda de TI durante esse ano = 300 kW; PUE = 500/300 = 1,67.

Posteriormente, foi lançada a segunda versão do PUE, em três níveis, 1, 2 e 3. Esse novo PUE (versão 2) prefere que o cálculo seja feito com dados de consumo, em kWh, e não de demanda, como anteriormente. Então, durante o período de avaliação, é medido o consumo elétrico total do data center (CONS_TOT) e o dos equipamentos de TI (CONS_TI). O PUE é agora CONS_TOT/CONS_TI. Exemplo: consumo elétrico total do data center durante um ano = 4.500.000 kWh, consumo elétrico de TI durante esse ano = 2.600.000 kWh; PUE = 4.500.000/2.600.000 = 1,73. Esta maneira é superior à anterior, pois utiliza o consumo total, que já contabiliza todos os picos, vales e sazonalidades ocorridas durante o período.

Os três níveis do PUE versão 2 se referem ao local onde deve ser medido o consumo de TI, bem como periodicidade mínima da medição (se usada a demanda pontual):

  • PUE1: nível 1; medição na saída do UPS; se medido como demanda (kW), a periodicidade deve ser mensal ou semanal
  • PUE2: nível 2; medição na saída do PDU; se medido como demanda (kW), a periodicidade deve ser diária ou horária
  • PUE3: nível 3; medição na tomada elétrica dos equipamentos de TI (nos racks); se medido como demanda (kW), a periodicidade deve ser de 15 minutos ou menos

Atualmente, o PUE também é definido na norma ISO/IEC 30134-2 – Power usage effectiveness (PUE).

A medição do consumo total deve ser sempre realizada na entrada do data center. Deve-se deduzir daí toda energia utilizada para outros sistemas não relacionados ao data center, se existirem.

Quanto mais perto da carga de TI for a medição, ou seja, quanto maior o nível do PUE, mais precisa será a métrica ao identificar as perdas decorrentes do overhead das instalações.

Quando a medição for realizada por consumo (kWh), é importante manter o cálculo do PUE trimestral de cada estação climática do ano, bem como o anual, de forma a ressaltar (trimestral) e a nivelar (anual) os efeitos da temperatura externa no PUE.

Como curiosidade, e a nível de ilustração, podemos consultar o PUE dos data centers da Google aqui: https://www.google.com/about/datacenters/efficiency/internal/. Ali podemos ver o gráfico dos cálculos anuais e trimestrais do PUE.

O PUE1 e o PUE2 até admitem ter suas medições de consumo realizadas de forma manual, em rondas periódicas. É relativamente fácil obter dados de consumo de TI para o PUE1, pois todos os UPS já vêm com recursos para informar os dados de fornecimento de energia. Para o PUE2, é necessária a instalação de medidores nos quadros principais de distribuição de energia ininterrupta para o data center (PDU).

O PUE3, por sua granularidade (medição em cada rack de TI), deve necessariamente ser medido de forma automática. Isso não deve ser um problema, pois para o PUE3 é necessária a utilização de “PDU inteligente de rack” em todos os racks, os quais já são naturalmente dotados de capacidade remota de monitoramento, via SNMP ou equivalente. Porém, isso torna a instalação mais cara, portanto não é uma solução viável para muitos data centers.

Se o data center adquirir outros recursos utilizados para alimentação elétrica ou refrigeração, como diesel ou gás (para geração local regular), ou água potável (para refrigeração), a energia embutida em tais insumos também deve ser contabilizada na energia total consumida pelo data center. A norma do PUE inclui fatores para a conversão dessa energia embutida em energia a ser contabilizada pelo PUE.

O PUE, em princípio, não deve ser utilizado para comparar instalações diferentes, a não ser que a metodologia de todos os locais seja compatibilizada. O PUE é bastante útil para servir de base para o próprio data center medir sua evolução com o tempo e após alterações significativas da instalação.

Mas, atenção, o PUE não mede a eficiência elétrica dos equipamentos de TI! O aumento da eficiência de TI (com o uso de técnicas de consolidação e virtualização, por exemplo) reduzirá o consumo elétrico do data center, mas, se não houver um correspondente ajuste no parque eletromecânico, o PUE poderá aumentar, mesmo que o consumo total da instalação tenha diminuído.

Por outro lado, aumentar muito a temperatura de fornecimento do ar condicionado, para a faixa “permitida” da ASHRAE, poderá proporcionar uma boa economia no gasto energético da refrigeração. Mas, dependendo da temperatura e nível de carga dos servidores, pode ser que suas ventoinhas sejam aceleradas ao máximo, para compensar esse aumento. Isso pode levar a um consumo extra que anula os ganhos com a redução da refrigeração, levando a um maior consumo do data center. Nesse caso, paradoxalmente, o PUE pode melhorar, pois o consumo das ventoinhas dos servidores é contabilizado como consumo de TI!

Ou seja, o PUE não deve ser o único recurso para acompanhar a eficiência elétrica do data center. Ele deve sempre ser acompanhado por outros indicadores, como o consumo elétrico total e índices de eficiência dos equipamentos de TI, como por exemplo o ITEU e o ITEE, também definidos na norma ISO/IEC 30134.

Seguem os links para os sites onde se pode adquirir os documentos aqui citados:

The Green Grid® – PUE: https://www.thegreengrid.org/en/resources/library-and-tools/20-PUE%3A-A-Comprehensive-Examination-of-the-Metric

Norma ISO/IEC 30134-2:2016: https://www.iso.org/standard/63451.html

A medição do PUE é apenas um dos itens avaliados para a obtenção do único selo de eficiência energética para data centers, o CEEDA. Mais informações, aqui: http://www.ceedacert.com/

O cálculo do PUE é abordado nos cursos DCDA e EnergyPro, do DCProfessional. Mais informações, aqui: https://www.br.dcpro.training/

Se achou este post útil, compartilhe, encaminhe a alguém que também possa achá-lo útil. Não deixe de se inscrever em meu canal do YouTube! Participe de meu grupo do Whatsapp e receba as novidades sobre meus artigos, vídeos e cursos. E curta minha página no Facebook!

Até a próxima!

Marcelo Barboza, RCDD, DCDC, ATS, DCS Design, Assessor CEEDA
Clarity Treinamentos
marcelo@claritytreinamentos.com.br

Sobre o autor
Marcelo Barboza, instrutor da área de cabeamento estruturado desde 2001, formado pelo Mackenzie, possui mais de 30 anos de experiência em TI, membro da BICSI e da comissão de estudos sobre cabeamento estruturado da ABNT/COBEI, certificado pela BICSI (RCDD, DCDC e NTS), Uptime Institute (ATS) e DCPro (Data Center Specialist – Design). Instrutor autorizado para cursos selecionados da DCProfessional, Fluke Networks, Panduit e Clarity Treinamentos. Assessor para o selo de eficiência para data centers – CEEDA.

PUE: uma métrica de eficiência do data center

Como já vimos em outros artigos, disponibilidade é algo primordial para os data centers atuais, tendo sido criadas até classificações, conhecidas como tiers.

Mas hoje em dia há outra característica a ser valorizada, que é a eficiência energética do data center, que é a sua capacidade de operar com menor consumo de energia. Energia elétrica é um recurso caro, portanto desperdiçá-lo não é uma boa ideia. E para podermos reduzir seu consumo precisamos, antes de mais nada, saber medi-lo e, em seguida, utilizar métricas que possam nos informar com que grau de sucesso estamos atingindo nossos objetivos de melhoria da eficiência.

O assunto eficiência energética em data centers começou a preocupar em 2008, a partir de um relatório ao Congresso dos EUA, quando verificaram que os data centers norte-americanos seriam responsáveis pelo consumo de aproximadamente 1,5% de toda a energia elétrica produzida no país! A última estatística, de 2014, aponta para um aumento para 2%.

Mas, antes de falarmos sobre alguma métrica de eficiência, vamos analisar quais os principais sistemas consumidores de energia elétrica de um data center. Obviamente, o principal tipo de equipamento existente em um data center, e que precisa ser energizado, é o equipamento de TI, motivo último da existência do data center. Nessa categoria estão os servidores, os dispositivos de armazenamento (storage) e os equipamentos de comunicação (como switches e routers). Todos os demais equipamentos e dispositivos que consomem energia em um data center são auxiliares ao funcionamento dos sistemas de TI. Dentre os principais sistemas auxiliares, podemos citar os seguintes: geração alternativa de energia (geradores), energia ininterrupta (UPS ou no-breaks), climatização, segurança patrimonial e incêndio, iluminação, monitoramento e automação. Vamos denominá-los conjuntamente de “sistemas de infraestrutura”.

Resumindo, temos dois grandes sistemas consumidores de energia elétrica no data center: os sistema de TI e os sistemas de infraestrutura. Ambos somados correspondem ao consumo do data center como um todo. A proporção entre ambos e entre os diferentes sistemas componentes pode variar bastante a cada data center.

Neste artigo vamos abordar apenas a métrica que mede a proporção de consumo elétrico entre os sistemas de infraestrutura e o de TI, chamada de PUE – Power Utilization Effectiveness, ou efetividade da utilização da energia, criada pelo The Green Grid. Ela indica o quanto de tudo o que consumimos no data center é relativo aos sistemas de infraestrutura. E por quê isso é importante? Se pensarmos bem, os únicos sistemas que deveriam necessariamente consumir algo são os de TI. São eles que importam. Qualquer gasto com sistemas de infraestrutura deveria ser visto como um overhead, um gasto extra, embora inevitável. Se queremos um ambiente estável, controlado e seguro para os sistemas de TI, é natural que gastemos alguma energia extra com isso. A questão é: quanto de energia estou gastando para manter esse ambiente, para além daquilo que é estritamente consumido pelos equipamentos de computação, armazenamento e comunicação?

Se analisarmos uma certa quantidade de data centers, veremos que é comum que metade de todo o consumo elétrico seja devido aos sistemas de infraestrutura, ou seja, PUE de 2.0, pois o cálculo do PUE é simplesmente a divisão do consumo energético total do data center pelo consumo dos sistemas de TI, para um determinado período. Exemplo: o data center todo consome 4 GWh em um ano, sendo 2 GWh em TI e 2 GWh em sistemas de infraestrutura, portanto PUE = 4 / 2 = 2.0. Embora um PUE de 2.0 seja relativamente comum, esse valor é alto. Veja a interpretação de valores de PUE:

  • PUE 3.0: muito ineficiente
  • PUE 2.5: ineficiente
  • PUE 2.0: médio
  • PUE 1.5: eficiente
  • PUE 1.2: muito eficiente

Note que não foi colocado o valor PUE = 1.0, pois em tese nunca teremos um data center que direcione 100% da energia elétrica para os sistemas de TI. Sempre haverá algum consumo devido à infraestrutura, nem que sejam apenas as perdas da distribuição elétrica. Mas, quanto mais o valor do PUE se aproximar da unidade, mais eficiente será os seus sistemas de infraestrutura, ou seja, menos energia eles consumirão em relação àquilo que é consumido por TI.

Um dos sistemas de infraestrutura que mais consome energia no data center é a climatização. Para um data center onde TI consome metade de toda a energia (PUE = 2.0), é normal que os sistemas de climatização consumam por volta de 40% do total, os demais 10% ficando principalmente com as perdas elétricas e demais sistemas auxiliares. É bastante usual, portanto, que as tentativas de redução do PUE se deem principalmente pela melhoria da eficiência do sistema de climatização do data center.

Em data centers profissionais, que utilizam o estado da arte em eficiência energética, podemos ver valores de PUE iguais ou inferiores a 1.1! Para se ter uma ideia, a média de PUE de todos os data centers do Google, medida em período de 12 meses, é de apenas 1.12. Veja aqui.  Em termos práticos, PUE de 1.12 significa que a cada 1000 Wh consumidos pelos sistemas de TI, apenas 120 Wh são consumidos pelos sistemas de infraestrutura, incluindo a climatização e as perdas elétricas!

Se você analisar alguns gráficos de PUE medidos ao longo do tempo, verá que ele variará em ciclos. Isso se deve à variação de eficiência do sistema de climatização, que é altamente dependente das condições climáticas do ambiente externo ao data center. Dias mais quentes exigem mais dos sistemas de ar condicionado, piorando o PUE momentaneamente. Data centers que possuem PUE muito baixo somente são possíveis em locais onde o clima local é ameno ou é possível a utilização de recursos naturais (como ar ou água) naturalmente frios (free cooling), reduzindo o consumo dos sistemas de climatização.

É importante termos a consciência de que o PUE não é a única métrica a ser utilizada para medir a eficiência energética do data center. Como vimos, ele mede o overhead de energia gasto em relação aos sistemas de TI. Mas, e o gasto dos sistemas de TI em si? Será que não poderíamos ter os mesmos serviços de TI, mas com um consumo energético menor? Menos energia consumida por TI levaria a menor necessidade de gastos com os correspondentes sistemas de infraestrutura que o suportam.  Existem técnicas de melhoria de eficiência energética para cada sistema de infraestrutura de um data center. Estas técnicas, mais as técnicas de redução de consumo de TI, farão parte de um futuro artigo para este blog.

Existem, porém, algumas dificuldades para o cálculo do PUE. Como dito no início, a primeira etapa é a correta medição do consumo de TI e dos sistemas de infraestrutura. E aí já surgem as questões:

  • Onde devo medir o consumo de TI? Em algum quadro elétrico? Na saída de algum equipamento de distribuição elétrica? Na entrada do equipamento de TI? Tanto faz?
  • Quais gastos devem entrar na medição do consumo da energia total consumida pelo data center?
  • Se o data center compartilha um edifício com áreas de escritório ou produção, como medir corretamente o consumo do data center?
  • Se a central de água gelada fornece água para todos os sistemas de ar condicionado do edifício, incluindo o data center, como ratear isso?
  • Eu meço demanda ou consumo? Pico ou média?
  • Como definir os períodos de medição?
Conceitos básicos do PUE

Como vemos, embora o cálculo do PUE em si seja simples, ele suscita diversas dúvidas, que devem ser endereçadas com precisão antes de implantarmos tal métrica em nosso data center. Voltaremos ao assunto PUE em futuros artigos para este blog.

O tema abordado neste artigo é apenas um dos tópicos que fazem parte do curso DC100 – Fundamentos de infraestrutura de data center. Confira aqui a data e o local da próxima turma desse curso.

Se achou este post útil, compartilhe, encaminhe a alguém que também possa achá-lo útil. Não deixe de se inscrever em meu canal do YouTube! Participe de meu grupo do Whatsapp e receba as novidades sobre meus artigos, vídeos e cursos. E curta minha página no Facebook!

Até a próxima!

Marcelo Barboza, RCDD, DCDC, ATS, DCS Design, Assessor CEEDA
Clarity Treinamentos
marcelo@claritytreinamentos.com.br

Sobre o autor
Marcelo Barboza, instrutor da área de cabeamento estruturado desde 2001, formado pelo Mackenzie, possui mais de 30 anos de experiência em TI, membro da BICSI e da comissão de estudos sobre cabeamento estruturado da ABNT/COBEI, certificado pela BICSI (RCDD, DCDC e NTS), Uptime Institute (ATS) e DCPro (Data Center Specialist – Design). Instrutor autorizado para cursos selecionados da DCProfessional, Fluke Networks, Panduit e Clarity Treinamentos. Assessor para o selo de eficiência para data centers – CEEDA.

Causas de downtime em data centers

Antes de mais nada, vamos definir “downtime”: é o tempo em que os serviços providos pelo data center ficam interrompidos. Podemos interromper seus serviços, basicamente, de duas formas: por paradas planejadas ou por paradas não planejadas. Paradas planejadas são usualmente realizadas durantes serviços de atualização ou manutenção de equipamentos, componentes, hardware ou software. Mas neste artigo vamos nos ater às paradas não planejadas, que são as mais temidas, pois, justamente por não serem planejadas, são as que causam mais impacto e, portanto, ocasionam mais prejuízos à empresa. Aqui, então, downtime será sinônimo de parada não planejada.

Qual será a principal causa de downtime, então? Segundo estudo publicado em 2016 pelo Ponemon Institute, “Cost of Data Center Outages”, a principal causa raiz de downtime, de acordo com os três estudos já realizados por eles (2010, 2013 e 2016), tem sido: falha em UPS! Ou seja, falha no sistema que deveria justamente manter fornecimento elétrico aos serviços de TI de maneira contínua, ininterrupta e com qualidade! Um quarto (25%) de todas as paradas tem sido causadas por esse motivo, de acordo com esse estudo, que contou com a participação de 63 data centers norte-americanos.

E qual o segundo lugar? Pasmem, a segunda colocação ficou com o crime cibernético, com 22%! Um aumento de 11 vezes desde o primeiro estudo, de 2010, quando ele representava apenas 2% das causas de downtime. Foi a causa que apresentou o maior crescimento dentre as sete principais causas identificadas no estudo (UPS, cybercrime, erro humano, climatização, clima, gerador, equipamento de TI). Empatado com o cybercrime, temos o erro humano, também com 22% das causas.

E em último lugar dentre as causas identificadas, temos as falhas em equipamentos de TI, com apenas 4% das causas de downtime. Mas aí que vem a surpresa: embora os equipamentos de TI representem apenas 4% das causas de falhas, eles são responsáveis pelos maiores prejuízos quando falham! Em média, o downtime causado por falhas em equipamentos de TI provoca prejuízos na ordem de US$ 995.000, seguido de perto pelo cybercrime (US$ 981.000), contra US$ 709.000 quando a causa é o UPS. O erro humano causa perdas médias na ordem de US$ 489.000.

Qual será o custo por minuto de um data center parado de forma não planejada? Os número variam bastante, desde US$ 926 até US$ 17.244 por minuto! Neste quesito, os números apresentam constante crescimento.  O custo médio de downtime aumentou 38% entre 2010 e 2016, enquanto o custo máximo reportado aumentou 81% no mesmo período!

Finalmente, os três segmentos de mercado que apresentam os maiores custos por decorrência de downtime são, em ordem decrescente: Serviços Financeiros, Comunicações e Saúde.

Como podemos diminuir todo esse downtime? Existem diversas técnicas, que passam pela implantação de níveis de redundância, escolha de componentes de melhor qualidade, melhor localização do data center, treinamento do pessoal de operação, cumprimento de rigoroso plano de manutenção preventiva e preditiva, criação de uma documentação abrangente e precisa da instalação e dos processos, para citar os principais. Para saber um pouco mais sobre as classificações em níveis de redundância, leia este artigo de nosso blog ou veja este vídeo:

A classificação de um data center em tiers

A correta operação do data center é crucial para manter sua disponibilidade. Para saber mais sobre o assunto, veja essa entrevista que conduzi ao vivo com dois profissionais extremamente experientes nessa área:

Operação de data centers de alto desempenho

O tema abordado neste artigo é apenas um dos tópicos que fazem parte do curso DC100 – Fundamentos de infraestrutura de data center. Confira aqui a data e o local da próxima turma desse curso.

Se achou este post útil, compartilhe, encaminhe a alguém que também possa achá-lo útil.

Até a próxima!

Marcelo Barboza, RCDD, DCDC, ATS, DCS Design
Clarity Treinamentos
marcelo@claritytreinamentos.com.br

Tiers de um data center

Você, que de alguma forma está envolvido no mundo dos data centers, com certeza já ouviu falar da classificação “tier” de data centers. Mas, sabe realmente o que ela significa?

Primeiramente, “tier” é uma palavra inglesa que significa nível ou camada. Sua pronúncia pode ser conferida aqui. Neste artigo, usaremos a palavra “nível” no lugar de tier.

No ecossistema dos data centers, a classificação em níveis se refere ao grau de redundância que seus sistemas de infraestrutura possuem. O objetivo da redundância é prover maior disponibilidade aos serviços de TI fornecidos pelo data center. Apenas lembrando, redundância não é o único recurso para aumento da disponibilidade; itens como qualidade dos componentes e equipamentos, treinamento do pessoal de operação e localização do data center também são cruciais para esse objetivo. A classificação tradicional em níveis não engloba esses itens.

Perguntas inevitáveis: como definir esses graus de redundância? Quais sistemas entram na avaliação? E é aí que as coisas complicam, pois existem diversas normas e padrões que definem níveis de redundância, e cada uma responde a essas questões de maneira diferente. Somente para citar as mais conhecidas, tanto o padrão “Tier Standard: Topology”, do Uptime Institute, quanto as normas TIA-942 e BICSI-002, ambas publicadas pela ANSI, definem níveis de redundância, nem sempre compatíveis entre si. Até os nomes diferem, cada qual utiliza um diferente: tier, level e class. Além disso, a BICSI-002 define cinco classes de redundância, enquanto as duas outras definem apenas quatro.

Os sistemas que entram na classificação também nem sempre são os mesmos. Enquanto os níveis do Uptime Institute focam apenas nos sistemas elétricos e mecânicos, os dois outros englobam os sistemas de cabeamento, segurança, arquitetura, dentre outros. E os requisitos para cada nível também não são exatamente os mesmos. Neste artigo, portanto, vamos procurar definir quatro níveis de redundância com o que há de consenso entre esses padrões e normas. Não entraremos em detalhes de cada nível, já que cada norma ou padrão detalha esses níveis de maneira um pouco diferente.

  • Nível 1: este nível na verdade não estabelece nenhum tipo de redundância da infraestrutura. Ele apenas estabelece os requisitos básicos que devem ser cumpridos, em termos de provisionamento de infraestrutura, para termos um data center minimamente disponível. Por exemplo, é necessário que geradores de backup e seus tanques e bombas de combustível, UPS (no-break) e sistemas completos de climatização, os chamados “componentes de capacidade”, existam e estejam corretamente dimensionados para toda a carga crítica de TI prevista para o data center. Um data center nível 1 é capaz de prover alguma disponibilidade dos sistemas de TI, já que possui energia ininterrupta e de backup, além de um clima adequado aos equipamentos, mas não pode manter os serviços durante manutenções preventivas ou corretivas. Adequado, portanto, para pequenas instalações, que não sejam tão críticas ao negócio da empresa.
  • Nível 2: aqui já é especificada uma redundância mínima dos componentes de capacidade, de forma a aumentar a disponibilidade dos serviços de TI. Manutenções preventivas de alguns equipamentos de infraestrutura (como UPS, p.ex.) podem ser realizadas sem prejuízo à disponibilidade. Algumas falhas em equipamentos redundantes também podem não comprometer os serviços críticos, mas não dá para garantir isso, já que geralmente as especificações de nível 2 não pedem para haver redundância nos “caminhos de distribuição” (p.ex., cabos alimentadores elétricos, tubulações de água gelada e backbones ópticos); manutenção ou falha em algum desses caminhos provoca indisponibilidade nos serviços. Dependendo do tipo de manutenção preventiva, também é possível que os serviços precisem ser interrompidos. O nível 2 é adequado para instalações pequenas ou médias onde a criticidade do negócio é maior, não suportando muito bem indisponibilidades durante o horário comercial.
  • Nível 3: um data center nível 3 tem que possuir redundância suficiente para que qualquer (veja bem, eu disse QUALQUER!) manutenção preventiva possa ser realizada na infraestrutura sem que haja a necessidade de se suspender nenhum serviço crítico de TI. Isso é o que chamamos de “manutenção simultânea”. Para tanto, não pode haver nenhum ponto único de falha, requerendo redundância também nos caminhos de distribuição, sendo que a qualquer momento apenas um dos caminhos deve ser necessário para suportar a carga crítica. Para ser efetivo, é preciso que todo equipamento de TI possua fontes redundantes de energia, conectadas a caminhos elétricos diversos. Durante manutenções preventivas, parte dos componentes de capacidade devem ser desligados, e os sistemas críticos de TI devem ser atendidos pelos componentes redundantes. Nesse momento, ele fica mais sujeito a paradas imprevistas, pois a redundância é temporariamente “perdida”. Algumas falhas em componentes de capacidade podem ser cobertas pelos componentes redundantes, mas dependendo da falha, ou se houver mais de uma falha simultânea, o sistema poderá cair. Este é o nível minimo para empresas que funcionam 24×7, sem possibilidade de paradas nos serviços de TI para manutenção da infraestrutura.
  • Nível 4: como vimos, alguns tipos de falha podem tirar um data center nível 3 do ar, como por exemplo um incêndio em uma sala de geradores. Como o nível 4 trata essa possibilidade? Requerendo que, fora da sala de computadores, todos os equipamentos de capacidade redundantes sejam instalados em salas separadas, em zonas de incêndio diferentes. Todo caminho de distribuição redundante externo à sala de computadores também deve manter essa separação. E para os sistemas redundantes entrarem em ação, não podem depender de ações humanas, isso tem que ser automático! Portanto, a ideia é que o nível 4 seja tolerante a falhas. Nenhuma falha isolada, em nenhum dos componentes de capacidade (equipamento ou caminho), pode resultar em indisponibilidade do sistemas críticos. Mesmo um incêndio em uma sala elétrica, já que os sistemas redundantes estarão em outra sala, isolada da primeira. Um exemplo de incidente que pode parar um data center nível 4 é um incêndio na sala de computadores. É um nível indicado para o data center principal de empresas que não podem sobreviver sem os serviços por ele disponibilizados, a todo o tempo.
A classificação dos data centers em tiers

A forma de implementar cada um desses níveis, quais sistemas são afetados, e o detalhamento das prescrições e recomendações, como já dito, dependem de qual norma ou padrão é utilizado. Algumas entidades possuem programas de certificação, sendo qualificadas a auditar o projeto ou as instalações e, posteriormente, emitir selos de conformidade a algum dos níveis pertinentes.

Mais alguns detalhes importantes sobre níveis de redundância de data centers:

  • Embora não mencionadas aqui, existem outras entidades que possuem métodos de classificação em níveis, como por exemplo o ICREA
  • Essa classificação se aplica a cada data center de maneira isolada, ou seja, dois data centers fisicamente distantes, mas “espelhados” em tempo real, não configuram um nível 3 ou nível 4, cada um deve ser classificado independentemente do outro
  • Os níveis constantes nos padrões aqui expostos não se aplicam aos sistemas de TI em si, apenas aos componentes da infraestrutura, comumente chamados de “facilities”; ou seja, executar sistemas de TI em diferentes servidores do data center, como forma de redundância, não afeta a classificação em níveis e nem é afetado por ela

Links úteis:
Uptime Institute Tier Standard: topology
Informações sobre a norma BICSI-002
Aquisição da norma TIA-942

O tema abordado neste artigo é apenas um dos tópicos que fazem parte do curso DC100 – Fundamentos de infraestrutura de data center. Confira aqui a data e o local da próxima turma desse curso.

Se achou este post útil, compartilhe, encaminhe a alguém que também possa achá-lo útil. Não deixe de se inscrever em meu canal do YouTube! Participe de meu grupo do Whatsapp e receba as novidades sobre meus artigos, vídeos e cursos. E curta minha página no Facebook!

Até a próxima!

Marcelo Barboza, RCDD, DCDC, ATS, DCS Design, Assessor CEEDA
Clarity Treinamentos
marcelo@claritytreinamentos.com.br

Sobre o autor
Marcelo Barboza, instrutor da área de cabeamento estruturado desde 2001, formado pelo Mackenzie, possui mais de 30 anos de experiência em TI, membro da BICSI e da comissão de estudos sobre cabeamento estruturado da ABNT/COBEI, certificado pela BICSI (RCDD, DCDC e NTS), Uptime Institute (ATS) e DCPro (Data Center Specialist – Design). Instrutor autorizado para cursos selecionados da DCProfessional, Fluke Networks, Panduit e Clarity Treinamentos. Assessor para o selo de eficiência para data centers – CEEDA.