A medição do PUE de um data center

No artigo publicado em 16 de maio de 2018, em meu blog (http://www.claritytreinamentos.com.br/2018/05/16/pue-uma-metrica-de-eficiencia-do-data-center/), expliquei o conceito da métrica PUE, cobrindo sua definição, princípio de cálculo e principais finalidades. Aqui, vou elaborar mais sobre o tema, explorando detalhes sobre sua medição e cálculo.

Como vimos, o PUE mostra o overhead de energia gasto em relação aos sistemas de TI. Esse overhead representa a energia gasta nos sistemas que auxiliam na contínua operação dos sistemas críticos de TI, incluindo, mas não necessariamente se limitando a:

  • Energia gasta na refrigeração/ventilação dos equipamentos de TI e dos equipamentos necessários ao seu funcionamento, incluindo bombas, chillers, ventoinhas, torres de resfriamento, fancoils, evaporadoras e condensadoras
  • Perdas elétricas nos equipamentos, cabos e conexões da distribuição elétrica (ex.: UPS, quadros elétricos, transformadores, geradores etc.)
  • Alimentação elétrica de sistemas auxiliares necessários, como alarmes de incêndio, controle de acesso e automação
  • Iluminação das salas que compõem o data center

Ao computar a energia gasta pelos sistemas de TI, deve-se considerar, para além de servidores, armazenamento e comunicações (switches e roteadores), todo o equipamento de TI suplementar, como monitores, chaveadores KVM, estações de monitoramento etc., desde que necessários à operação dos serviços críticos.

Então, um data center com PUE 1,60 significa que 60% de toda a energia por ele consumida é gasta por esses sistemas acima listados como overhead. Obviamente, quanto mais perto de 1,00, mais eficiente esses sistemas serão ao atenderem as necessidades de TI.

Mas, onde medir o consumo de TI e qual a unidade utilizada? A primeira edição do PUE descrevia somente uma relação entre picos de demanda. Ou seja, durante um período de avaliação (por exemplo, durante um mês), é anotado o pico de demanda total do data center (DEM_TOT) e o pico de demanda dos equipamentos de TI (DEM_TI), ambos medidos em kW. O PUE seria então DEM_TOT/DEM_TI. Exemplo: pico de demanda do data center durante um ano = 500 kW, pico de demanda de TI durante esse ano = 300 kW; PUE = 500/300 = 1,67.

Posteriormente, foi lançada a segunda versão do PUE, em três níveis, 1, 2 e 3. Esse novo PUE (versão 2) prefere que o cálculo seja feito com dados de consumo, em kWh, e não de demanda, como anteriormente. Então, durante o período de avaliação, é medido o consumo elétrico total do data center (CONS_TOT) e o dos equipamentos de TI (CONS_TI). O PUE é agora CONS_TOT/CONS_TI. Exemplo: consumo elétrico total do data center durante um ano = 4.500.000 kWh, consumo elétrico de TI durante esse ano = 2.600.000 kWh; PUE = 4.500.000/2.600.000 = 1,73. Esta maneira é superior à anterior, pois utiliza o consumo total, que já contabiliza todos os picos, vales e sazonalidades ocorridas durante o período.

Os três níveis do PUE versão 2 se referem ao local onde deve ser medido o consumo de TI, bem como periodicidade mínima da medição (se usada a demanda pontual):

  • PUE1: nível 1; medição na saída do UPS; se medido como demanda (kW), a periodicidade deve ser mensal ou semanal
  • PUE2: nível 2; medição na saída do PDU; se medido como demanda (kW), a periodicidade deve ser diária ou horária
  • PUE3: nível 3; medição na tomada elétrica dos equipamentos de TI (nos racks); se medido como demanda (kW), a periodicidade deve ser de 15 minutos ou menos

Atualmente, o PUE também é definido na norma ISO/IEC 30134-2 – Power usage effectiveness (PUE).

A medição do consumo total deve ser sempre realizada na entrada do data center. Deve-se deduzir daí toda energia utilizada para outros sistemas não relacionados ao data center, se existirem.

Quanto mais perto da carga de TI for a medição, ou seja, quanto maior o nível do PUE, mais precisa será a métrica ao identificar as perdas decorrentes do overhead das instalações.

Quando a medição for realizada por consumo (kWh), é importante manter o cálculo do PUE trimestral de cada estação climática do ano, bem como o anual, de forma a ressaltar (trimestral) e a nivelar (anual) os efeitos da temperatura externa no PUE.

Como curiosidade, e a nível de ilustração, podemos consultar o PUE dos data centers da Google aqui: https://www.google.com/about/datacenters/efficiency/internal/. Ali podemos ver o gráfico dos cálculos anuais e trimestrais do PUE.

O PUE1 e o PUE2 até admitem ter suas medições de consumo realizadas de forma manual, em rondas periódicas. É relativamente fácil obter dados de consumo de TI para o PUE1, pois todos os UPS já vêm com recursos para informar os dados de fornecimento de energia. Para o PUE2, é necessária a instalação de medidores nos quadros principais de distribuição de energia ininterrupta para o data center (PDU).

O PUE3, por sua granularidade (medição em cada rack de TI), deve necessariamente ser medido de forma automática. Isso não deve ser um problema, pois para o PUE3 é necessária a utilização de “PDU inteligente de rack” em todos os racks, os quais já são naturalmente dotados de capacidade remota de monitoramento, via SNMP ou equivalente. Porém, isso torna a instalação mais cara, portanto não é uma solução viável para muitos data centers.

Se o data center adquirir outros recursos utilizados para alimentação elétrica ou refrigeração, como diesel ou gás (para geração local regular), ou água potável (para refrigeração), a energia embutida em tais insumos também deve ser contabilizada na energia total consumida pelo data center. A norma do PUE inclui fatores para a conversão dessa energia embutida em energia a ser contabilizada pelo PUE.

O PUE, em princípio, não deve ser utilizado para comparar instalações diferentes, a não ser que a metodologia de todos os locais seja compatibilizada. O PUE é bastante útil para servir de base para o próprio data center medir sua evolução com o tempo e após alterações significativas da instalação.

Mas, atenção, o PUE não mede a eficiência elétrica dos equipamentos de TI! O aumento da eficiência de TI (com o uso de técnicas de consolidação e virtualização, por exemplo) reduzirá o consumo elétrico do data center, mas, se não houver um correspondente ajuste no parque eletromecânico, o PUE poderá aumentar, mesmo que o consumo total da instalação tenha diminuído.

Por outro lado, aumentar muito a temperatura de fornecimento do ar condicionado, para a faixa “permitida” da ASHRAE, poderá proporcionar uma boa economia no gasto energético da refrigeração. Mas, dependendo da temperatura e nível de carga dos servidores, pode ser que suas ventoinhas sejam aceleradas ao máximo, para compensar esse aumento. Isso pode levar a um consumo extra que anula os ganhos com a redução da refrigeração, levando a um maior consumo do data center. Nesse caso, paradoxalmente, o PUE pode melhorar, pois o consumo das ventoinhas dos servidores é contabilizado como consumo de TI!

Ou seja, o PUE não deve ser o único recurso para acompanhar a eficiência elétrica do data center. Ele deve sempre ser acompanhado por outros indicadores, como o consumo elétrico total e índices de eficiência dos equipamentos de TI, como por exemplo o ITEU e o ITEE, também definidos na norma ISO/IEC 30134.

Seguem os links para os sites onde se pode adquirir os documentos aqui citados:

The Green Grid® – PUE: https://www.thegreengrid.org/en/resources/library-and-tools/20-PUE%3A-A-Comprehensive-Examination-of-the-Metric

Norma ISO/IEC 30134-2:2016: https://www.iso.org/standard/63451.html

A medição do PUE é apenas um dos itens avaliados para a obtenção do único selo de eficiência energética para data centers, o CEEDA. Mais informações, aqui: http://www.ceedacert.com/

O cálculo do PUE é abordado nos cursos DCDA e EnergyPro, do DCProfessional. Mais informações, aqui: https://www.br.dcpro.training/

 

Se achou este post útil, compartilhe, encaminhe a alguém que também possa achá-lo útil.

Até a próxima!

Marcelo Barboza, RCDD, DCDC, NTS, ATS, DCS Design, Assessor CEEDA
Clarity Treinamentos
marcelo@claritytreinamentos.com.br

PUE: uma métrica de eficiência do data center

Como já vimos em outros artigos, disponibilidade é algo primordial para os data centers atuais, tendo sido criadas até classificações, conhecidas como tiers.

Mas hoje em dia há outra característica a ser valorizada, que é a eficiência energética do data center, que é a sua capacidade de operar com menor consumo de energia. Energia elétrica é um recurso caro, portanto desperdiçá-lo não é uma boa ideia. E para podermos reduzir seu consumo precisamos, antes de mais nada, saber medi-lo e, em seguida, utilizar métricas que possam nos informar com que grau de sucesso estamos atingindo nossos objetivos de melhoria da eficiência.

O assunto eficiência energética em data centers começou a preocupar em 2008, a partir de um relatório ao Congresso dos EUA, quando verificaram que os data centers norte-americanos seriam responsáveis pelo consumo de aproximadamente 1,5% de toda a energia elétrica produzida no país! A última estatística, de 2014, aponta para um aumento para 2%.

Mas, antes de falarmos sobre alguma métrica de eficiência, vamos analisar quais os principais sistemas consumidores de energia elétrica de um data center. Obviamente, o principal tipo de equipamento existente em um data center, e que precisa ser energizado, é o equipamento de TI, motivo último da existência do data center. Nessa categoria estão os servidores, os dispositivos de armazenamento (storage) e os equipamentos de comunicação (como switches e routers). Todos os demais equipamentos e dispositivos que consomem energia em um data center são auxiliares ao funcionamento dos sistemas de TI. Dentre os principais sistemas auxiliares, podemos citar os seguintes: geração alternativa de energia (geradores), energia ininterrupta (UPS ou no-breaks), climatização, segurança patrimonial e incêndio, iluminação, monitoramento e automação. Vamos denominá-los conjuntamente de “sistemas de infraestrutura”.

Resumindo, temos dois grandes sistemas consumidores de energia elétrica no data center: os sistema de TI e os sistemas de infraestrutura. Ambos somados correspondem ao consumo do data center como um todo. A proporção entre ambos e entre os diferentes sistemas componentes pode variar bastante a cada data center.

Neste artigo vamos abordar apenas a métrica que mede a proporção de consumo elétrico entre os sistemas de infraestrutura e o de TI, chamada de PUE – Power Utilization Effectiveness, ou efetividade da utilização da energia, criada pelo The Green Grid. Ela indica o quanto de tudo o que consumimos no data center é relativo aos sistemas de infraestrutura. E por quê isso é importante? Se pensarmos bem, os únicos sistemas que deveriam necessariamente consumir algo são os de TI. São eles que importam. Qualquer gasto com sistemas de infraestrutura deveria ser visto como um overhead, um gasto extra, embora inevitável. Se queremos um ambiente estável, controlado e seguro para os sistemas de TI, é natural que gastemos alguma energia extra com isso. A questão é: quanto de energia estou gastando para manter esse ambiente, para além daquilo que é estritamente consumido pelos equipamentos de computação, armazenamento e comunicação?

Se analisarmos uma certa quantidade de data centers, veremos que é comum que metade de todo o consumo elétrico seja devido aos sistemas de infraestrutura, ou seja, PUE de 2.0, pois o cálculo do PUE é simplesmente a divisão do consumo energético total do data center pelo consumo dos sistemas de TI, para um determinado período. Exemplo: o data center todo consome 4 GWh em um ano, sendo 2 GWh em TI e 2 GWh em sistemas de infraestrutura, portanto PUE = 4 / 2 = 2.0. Embora um PUE de 2.0 seja relativamente comum, esse valor é alto. Veja a interpretação de valores de PUE:

  • PUE 3.0: muito ineficiente
  • PUE 2.5: ineficiente
  • PUE 2.0: médio
  • PUE 1.5: eficiente
  • PUE 1.2: muito eficiente

Note que não foi colocado o valor PUE = 1.0, pois em tese nunca teremos um data center que direcione 100% da energia elétrica para os sistemas de TI. Sempre haverá algum consumo devido à infraestrutura, nem que sejam apenas as perdas da distribuição elétrica. Mas, quanto mais o valor do PUE se aproximar da unidade, mais eficiente será os seus sistemas de infraestrutura, ou seja, menos energia eles consumirão em relação àquilo que é consumido por TI.

Um dos sistemas de infraestrutura que mais consome energia no data center é a climatização. Para um data center onde TI consome metade de toda a energia (PUE = 2.0), é normal que os sistemas de climatização consumam por volta de 40% do total, os demais 10% ficando principalmente com as perdas elétricas e demais sistemas auxiliares. É bastante usual, portanto, que as tentativas de redução do PUE se deem principalmente pela melhoria da eficiência do sistema de climatização do data center.

Em data centers profissionais, que utilizam o estado da arte em eficiência energética, podemos ver valores de PUE iguais ou inferiores a 1.1! Para se ter uma ideia, a média de PUE de todos os data centers do Google, medida em período de 12 meses, é de apenas 1.12. Veja aqui.  Em termos práticos, PUE de 1.12 significa que a cada 1000 Wh consumidos pelos sistemas de TI, apenas 120 Wh são consumidos pelos sistemas de infraestrutura, incluindo a climatização e as perdas elétricas!

Se você analisar alguns gráficos de PUE medidos ao longo do tempo, verá que ele variará em ciclos. Isso se deve à variação de eficiência do sistema de climatização, que é altamente dependente das condições climáticas do ambiente externo ao data center. Dias mais quentes exigem mais dos sistemas de ar condicionado, piorando o PUE momentaneamente. Data centers que possuem PUE muito baixo somente são possíveis em locais onde o clima local é ameno ou é possível a utilização de recursos naturais (como ar ou água) naturalmente frios (free cooling), reduzindo o consumo dos sistemas de climatização.

É importante termos a consciência de que o PUE não é a única métrica a ser utilizada para medir a eficiência energética do data center. Como vimos, ele mede o overhead de energia gasto em relação aos sistemas de TI. Mas, e o gasto dos sistemas de TI em si? Será que não poderíamos ter os mesmos serviços de TI, mas com um consumo energético menor? Menos energia consumida por TI levaria a menor necessidade de gastos com os correspondentes sistemas de infraestrutura que o suportam.  Existem técnicas de melhoria de eficiência energética para cada sistema de infraestrutura de um data center. Estas técnicas, mais as técnicas de redução de consumo de TI, farão parte de um futuro artigo para este blog.

Existem, porém, algumas dificuldades para o cálculo do PUE. Como dito no início, a primeira etapa é a correta medição do consumo de TI e dos sistemas de infraestrutura. E aí já surgem as questões:

  • Onde devo medir o consumo de TI? Em algum quadro elétrico? Na saída de algum equipamento de distribuição elétrica? Na entrada do equipamento de TI? Tanto faz?
  • Quais gastos devem entrar na medição do consumo da energia total consumida pelo data center?
  • Se o data center compartilha um edifício com áreas de escritório ou produção, como medir corretamente o consumo do data center?
  • Se a central de água gelada fornece água para todos os sistemas de ar condicionado do edifício, incluindo o data center, como ratear isso?
  • Eu meço demanda ou consumo? Pico ou média?
  • Como definir os períodos de medição?

Como vemos, embora o cálculo do PUE em si seja simples, ele suscita diversas dúvidas, que devem ser endereçadas com precisão antes de implantarmos tal métrica em nosso data center. Voltaremos ao assunto PUE em futuros artigos para este blog.

O tema abordado neste artigo é apenas um dos tópicos que fazem parte do curso DC100 – Fundamentos de infraestrutura de data center. Confira aqui a data e o local da próxima turma desse curso.

Se achou este post útil, compartilhe, encaminhe a alguém que também possa achá-lo útil.

Até a próxima!

Marcelo Barboza, RCDD, DCDC, NTS, ATS, DCS Design
Clarity Treinamentos
marcelo@claritytreinamentos.com.br

Causas de downtime em data centers

Antes de mais nada, vamos definir “downtime”: é o tempo em que os serviços providos pelo data center ficam interrompidos. Podemos interromper seus serviços, basicamente, de duas formas: por paradas planejadas ou por paradas não planejadas. Paradas planejadas são usualmente realizadas durantes serviços de atualização ou manutenção de equipamentos, componentes, hardware ou software. Mas neste artigo vamos nos ater às paradas não planejadas, que são as mais temidas, pois, justamente por não serem planejadas, são as que causam mais impacto e, portanto, ocasionam mais prejuízos à empresa. Aqui, então, downtime será sinônimo de parada não planejada.

Qual será a principal causa de downtime, então? Segundo estudo publicado em 2016 pelo Ponemon Institute, “Cost of Data Center Outages”, a principal causa raiz de downtime, de acordo com os três estudos já realizados por eles (2010, 2013 e 2016), tem sido: falha em UPS! Ou seja, falha no sistema que deveria justamente manter fornecimento elétrico aos serviços de TI de maneira contínua, ininterrupta e com qualidade! Um quarto (25%) de todas as paradas tem sido causadas por esse motivo, de acordo com esse estudo, que contou com a participação de 63 data centers norte-americanos.

E qual o segundo lugar? Pasmem, a segunda colocação ficou com o crime cibernético, com 22%! Um aumento de 11 vezes desde o primeiro estudo, de 2010, quando ele representava apenas 2% das causas de downtime. Foi a causa que apresentou o maior crescimento dentre as sete principais causas identificadas no estudo (UPS, cybercrime, erro humano, climatização, clima, gerador, equipamento de TI). Empatado com o cybercrime, temos o erro humano, também com 22% das causas.

E em último lugar dentre as causas identificadas, temos as falhas em equipamentos de TI, com apenas 4% das causas de downtime. Mas aí que vem a surpresa: embora os equipamentos de TI representem apenas 4% das causas de falhas, eles são responsáveis pelos maiores prejuízos quando falham! Em média, o downtime causado por falhas em equipamentos de TI provoca prejuízos na ordem de US$ 995.000, seguido de perto pelo cybercrime (US$ 981.000), contra US$ 709.000 quando a causa é o UPS. O erro humano causa perdas médias na ordem de US$ 489.000.

Qual será o custo por minuto de um data center parado de forma não planejada? Os número variam bastante, desde US$ 926 até US$ 17.244 por minuto! Neste quesito, os números apresentam constante crescimento.  O custo médio de downtime aumentou 38% entre 2010 e 2016, enquanto o custo máximo reportado aumentou 81% no mesmo período!

Finalmente, os três segmentos de mercado que apresentam os maiores custos por decorrência de downtime são, em ordem decrescente: Serviços Financeiros, Comunicações e Saúde.

Como podemos diminuir todo esse downtime? Existem diversas técnicas, que passam pela implantação de níveis de redundância, escolha de componentes de melhor qualidade, melhor localização do data center, treinamento do pessoal de operação, cumprimento de rigoroso plano de manutenção preventiva e preditiva, criação de uma documentação abrangente e precisa da instalação e dos processos, para citar os principais. Para saber um pouco mais sobre as classificações em níveis de redundância, leia este artigo de nosso blog.

O tema abordado neste artigo é apenas um dos tópicos que fazem parte do curso DC100 – Fundamentos de infraestrutura de data center. Confira aqui a data e o local da próxima turma desse curso.

Se achou este post útil, compartilhe, encaminhe a alguém que também possa achá-lo útil.

Até a próxima!

Marcelo Barboza, RCDD, DCDC, NTS, ATS, DCS Design
Clarity Treinamentos
marcelo@claritytreinamentos.com.br

Tiers de um data center

Você, que de alguma forma está envolvido no mundo dos data centers, com certeza já ouviu falar da classificação “tier” de data centers. Mas, sabe realmente o que ela significa?

Primeiramente, “tier” é uma palavra inglesa que significa nível ou camada. Sua pronúncia pode ser conferida aqui. Neste artigo, usaremos a palavra “nível” no lugar de tier.

No ecossistema dos data centers, a classificação em níveis se refere ao grau de redundância que seus sistemas de infraestrutura possuem. O objetivo da redundância é prover maior disponibilidade aos serviços de TI fornecidos pelo data center. Apenas lembrando, redundância não é o único recurso para aumento da disponibilidade; itens como qualidade dos componentes e equipamentos, treinamento do pessoal de operação e localização do data center também são cruciais para esse objetivo. A classificação tradicional em níveis não engloba esses itens.

Perguntas inevitáveis: como definir esses graus de redundância? Quais sistemas entram na avaliação? E é aí que as coisas complicam, pois existem diversas normas e padrões que definem níveis de redundância, e cada uma responde a essas questões de maneira diferente. Somente para citar as mais conhecidas, tanto o padrão “Tier Standard: Topology”, do Uptime Institute, quanto as normas TIA-942 e BICSI-002, ambas publicadas pela ANSI, definem níveis de redundância, nem sempre compatíveis entre si. Até os nomes diferem, cada qual utiliza um diferente: tier, level e class. Além disso, a BICSI-002 define cinco classes de redundância, enquanto as duas outras definem apenas quatro.

Os sistemas que entram na classificação também nem sempre são os mesmos. Enquanto os níveis do Uptime Institute focam apenas nos sistemas elétricos e mecânicos, os dois outros englobam os sistemas de cabeamento, segurança, arquitetura, dentre outros. E os requisitos para cada nível também não são exatamente os mesmos. Neste artigo, portanto, vamos procurar definir quatro níveis de redundância com o que há de consenso entre esses padrões e normas. Não entraremos em detalhes de cada nível, já que cada norma ou padrão detalha esses níveis de maneira um pouco diferente.

  • Nível 1: este nível na verdade não estabelece nenhum tipo de redundância da infraestrutura. Ele apenas estabelece os requisitos básicos que devem ser cumpridos, em termos de provisionamento de infraestrutura, para termos um data center minimamente disponível. Por exemplo, é necessário que geradores de backup e seus tanques e bombas de combustível, UPS (no-break) e sistemas completos de climatização, os chamados “componentes de capacidade”, existam e estejam corretamente dimensionados para toda a carga crítica de TI prevista para o data center. Um data center nível 1 é capaz de prover alguma disponibilidade dos sistemas de TI, já que possui energia ininterrupta e de backup, além de um clima adequado aos equipamentos, mas não pode manter os serviços durante manutenções preventivas ou corretivas. Adequado, portanto, para pequenas instalações, que não sejam tão críticas ao negócio da empresa.
  • Nível 2: aqui já é especificada uma redundância mínima dos componentes de capacidade, de forma a aumentar a disponibilidade dos serviços de TI. Manutenções preventivas de alguns equipamentos de infraestrutura (como UPS, p.ex.) podem ser realizadas sem prejuízo à disponibilidade. Algumas falhas em equipamentos redundantes também podem não comprometer os serviços críticos, mas não dá para garantir isso, já que geralmente as especificações de nível 2 não pedem para haver redundância nos “caminhos de distribuição” (p.ex., cabos alimentadores elétricos, tubulações de água gelada e backbones ópticos); manutenção ou falha em algum desses caminhos provoca indisponibilidade nos serviços. Dependendo do tipo de manutenção preventiva, também é possível que os serviços precisem ser interrompidos. O nível 2 é adequado para instalações pequenas ou médias onde a criticidade do negócio é maior, não suportando muito bem indisponibilidades durante o horário comercial.
  • Nível 3: um data center nível 3 tem que possuir redundância suficiente para que qualquer (veja bem, eu disse QUALQUER!) manutenção preventiva possa ser realizada na infraestrutura sem que haja a necessidade de se suspender nenhum serviço crítico de TI. Isso é o que chamamos de “manutenção simultânea”. Para tanto, não pode haver nenhum ponto único de falha, requerendo redundância também nos caminhos de distribuição, sendo que a qualquer momento apenas um dos caminhos deve ser necessário para suportar a carga crítica. Para ser efetivo, é preciso que todo equipamento de TI possua fontes redundantes de energia, conectadas a caminhos elétricos diversos. Durante manutenções preventivas, parte dos componentes de capacidade devem ser desligados, e os sistemas críticos de TI devem ser atendidos pelos componentes redundantes. Nesse momento, ele fica mais sujeito a paradas imprevistas, pois a redundância é temporariamente “perdida”. Algumas falhas em componentes de capacidade podem ser cobertas pelos componentes redundantes, mas dependendo da falha, ou se houver mais de uma falha simultânea, o sistema poderá cair. Este é o nível minimo para empresas que funcionam 24×7, sem possibilidade de paradas nos serviços de TI para manutenção da infraestrutura.
  • Nível 4: como vimos, alguns tipos de falha podem tirar um data center nível 3 do ar, como por exemplo um incêndio em uma sala de geradores. Como o nível 4 trata essa possibilidade? Requerendo que, fora da sala de computadores, todos os equipamentos de capacidade redundantes sejam instalados em salas separadas, em zonas de incêndio diferentes. Todo caminho de distribuição redundante externo à sala de computadores também deve manter essa separação. E para os sistemas redundantes entrarem em ação, não podem depender de ações humanas, isso tem que ser automático! Portanto, a ideia é que o nível 4 seja tolerante a falhas. Nenhuma falha isolada, em nenhum dos componentes de capacidade (equipamento ou caminho), pode resultar em indisponibilidade do sistemas críticos. Mesmo um incêndio em uma sala elétrica, já que os sistemas redundantes estarão em outra sala, isolada da primeira. Um exemplo de incidente que pode parar um data center nível 4 é um incêndio na sala de computadores. É um nível indicado para o data center principal de empresas que não podem sobreviver sem os serviços por ele disponibilizados, a todo o tempo.

A forma de implementar cada um desses níveis, quais sistemas são afetados, e o detalhamento das prescrições e recomendações, como já dito, dependem de qual norma ou padrão é utilizado. Algumas entidades possuem programas de certificação, sendo qualificadas a auditar o projeto ou as instalações e, posteriormente, emitir selos de conformidade a algum dos níveis pertinentes.

Mais alguns detalhes importantes sobre níveis de redundância de data centers:

  • Embora não mencionadas aqui, existem outras entidades que possuem métodos de classificação em níveis, como por exemplo o ICREA
  • Essa classificação se aplica a cada data center de maneira isolada, ou seja, dois data centers fisicamente distantes, mas “espelhados” em tempo real, não configuram um nível 3 ou nível 4, cada um deve ser classificado independentemente do outro
  • Os níveis constantes nos padrões aqui expostos não se aplicam aos sistemas de TI em si, apenas aos componentes da infraestrutura, comumente chamados de “facilities”; ou seja, executar sistemas de TI em diferentes servidores do data center, como forma de redundância, não afeta a classificação em níveis e nem é afetado por ela

Links úteis:
Uptime Institute Tier Standard: topology
Informações sobre a norma BICSI-002
Aquisição da norma TIA-942

O tema abordado neste artigo é apenas um dos tópicos que fazem parte do curso DC100 – Fundamentos de infraestrutura de data center. Confira aqui a data e o local da próxima turma desse curso.

Se achou este post útil, compartilhe, encaminhe a alguém que também possa achá-lo útil.

Até a próxima!

Marcelo Barboza, RCDD, DCDC, NTS, ATS, DCS Design
Clarity Treinamentos
marcelo@claritytreinamentos.com.br