Causas de downtime em data centers

Antes de mais nada, vamos definir “downtime”: é o tempo em que os serviços providos pelo data center ficam interrompidos. Podemos interromper seus serviços, basicamente, de duas formas: por paradas planejadas ou por paradas não planejadas. Paradas planejadas são usualmente realizadas durantes serviços de atualização ou manutenção de equipamentos, componentes, hardware ou software. Mas neste artigo vamos nos ater às paradas não planejadas, que são as mais temidas, pois, justamente por não serem planejadas, são as que causam mais impacto e, portanto, ocasionam mais prejuízos à empresa. Aqui, então, downtime será sinônimo de parada não planejada.

Qual será a principal causa de downtime, então? Segundo estudo publicado em 2016 pelo Ponemon Institute, “Cost of Data Center Outages”, a principal causa raiz de downtime, de acordo com os três estudos já realizados por eles (2010, 2013 e 2016), tem sido: falha em UPS! Ou seja, falha no sistema que deveria justamente manter fornecimento elétrico aos serviços de TI de maneira contínua, ininterrupta e com qualidade! Um quarto (25%) de todas as paradas tem sido causadas por esse motivo, de acordo com esse estudo, que contou com a participação de 63 data centers norte-americanos.

E qual o segundo lugar? Pasmem, a segunda colocação ficou com o crime cibernético, com 22%! Um aumento de 11 vezes desde o primeiro estudo, de 2010, quando ele representava apenas 2% das causas de downtime. Foi a causa que apresentou o maior crescimento dentre as sete principais causas identificadas no estudo (UPS, cybercrime, erro humano, climatização, clima, gerador, equipamento de TI). Empatado com o cybercrime, temos o erro humano, também com 22% das causas.

E em último lugar dentre as causas identificadas, temos as falhas em equipamentos de TI, com apenas 4% das causas de downtime. Mas aí que vem a surpresa: embora os equipamentos de TI representem apenas 4% das causas de falhas, eles são responsáveis pelos maiores prejuízos quando falham! Em média, o downtime causado por falhas em equipamentos de TI provoca prejuízos na ordem de US$ 995.000, seguido de perto pelo cybercrime (US$ 981.000), contra US$ 709.000 quando a causa é o UPS. O erro humano causa perdas médias na ordem de US$ 489.000.

Qual será o custo por minuto de um data center parado de forma não planejada? Os número variam bastante, desde US$ 926 até US$ 17.244 por minuto! Neste quesito, os números apresentam constante crescimento.  O custo médio de downtime aumentou 38% entre 2010 e 2016, enquanto o custo máximo reportado aumentou 81% no mesmo período!

Finalmente, os três segmentos de mercado que apresentam os maiores custos por decorrência de downtime são, em ordem decrescente: Serviços Financeiros, Comunicações e Saúde.

Como podemos diminuir todo esse downtime? Existem diversas técnicas, que passam pela implantação de níveis de redundância, escolha de componentes de melhor qualidade, melhor localização do data center, treinamento do pessoal de operação, cumprimento de rigoroso plano de manutenção preventiva e preditiva, criação de uma documentação abrangente e precisa da instalação e dos processos, para citar os principais. Para saber um pouco mais sobre as classificações em níveis de redundância, leia este artigo de nosso blog.

O tema abordado neste artigo é apenas um dos tópicos que fazem parte do curso DC100 – Fundamentos de infraestrutura de data center. Confira aqui a data e o local da próxima turma desse curso.

Se achou este post útil, compartilhe, encaminhe a alguém que também possa achá-lo útil.

Até a próxima!

Marcelo Barboza, RCDD, DCDC, NTS, ATS, DCS Design
Clarity Treinamentos
marcelo@claritytreinamentos.com.br

Tiers de um data center

Você, que de alguma forma está envolvido no mundo dos data centers, com certeza já ouviu falar da classificação “tier” de data centers. Mas, sabe realmente o que ela significa?

Primeiramente, “tier” é uma palavra inglesa que significa nível ou camada. Sua pronúncia pode ser conferida aqui. Neste artigo, usaremos a palavra “nível” no lugar de tier.

No ecossistema dos data centers, a classificação em níveis se refere ao grau de redundância que seus sistemas de infraestrutura possuem. O objetivo da redundância é prover maior disponibilidade aos serviços de TI fornecidos pelo data center. Apenas lembrando, redundância não é o único recurso para aumento da disponibilidade; itens como qualidade dos componentes e equipamentos, treinamento do pessoal de operação e localização do data center também são cruciais para esse objetivo. A classificação tradicional em níveis não engloba esses itens.

Perguntas inevitáveis: como definir esses graus de redundância? Quais sistemas entram na avaliação? E é aí que as coisas complicam, pois existem diversas normas e padrões que definem níveis de redundância, e cada uma responde a essas questões de maneira diferente. Somente para citar as mais conhecidas, tanto o padrão “Tier Standard: Topology”, do Uptime Institute, quanto as normas TIA-942 e BICSI-002, ambas publicadas pela ANSI, definem níveis de redundância, nem sempre compatíveis entre si. Até os nomes diferem, cada qual utiliza um diferente: tier, level e class. Além disso, a BICSI-002 define cinco classes de redundância, enquanto as duas outras definem apenas quatro.

Os sistemas que entram na classificação também nem sempre são os mesmos. Enquanto os níveis do Uptime Institute focam apenas nos sistemas elétricos e mecânicos, os dois outros englobam os sistemas de cabeamento, segurança, arquitetura, dentre outros. E os requisitos para cada nível também não são exatamente os mesmos. Neste artigo, portanto, vamos procurar definir quatro níveis de redundância com o que há de consenso entre esses padrões e normas. Não entraremos em detalhes de cada nível, já que cada norma ou padrão detalha esses níveis de maneira um pouco diferente.

  • Nível 1: este nível na verdade não estabelece nenhum tipo de redundância da infraestrutura. Ele apenas estabelece os requisitos básicos que devem ser cumpridos, em termos de provisionamento de infraestrutura, para termos um data center minimamente disponível. Por exemplo, é necessário que geradores de backup e seus tanques e bombas de combustível, UPS (no-break) e sistemas completos de climatização, os chamados “componentes de capacidade”, existam e estejam corretamente dimensionados para toda a carga crítica de TI prevista para o data center. Um data center nível 1 é capaz de prover alguma disponibilidade dos sistemas de TI, já que possui energia ininterrupta e de backup, além de um clima adequado aos equipamentos, mas não pode manter os serviços durante manutenções preventivas ou corretivas. Adequado, portanto, para pequenas instalações, que não sejam tão críticas ao negócio da empresa.
  • Nível 2: aqui já é especificada uma redundância mínima dos componentes de capacidade, de forma a aumentar a disponibilidade dos serviços de TI. Manutenções preventivas de alguns equipamentos de infraestrutura (como UPS, p.ex.) podem ser realizadas sem prejuízo à disponibilidade. Algumas falhas em equipamentos redundantes também podem não comprometer os serviços críticos, mas não dá para garantir isso, já que geralmente as especificações de nível 2 não pedem para haver redundância nos “caminhos de distribuição” (p.ex., cabos alimentadores elétricos, tubulações de água gelada e backbones ópticos); manutenção ou falha em algum desses caminhos provoca indisponibilidade nos serviços. Dependendo do tipo de manutenção preventiva, também é possível que os serviços precisem ser interrompidos. O nível 2 é adequado para instalações pequenas ou médias onde a criticidade do negócio é maior, não suportando muito bem indisponibilidades durante o horário comercial.
  • Nível 3: um data center nível 3 tem que possuir redundância suficiente para que qualquer (veja bem, eu disse QUALQUER!) manutenção preventiva possa ser realizada na infraestrutura sem que haja a necessidade de se suspender nenhum serviço crítico de TI. Isso é o que chamamos de “manutenção simultânea”. Para tanto, não pode haver nenhum ponto único de falha, requerendo redundância também nos caminhos de distribuição, sendo que a qualquer momento apenas um dos caminhos deve ser necessário para suportar a carga crítica. Para ser efetivo, é preciso que todo equipamento de TI possua fontes redundantes de energia, conectadas a caminhos elétricos diversos. Durante manutenções preventivas, parte dos componentes de capacidade devem ser desligados, e os sistemas críticos de TI devem ser atendidos pelos componentes redundantes. Nesse momento, ele fica mais sujeito a paradas imprevistas, pois a redundância é temporariamente “perdida”. Algumas falhas em componentes de capacidade podem ser cobertas pelos componentes redundantes, mas dependendo da falha, ou se houver mais de uma falha simultânea, o sistema poderá cair. Este é o nível minimo para empresas que funcionam 24×7, sem possibilidade de paradas nos serviços de TI para manutenção da infraestrutura.
  • Nível 4: como vimos, alguns tipos de falha podem tirar um data center nível 3 do ar, como por exemplo um incêndio em uma sala de geradores. Como o nível 4 trata essa possibilidade? Requerendo que, fora da sala de computadores, todos os equipamentos de capacidade redundantes sejam instalados em salas separadas, em zonas de incêndio diferentes. Todo caminho de distribuição redundante externo à sala de computadores também deve manter essa separação. E para os sistemas redundantes entrarem em ação, não podem depender de ações humanas, isso tem que ser automático! Portanto, a ideia é que o nível 4 seja tolerante a falhas. Nenhuma falha isolada, em nenhum dos componentes de capacidade (equipamento ou caminho), pode resultar em indisponibilidade do sistemas críticos. Mesmo um incêndio em uma sala elétrica, já que os sistemas redundantes estarão em outra sala, isolada da primeira. Um exemplo de incidente que pode parar um data center nível 4 é um incêndio na sala de computadores. É um nível indicado para o data center principal de empresas que não podem sobreviver sem os serviços por ele disponibilizados, a todo o tempo.

A forma de implementar cada um desses níveis, quais sistemas são afetados, e o detalhamento das prescrições e recomendações, como já dito, dependem de qual norma ou padrão é utilizado. Algumas entidades possuem programas de certificação, sendo qualificadas a auditar o projeto ou as instalações e, posteriormente, emitir selos de conformidade a algum dos níveis pertinentes.

Mais alguns detalhes importantes sobre níveis de redundância de data centers:

  • Embora não mencionadas aqui, existem outras entidades que possuem métodos de classificação em níveis, como por exemplo o ICREA
  • Essa classificação se aplica a cada data center de maneira isolada, ou seja, dois data centers fisicamente distantes, mas “espelhados” em tempo real, não configuram um nível 3 ou nível 4, cada um deve ser classificado independentemente do outro
  • Os níveis constantes nos padrões aqui expostos não se aplicam aos sistemas de TI em si, apenas aos componentes da infraestrutura, comumente chamados de “facilities”; ou seja, executar sistemas de TI em diferentes servidores do data center, como forma de redundância, não afeta a classificação em níveis e nem é afetado por ela

Links úteis:
Uptime Institute Tier Standard: topology
Informações sobre a norma BICSI-002
Aquisição da norma TIA-942

O tema abordado neste artigo é apenas um dos tópicos que fazem parte do curso DC100 – Fundamentos de infraestrutura de data center. Confira aqui a data e o local da próxima turma desse curso.

Se achou este post útil, compartilhe, encaminhe a alguém que também possa achá-lo útil.

Até a próxima!

Marcelo Barboza, RCDD, DCDC, NTS, ATS, DCS Design
Clarity Treinamentos
marcelo@claritytreinamentos.com.br