Princípios importantes
- Os problemas técnicos do Facebook foram lamentáveis, mas o problema provavelmente teria sido resolvido muito mais rápido se não dependesse de tantos sistemas interconectados.
- Não há como evitar completamente as falhas do sistema, mas existem maneiras de torná-las menos prováveis.
- Ter planos de backup para quando (não se, quando) um sistema falhar pode fazer a diferença entre 'irritante' e 'catastrófico.'
O recente desastre do Facebook demonstra como os sistemas interconectados estão fadados a falhar e por que não devemos usá-los para tudo.
Perder o Facebook, WhatsApp e Instagram por várias horas na segunda-feira foi inconveniente, prejudicial às empresas e, em alguns casos, quase catastrófico. De acordo com o Facebook, tudo se deve a mudanças na configuração de seus roteadores de coordenação de rede.
É uma explicação razoável, mas o fato de que um único erro como esse poderia fazer com que não apenas o Facebook, mas outros sistemas de propriedade do Facebook parassem é um pouco alarmante.
Uma alteração errada na configuração do roteador fez com que vários serviços, e até mesmo headsets de RV, parassem de funcionar completamente. Além disso, pela própria admissão do Facebook, também teve um efeito cascata na forma como os data centers da empresa se comunicam, interrompendo todos os seus serviços.
"A dependência de sistemas interconectados traz consigo um risco inerente de falha do sistema ou mesmo do serviço", disse Francesco Altomare, engenheiro de vendas técnico sênior da GlobalDots, em uma entrevista por e-mail à Lifewire, "Para combater esse risco assustador, as empresas utilizam o princípio de SRE (System Reliability Engineering), bem como outras ferramentas, que lidam com vários níveis de redundância incorporados em todas as camadas da infraestrutura de um sistema."
O que pode dar errado
Vale a pena notar que quando um sistema como esse falha, geralmente requer uma tempestade perfeita de coisas dando errado. É menos como um castelo de cartas esperando para cair e mais como uma porta de exaustão térmica exposta em uma estação espacial do tamanho de uma pequena lua.
A maioria das empresas toma medidas para tentar garantir que a única coisa que poderia colocar tudo no caos nunca aconteça - mas, independentemente disso, pode acontecer.
"Falhas inesperadas fazem parte dos negócios e podem surgir como resultado de negligência do trabalhador, falhas na rede do provedor de serviços de Internet ou até mesmo serviços de armazenamento em nuvem passando por problemas", disse Sally Stevens, cofundadora da FastPeopleSearch, em uma entrevista por e-mail.
"…Contanto que as etapas necessárias para proteger o sistema, como backups, roteador no local e acesso em camadas, sejam implementadas, essas falhas são bastante improváveis." Embora mesmo com um exército de seguranças, ainda é possível que o pivô falhe.
Se o sistema que controla coisas como formas primárias de contato, eletrodomésticos, portas, etc. falhar, os resultados podem ser significativos. De inconveniência leve a catastrófico total, dependendo de quanto indivíduos e empresas confiam em tudo isso.
"Também existe o risco de hackers entrarem no sistema a partir de qualquer um dos dispositivos menos protegidos, como geladeiras e torradeiras", acrescentou Stevens, "o que pode levar a roubo de dados e ransomware."
Como podemos nos preparar
Não há como garantir que um sistema nunca irá falhar, mas existem medidas que podem ser tomadas para tornar a falha menos provável ou para lidar com a falha de forma mais suave. Seria ideal uma combinação das duas abordagens que combinam medidas de segurança e contramedidas com planos de contingência e sistemas de backup.
"Para eliminar esses perigos criados por produtos e serviços de terceiros que são tratados de forma eficaz, os papéis e deveres relacionados ao gerenciamento de riscos de terceiros devem ser estritamente descritos", disse Daniela Sawyer, fundadora e diretora de tecnologia da FindPeopleFast, em uma entrevista por e-mail, "Para florescer neste novo ambiente, os gerentes de risco devem compreender as partes essenciais de um ecossistema tão sofisticado."
O que aconteceu com o Facebook, WhatsApp e Instagram foi lamentável, mas também esperançoso. As pessoas que dependem de sistemas interconectados devem entender que a coisa certa dando errado pode atrapalhar tudo. E medidas devem ser postas em prática (ou examinadas e refinadas) para tornar essas interrupções menos prováveis e menos impactantes.
No caso do Facebook, o problema não eram os problemas do roteador, mas sim ter quase todo o seu ecossistema conectado a todo o resto. Assim, com o Facebook (o serviço) desativado, o Facebook (a empresa) teve que gastar muito mais tempo e energia simplesmente organizando e abordando o problema. Se ele não usasse um sistema tão enraizado e interconectado ou tivesse planos de backup para lidar com uma interrupção como essa, provavelmente levaria muito menos tempo para consertar.