Ler para transferir a aplicação Gate
qrCode
Mais opções de transferência
Não me lembre disso novamente hoje.

Causa da queda do Cloudflare identificada, CTO pede desculpas: arquivo de configuração demasiado grande provocou falhas em cadeia, não será repetido.

No dia 19 de novembro de 2025, a empresa Cloudflare emitiu um comunicado oficial confirmando que a interrupção global de serviços do dia anterior foi causada por uma falha em cadeia provocada pelo tamanho inesperado de um perfil de configuração. Este arquivo é gerado automaticamente para gerenciar o sistema de configuração de tráfego de ameaças e, quando o número de entradas excede a escala esperada, provoca a falha do sistema de software de processamento de tráfego de alguns serviços da Cloudflare.

De acordo com a Bloomberg, esta queda começou às 6:20 da manhã, horário de Nova York, e durou quase quatro horas, afetando milhares de sites globais, desde o X até o ChatGPT. Os sites dos principais reguladores de energia dos EUA e da Autoridade de Transporte de Nova Jersey também não escaparam. O diretor técnico da Cloudflare, Dane Knecht, pediu desculpas publicamente e afirmou que o trabalho está em andamento para garantir que tais eventos não voltem a ocorrer.

Causas e detalhes técnicos da falha do Cloudflare

De acordo com a declaração de Jackie Dutton, porta-voz da Cloudflare, a causa fundamental da interrupção global dos serviços aponta para um problema técnico aparentemente comum - um perfil de configuração excessivamente grande. Este perfil, gerado automaticamente para gerenciar o tráfego de ameaças, acionou a falha do sistema de software que processa parte do tráfego de serviços da Cloudflare quando o número de entradas cresceu além da escala esperada. Essa falha, causada por limitações de configuração de recursos, revela que mesmo a infraestrutura tecnológica mais madura possui vulnerabilidades em sua camada fundamental.

Do ponto de vista da arquitetura técnica, esse modo de falha reflete a complexidade da infraestrutura moderna da internet. Os perfis, como componentes centrais do funcionamento do sistema, são frequentemente geridos como uma tarefa rotineira de operação e manutenção, mas quando seu crescimento ultrapassa a capacidade de design do sistema, podem desencadear reações em cadeia. O “pico de tráfego anômalo” observado pela Cloudflare pode ser um fator direto que leva à rápida expansão dos perfis, mas a causa raiz reside na insuficiência do design de resiliência do sistema para lidar com esse tipo de anomalia. Este incidente também expôs que, na era da crescente popularidade dos sistemas automatizados, ainda é necessário supervisão e intervenção humana para garantir a qualidade e o controle de escala do conteúdo gerado automaticamente.

Impacto da queda do Cloudflare e resposta de emergência

O impacto desta interrupção vai desde gigantes da tecnologia até infraestruturas críticas, mostrando a importância sistémica da Cloudflare no ecossistema moderno da internet. A empresa de inteligência artificial Anthropic PBC confirmou que o seu serviço de chatbot Claude AI foi afetado, e o site da Comissão Federal de Regulação de Energia dos EUA (FERC) também sofreu interrupções, sendo este um plataforma crucial para várias empresas, advogados e agências reguladoras que acedem a casos e documentos regulatórios.

O sistema de transporte também não escapou. Um porta-voz da Autoridade de Transporte Metropolitano (MTA) confirmou que o sistema de transporte da cidade de Nova Iorque foi afetado pela interrupção do Cloudflare, e o site da agência aconselha os passageiros a utilizarem o seu aplicativo MTAapp ou TrainTime para obter informações em tempo real sobre o estado do transporte e planeamento de viagens. A Autoridade de Transporte de Nova Jérsia também informou que o seu site e aplicativo móvel foram afetados, alertando que os serviços podem estar temporariamente indisponíveis ou funcionando lentamente. A reação em cadeia dessas infraestruturas críticas destaca os riscos sistêmicos dos serviços de internet centralizados.

Linha do tempo dos eventos de falha do Cloudflare

Falha iniciada: pico de tráfego anômalo observado às 6:20 da manhã, hora de Nova Iorque.

Impacto: X, ChatGPT, Claude AI, FERC, sistemas de transporte de Nova Iorque e Nova Jérsia, entre outros

Duração: interrupção total do serviço por quase 4 horas

Causa raiz: o perfil de gestão de ameaças excedeu a escala esperada, resultando em falha do sistema.

Histórico: Em julho de 2019, uma falha de software causou uma interrupção de 30 minutos; em junho de 2022, 19 centros de dados falharam por 1,5 horas.

Análise de Padrões e Revisão de Eventos Históricos

Esta não é a primeira vez que a Cloudflare enfrenta uma interrupção de serviço em larga escala. Voltando a julho de 2019, uma vulnerabilidade no software da Cloudflare fez com que parte de sua rede esgotasse todos os recursos computacionais da empresa, colocando offline por até 30 minutos milhares de sites em todo o mundo, incluindo Discord, Shopify, SoundCloud e grandes CEX. Em junho de 2022, a Cloudflare novamente sofreu uma falha que afetou o tráfego de 19 de seus centros de dados, essencialmente desligando sites e serviços principais, com o evento durando cerca de uma hora e meia.

Analisando esses eventos em paralelo com a interrupção de cerca de 15 horas da AWS da Amazon recentemente, pode-se observar um padrão preocupante: a dependência da internet global de poucos provedores de infraestrutura está criando riscos sistêmicos. O professor de cibersegurança da Universidade de Surrey, Alan Woodward, comentou que o tempo de inatividade de terça-feira é o mais recente exemplo da dependência da internet de “relativamente poucos participantes”, descrevendo a Cloudflare como “a maior empresa que você nunca ouviu falar”.

Resposta das empresas e reconstrução da confiança

O CTO da Cloudflare, Dane Knecht, publicou uma mensagem no X pedindo desculpas pelo incidente, afirmando: “A questão, seu impacto e o tempo de resolução são inaceitáveis. O trabalho está em andamento para garantir que isso não ocorra novamente, mas sei que causou dor real hoje. A confiança dos nossos clientes é o que mais valorizamos, e faremos todo o possível para recuperar essa confiança.”

Esta atitude de reconhecer erros diretamente e comprometer-se a melhorar é crucial para manter a confiança dos clientes. Do ponto de vista da gestão técnica, os procedimentos padrão após tais eventos incluem análise de causa raiz, reavaliação de planejamento de capacidade, aprimoramento de sistemas de monitoramento e testes de recuperação de falhas. Considerando que o software da Cloudflare é utilizado por centenas de milhares de empresas em todo o mundo, servindo como um buffer entre seus sites e usuários finais, e dedicado a proteger seus sites contra ataques de tráfego que podem sobrecarregá-los, a estabilidade de seu sistema tem um impacto direto na saúde geral da internet.

Reflexão sobre a Indústria e Iniciativa de Descentralização

Este incidente de queda reacendeu a discussão sobre a adoção de redes de infraestrutura física descentralizada (DePIN). Alguns membros da indústria de criptomoedas estão pedindo uma adoção mais ampla do DePIN para lidar com esses problemas, uma vez que essa rede utiliza incentivos baseados em blockchain para coordenar e recompensar as pessoas na construção e manutenção de infraestruturas do mundo real, criando uma camada de infraestrutura aberta e operada pela comunidade, evitando a dependência de empresas centralizadas.

O CEO da Gaimin, Nökkvi Dan Ellidason, um projeto DePIN focado em infraestrutura de nuvem distribuída, afirmou: “Devemos nos voltar para um modelo de nuvem verdadeiramente distribuído. Ao aproveitar os recursos descentralizados globalmente existentes (como PCs subutilizados), a Gaimin está construindo uma rede cuja capacidade está distribuída em várias regiões e continentes, tornando difícil que um único erro derrube todo o sistema global. Esta é a única maneira de proteger a economia digital contra as vulnerabilidades inerentes à centralização.”

Análise de Risco de Centralização de Infraestrutura

A opinião do Professor Woodward aponta diretamente para o cerne do problema: “As pessoas não têm escolha, a não ser depender de um número relativamente pequeno de grandes empresas.” Essa dependência cria um risco de ponto único de falha, e quando esses participantes-chave enfrentam problemas, o impacto se propaga por setores. De Cloudflare a Amazon AWS, CrowdStrike e Microsoft, uma série de eventos de interrupção nos últimos anos destaca a natureza interconectada do ecossistema digital.

Comparar diferentes tipos de interrupções também é muito revelador. No ano passado, uma atualização de software com falhas da empresa de segurança cibernética CrowdStrike Holdings Inc. fez com que milhões de dispositivos que executam o sistema Windows da Microsoft falhassem, perturbando vários setores como viagens aéreas, bancos e saúde. A interrupção da CrowdStrike foi causada por um erro de produto que operava nas camadas mais profundas dos computadores dos clientes. Em contraste, a Cloudflare protege infraestruturas da Internet, como sites e plataformas, e é por isso que durante a interrupção da Cloudflare muitos sites populares ficam fora do ar ou se tornam não confiáveis.

Os engenheiros da Cloudflare talvez não tenham pensado que a fragilidade da internet não se esconde apenas nas profundezas do código, mas também em uma arquitetura excessivamente centralizada - cada colapso de um serviço centralizado está votando a favor de um futuro descentralizado. Desde o metrô de Nova Iorque até os chatbots de IA, o funcionamento da sociedade moderna depende tanto da estabilidade de algumas empresas de tecnologia, e essa descoberta é mais reflexiva do que qualquer falha em si.

FAQ

Qual é a causa fundamental da interrupção global do Cloudflare?

Causado por um perfil gerado automaticamente para gerenciar o tráfego de ameaças excedendo a escala prevista, o sistema de software que processa parte do tráfego de serviços falhou quando o número de entradas no arquivo ultrapassou o limite.

Quais serviços importantes foram afetados por esta interrupção?

O alcance da influência inclui plataformas tecnológicas como X, ChatGPT, Claude AI, bem como infraestruturas críticas como a Comissão Federal de Regulamentação de Energia dos EUA e os sistemas de transporte de Nova Iorque e Nova Jersey.

A Cloudflare tem um histórico semelhante de interrupções?

Em julho de 2019, uma falha de software causou a interrupção global de sites por 30 minutos; em junho de 2022, a falha de 19 centros de dados resultou em uma interrupção de serviço de cerca de 1,5 horas, mostrando que o risco sistêmico continua a existir.

Quais são as soluções da indústria para este tipo de evento?

A solução DePIN (Rede de Infraestrutura Física Descentralizada) foi proposta para construir infraestruturas distribuídas através de incentivos em blockchain, reduzindo a dependência de prestadores de serviços centralizados.

Como é que a Cloudflare respondeu a este incidente?

O CTO Dane Knecht fez uma declaração pública de desculpas, reconhecendo que o impacto do problema e o tempo de resolução eram inaceitáveis, e afirmou que o trabalho está em andamento para garantir que eventos semelhantes não ocorram novamente.

GMRX-8.26%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)