No dia 03/11/2025, foi identificado um comportamento anômalo no ambiente de produção, impactando diretamente a plataforma. O problema resultou em intermitência no acesso e lentidão generalizada, seguida de um período de indisponibilidade total.
O incidente foi identificado por meio de alertas internos de monitoramento e relatos de usuários sobre falhas de login e lentidão no carregamento de páginas. As equipes de SRE e Engenharia iniciaram a investigação imediatamente após a confirmação da degradação, atuando em conjunto com o time de aplicação para mitigar o impacto.
A falha ocorreu devido à alta utilização de CPU na instância MySQL HeatWave, principal banco de dados de produção.
Essa sobrecarga provocou o enfileiramento de threads e a degradação severa das consultas, resultando em lentidão e falhas intermitentes nos serviços. Mesmo após o encerramento manual de sessões, as reconexões automáticas das aplicações restabeleciam novas sessões em alta frequência, impedindo a recuperação natural da instância. A origem exata do aumento de carga ainda está sob análise, podendo estar relacionada a consultas intensivas, bloqueios simultâneos ou processos não otimizados.
Foram executadas ações de mitigação imediata para restabelecer a performance e estabilidade do banco de dados, incluindo o reinício controlado dos serviços e rollback preventivo da última versão publicada.
O chamado junto ao suporte da Oracle Cloud permanece aberto para análise aprofundada da camada de infraestrutura, garantindo que não haja falhas físicas ou limitações de recursos no ambiente.
Para prevenir recorrências, as seguintes ações foram definidas:
O ambiente encontra-se estável e em monitoramento contínuo, sem novos registros de lentidão ou intermitência.
A equipe de SRE segue acompanhando com o suporte da Oracle até a conclusão completa da análise e implementação das medidas definitivas.
……………………………………………………………………………
On November 3, 2025, an anomalous behavior was identified in the production environment, directly impacting the platform. The issue resulted in intermittent access and widespread slowness, followed by a period of total unavailability.
The incident was identified through internal monitoring alerts and user reports about login failures and slow page loading. The SRE and Engineering teams immediately began investigating after confirming the degradation, working together with the Application team to mitigate the impact.
The failure occurred due to high CPU utilization on the MySQL HeatWave instance, the main production database.
This overload caused thread queuing and severe query degradation, resulting in latency and intermittent service failures. Even after manually terminating sessions, the applications’ automatic reconnections re-established new sessions at a high rate, preventing natural recovery of the instance.
The exact cause of the increased load is still under investigation and may be related to intensive queries, simultaneous locks, or unoptimized processes.
Immediate mitigation actions were executed to restore database performance and stability, including the controlled restart of services and a preventive rollback of the latest deployed version.
The Oracle Cloud support case remains open for in-depth analysis of the infrastructure layer, ensuring that no hardware failures or resource limitations are affecting the environment.
To prevent recurrence, the following measures have been defined:
The environment is currently stable and under continuous monitoring, with no new occurrences of latency or intermittency.
The SRE team continues to work with Oracle support until the investigation is fully completed and definitive corrective measures are implemented.