Federico Don
Infrastructure Manager na Pomelo

Cada segundo conta no ecossistema de fintech. Um minuto de inatividade pode significar milhões em transações fracassadas. Na Pomelo, sabemos que a confiabilidade é fundamental: nossa infraestrutura de tecnologia não apenas dá suporte às nossas operações, mas também garante que todos os pagamentos, todas as transações e todas as interações de nossos clientes e seus usuários ocorram sem interrupção.
Além de desenvolver a tecnologia, construímos uma infraestrutura projetada para ser dimensionada, resistir a desafios e cumprir as regulamentações locais em cada país em que operamos. Dessa forma, garantimos a continuidade operacional e uma experiência ininterrupta para o usuário, independentemente da escala do desafio.
Este artigo explora as principais estratégias para alcançar altos padrões de disponibilidade e segurança por meio de uma infraestrutura escalável e resiliente.
Um indicador importante de confiabilidade é o tempo de atividade. Atingir 99,995% de disponibilidade significa que o sistema pode ter no máximo 2,10 minutos de tempo de inatividade por mês (26,05 minutos por ano). Esse padrão só é possível com planejamento, redundância, testes constantes e estratégias avançadas de monitoramento e mitigação em tempo real.
Para garantir essa estabilidade, nossa infraestrutura se baseia em dois princípios fundamentais: escalabilidade e resiliência. Vamos examiná-los em detalhes a seguir.
A escalabilidade permite que um sistema lide com aumentos na demanda sem afetar seu desempenho. Na Pomelo, implementamos:
Temos uma arquitetura baseada em microsserviços no Kubernetes, com mecanismos de dimensionamento dinâmico que otimizam o desempenho e garantem a rápida recuperação de falhas.
Inicialmente, usamos o Horizontal Pod Autoscaler (HPA) para gerenciar o dimensionamento horizontal com base em métricas de CPU e memória. No entanto, encontramos limitações quando quisermos definir estratégias de dimensionamento mais personalizadas, como o número de transações ativas ou a latência da solicitação.
Para superar essas restrições, implementamos o KEDA (Kubernetes Event-Driven Autoscaling), que nos permitiu:
A resiliência é a capacidade de um sistema de resistir e se recuperar rapidamente de falhas. Para garantir a continuidade operacional, nossa infraestrutura incorpora:
Usamos o Canary Deployments como uma estratégia de implementação para minimizar o impacto de novas versões na produção. Essa técnica nos permite:
Para melhorar a resiliência e a segurança de nossos aplicativos, integramos o Istio em nosso cluster Kubernetes. Essa implementação nos permite:
Nossa infraestrutura cloud-native de várias regiões opera no modo ativo-ativo, distribuindo o tráfego em duas regiões e três zonas de disponibilidade por região. No caso de uma falha regional, a outra assume a carga sem interrupção, garantindo uma experiência de usuário estável e ininterrupta.
A implementação de uma arquitetura ativo-ativo em várias regiões é uma meta ambiciosa, mas traz desafios técnicos significativos. A coordenação da replicação de dados em várias regiões requer estratégias avançadas para garantir a consistência e a baixa latência. Alguns dos principais desafios incluem:
Estamos ansiosos para implementar um novo serviço de banco de dados relacional projetado especificamente para arquiteturas de várias regiões. A AWS anunciou o Aurora DSQL no AWS re:Invent 2024. Esse serviço permite a replicação eficiente de dados entre regiões, com consistência transacional e tolerância aprimorada a falhas. Esse avanço representa uma grande oportunidade para otimizar as infraestruturas ativas.

A segurança é um pilar fundamental de nossa infraestrutura. Para proteger nossos sistemas, implementamos
Implementamos o mTLS (Mutual TLS) no Istio, além de alguns dos recursos discutidos acima, para garantir a comunicação segura entre os microsserviços no Kubernetes:
Em nossa implementação, o Istio emite certificados de segurança automaticamente e os gerencia por meio de seu plano de controle, facilitando a rotação e a renovação sem impacto nos serviços. Isso nos permite estabelecer uma malha de serviço segura e confiável, sem exigir alterações no código de nossos aplicativos.
Por outro lado, integramos a varredura de segurança contínua com as ferramentas SAST (Static Application Security Testing) e DAST (Dynamic Application Security Testing) em nosso pipeline de CI/CD. Isso nos permite
Para garantir a disponibilidade máxima e buscar os cinco noves (99,999%), aplicamos uma estratégia abrangente baseada em:
No ecossistema de fintech, onde o pico de demanda pode se multiplicar durante eventos como a Black Friday ou pagamentos em massa de salários, uma infraestrutura escalável e resiliente não é opcional: ela é a base da confiança do usuário.
Na Pomelo, não apenas projetamos tecnologia; construímos uma infraestrutura pronta para os desafios mais exigentes. Nossa arquitetura multirregional, estratégias de segurança proativas e recursos de resposta a incidentes nos estabeleceram como um parceiro tecnológico confiável no setor financeiro.
Esse nível de resiliência, elasticidade, escalabilidade e segurança, apoiado por processos automatizados, nos diferencia no setor. Ele nos permite operar em um ambiente altamente regulamentado com equipes pequenas e autônomas, acelerando lançamentos, minimizando o risco humano e otimizando o uso de recursos. Com essa arquitetura, não apenas garantimos a continuidade operacional, mas também operamos uma infraestrutura de classe mundial de forma ágil, segura e eficiente, o que nos permite escalar com menos riscos e maior velocidade.
Continuamos a desafiar nossos próprios limites na busca dos cinco noves, impulsionando a inovação e a confiabilidade em cada camada de nossa infraestrutura. 🚀
Agende uma reunião com o nosso time.





