Federico Don
Infrastructure Manager en Pomelo

Cada segundo cuenta en el ecosistema fintech. Un minuto de inactividad puede significar millones en transacciones fallidas. En Pomelo, sabemos que la confiabilidad es clave: nuestra infraestructura tecnológica no solo sostiene nuestras operaciones, sino que también garantiza que cada pago, cada transacción y cada interacción de nuestros clientes y sus usuarios ocurra sin interrupciones.
Más allá de desarrollar tecnología, construimos una infraestructura diseñada para escalar, resistir desafíos y cumplir con las normativas locales de cada país en el que operamos. De esta manera, aseguramos la continuidad operativa y una experiencia de usuario ininterrumpida, sin importar la magnitud del reto.
Este artículo explora las estrategias clave para alcanzar altos estándares de disponibilidad y seguridad a través de una infraestructura escalable y resiliente.
Un indicador clave de confiabilidad es el uptime. Alcanzar un 99.995% de disponibilidad significa que el sistema puede tener un máximo de 2.10 minutos de inactividad al mes (26.05 minutos por año). Este estándar solo es posible con planificación, redundancia, pruebas constantes y estrategias avanzadas de monitoreo y mitigación en tiempo real.
Para garantizar esta estabilidad, nuestra infraestructura se basa en dos principios fundamentales: escalabilidad y resiliencia. Veamoslas en detalle a continuación.
La escalabilidad permite que un sistema maneje aumentos de demanda sin afectar su rendimiento. En Pomelo implementamos:
Contamos con una arquitectura basada en microservicios sobre Kubernetes, con mecanismos de escalado dinámico que optimizan el rendimiento y garantizan una recuperación rápida ante fallos.
Inicialmente, utilizamos Horizontal Pod Autoscaler (HPA) para gestionar el escalado horizontal basado en métricas de CPU y memoria. Sin embargo, encontramos limitaciones cuando quisimos definir estrategias de escalado más personalizadas, como la cantidad de transacciones activas o la latencia de las solicitudes.
Para superar estas restricciones, implementamos KEDA (Kubernetes Event-Driven Autoscaling), lo que nos permitió:
La resiliencia es la capacidad de un sistema para resistir y recuperarse rápidamente ante fallos. Para asegurar la continuidad operativa, nuestra infraestructura incorpora:
Utilizamos Canary Deployments como estrategia de despliegue para minimizar el impacto de nuevas versiones en producción. Esta técnica nos permite:
Para mejorar la resiliencia y la seguridad de nuestras aplicaciones, integramos Istio dentro de nuestro clúster de Kubernetes. Esta implementación nos permite:
Nuestra infraestructura cloud native multi-región opera en modo activa-activa, distribuyendo el tráfico en dos regiones y tres zonas de disponibilidad por región. En caso de una falla regional, la otra asume la carga sin interrupciones, asegurando una experiencia de usuario estable y sin impacto.
Implementar una arquitectura multi-región activa-activa es un objetivo ambicioso, pero conlleva desafíos técnicos significativos. Coordinar la replicación de datos en múltiples regiones requiere estrategias avanzadas para asegurar consistencia y baja latencia. Algunos de los principales desafíos incluyen:
Estamos ansiosos por implementar un nuevo servicio de bases de datos relacionales diseñado específicamente para arquitecturas multi-región. AWS anunció Aurora DSQLen el AWS re:Invent 2024. Este servicio permite una replicación de datos eficiente entre regiones, con consistencia transaccional y tolerancia a fallos mejorada. Este avance representa una gran oportunidad para optimizar infraestructuras activas-activas en la nube, asegurando que los datos estén siempre sincronizados y accesibles con menor complejidad operativa.

La seguridad es un pilar clave en nuestra infraestructura. Para proteger nuestros sistemas, implementamos:
Implementamos mTLS (Mutual TLS) en Istio, además de algunas de las funciones que comentamos anteriormente, para garantizar la seguridad en la comunicación entre microservicios dentro de Kubernetes donde:
En nuestra implementación, Istio emite certificados de seguridad automáticamente y los administra mediante su Control Plane, facilitando la rotación y renovación sin impacto en los servicios. Esto nos permite establecer una malla de servicios segura y confiable, sin requerir cambios en el código de nuestras aplicaciones.
Por otro lado, integramos un escaneo continuo de seguridad con herramientas de SAST (Static Application Security Testing) y DAST (Dynamic Application Security Testing) en nuestro pipeline de CI/CD. Esto nos permite:
Para garantizar la máxima disponibilidad y aspirar a los five nines (99.999%), aplicamos una estrategia integral basada en:
En el ecosistema fintech, donde los picos de demanda pueden multiplicarse en eventos como Black Friday o pagos masivos de nómina, una infraestructura escalable y resiliente no es opcional: es la base de la confianza del usuario.
En Pomelo, no solo diseñamos tecnología; construimos infraestructura preparada para los desafíos más exigentes. Nuestra arquitectura multi-región, nuestras estrategias de seguridad proactivas y nuestra capacidad de respuesta ante incidentes nos han permitido consolidarnos como un socio tecnológico confiable en la industria financiera.
Este nivel de resiliencia, elasticidad, escalabilidad y seguridad, respaldado por procesos automatizados, nos diferencia en la industria. Nos permite operar en un entorno altamente regulado con equipos reducidos y autónomos, acelerando los lanzamientos, minimizando riesgos humanos y optimizando el uso de recursos. Con esta arquitectura, no solo garantizamos continuidad operativa, sino que también operamos una infraestructura de clase mundial de forma ágil, segura y eficiente, lo que nos permite escalar con menos riesgo y mayor velocidad.
Seguimos desafiando nuestros propios límites en la búsqueda de los five nines, impulsando la innovación y la confiabilidad en cada capa de nuestra infraestructura. 🚀
Agenda una llamada con nuestro equipo.





