Una estrategia de pruebas no es un documento que se crea al final del proyecto para cumplir un requisito. Es un plan vivo que define qué se probará, cómo, cuándo, con qué herramientas y con qué criterios de éxito. Crearlo desde el inicio del proyecto determina el nivel de calidad alcanzable y el costo real de mantenerlo.
Por qué la estrategia de pruebas debe nacer junto con los requisitos
El costo de detectar un defecto crece exponencialmente conforme avanza el ciclo de desarrollo. Un error encontrado durante los requisitos cuesta una fracción de lo que cuesta encontrarlo en producción. Cuando el equipo de QA se involucra desde las primeras conversaciones sobre funcionalidades, puede identificar ambigüedades, casos borde olvidados y conflictos de requisitos antes de que se conviertan en código incorrecto que hay que reescribir.
Esto también define el scaffolding técnico necesario: si el sistema requiere pruebas de rendimiento, hay que preparar ambientes de carga desde el inicio. Si se necesitan pruebas de accesibilidad (WCAG 2.1), hay que integrar herramientas como Axe desde el primer sprint, no al final del proyecto cuando el cambio tendría un costo mayor.
Principio clave: Incluir al QA en el refinamiento del backlog no es un lujo. Es la forma más barata de mejorar la calidad del software: detectar problemas antes de que existan en el código.
Qué debe incluir un plan de pruebas
Un plan de pruebas no necesita ser extenso para ser útil. Lo que sí debe incluir son las decisiones fundamentales que guiarán el trabajo de todo el equipo. El alcance define qué se probará y qué no (y por qué). El enfoque describe los tipos de pruebas que se aplicarán y en qué proporción. Los criterios de entrada y salida establecen cuándo se considera que una funcionalidad está lista para probarse y cuándo una fase de pruebas se da por terminada.
- Alcance: funcionalidades cubiertas y excluidas explícitamente
- Tipos de pruebas: unitarias, integración, E2E, rendimiento, seguridad
- Entorno de pruebas: infraestructura, datos de prueba, herramientas
- Criterios de aceptación: qué es un defecto, qué es crítico, qué es menor
- Métricas: cobertura de código, densidad de defectos, tiempo de detección
La pirámide de pruebas como modelo de distribución
La pirámide de pruebas, popularizada por Mike Cohn, sugiere que la mayor cantidad de pruebas deben ser unitarias (rápidas, baratas, muchas), un número menor debe ser de integración, y la capa más pequeña debe ser de pruebas E2E o de sistema. Esta distribución no es arbitraria: responde a la relación entre costo, velocidad de ejecución y confiabilidad.
Las pruebas E2E son las más valiosas para el usuario final, pero también las más frágiles y costosas de mantener. Si la mayoría de la cobertura depende de E2E, el pipeline de CI será lento, las pruebas fallarán con cambios menores de UI, y el equipo perderá confianza en ellas. La pirámide invierte esta dependencia: los E2E son la capa delgada de confianza final, no la base.
Define el mapa de riesgos
¿Qué partes del sistema tienen mayor impacto si fallan? ¿Qué áreas tienen más probabilidad de cambiar? Concentra la cobertura donde el riesgo es mayor, no donde es más fácil de probar.
Establece los ambientes desde el sprint 1
Define ambientes de desarrollo, staging y producción con datos de prueba representativos. La falta de un ambiente de staging estable es la causa número uno de pruebas inútiles.
Integra las pruebas en el pipeline de CI/CD
Las pruebas que no se ejecutan automáticamente con cada cambio pierden su valor preventivo. Configura el pipeline para que un fallo de prueba bloquee el merge a la rama principal.
Métricas para evaluar la efectividad de la estrategia
Una estrategia de pruebas sin métricas es una declaración de intenciones. Las métricas clave incluyen la cobertura de código (qué porcentaje del código es ejecutado por las pruebas), la densidad de defectos (número de bugs encontrados por línea de código o por funcionalidad), y el tiempo de detección (cuánto tarda en detectarse un defecto desde que se introduce en el código).
Tan importante como medir es interpretar correctamente. Una cobertura del 80% no garantiza calidad si el 20% sin cubrir corresponde a la lógica crítica de negocio. La densidad de defectos alta puede indicar requisitos ambiguos, no solo código de mala calidad. Las métricas son síntomas; el diagnóstico requiere contexto.