En los estudios de bioequivalencia (BE), no se trata de demostrar que un medicamento es mejor que otro, sino de probar que dos versiones -una original y otra genérica- se comportan de forma casi idéntica en el cuerpo. Si el análisis estadístico falla, un medicamento seguro y efectivo podría ser rechazado, o peor aún, uno que no funciona igual podría pasar la prueba. La clave está en dos números: la potencia y el tamaño de muestra. Estos no son detalles técnicos secundarios; son el fundamento mismo de la validez de todo el estudio.
¿Por qué la potencia y el tamaño de muestra importan tanto?
Imagina que estás probando una pastilla genérica contra la marca original. Ambas contienen el mismo principio activo, pero ¿se absorben igual? El estudio de bioequivalencia mide eso con dos parámetros clave: la concentración máxima en sangre (Cmax) y el área bajo la curva (AUC). Estos valores no siguen una distribución normal, sino log-normal. Por eso, los análisis se hacen en escala logarítmica.
La potencia estadística (1 - β) es la probabilidad de detectar una diferencia real si existe. En estudios de bioequivalencia, se exige típicamente una potencia del 80% o 90%. Eso significa que, si los medicamentos son realmente equivalentes, el estudio tiene un 80-90% de chances de demostrarlo. Si la potencia es menor, el riesgo de un falso negativo -decir que no son equivalentes cuando sí lo son- aumenta. Y eso puede costar millones en retrasos, estudios repetidos y pérdida de acceso a medicamentos asequibles.
El tamaño de muestra es el resultado de ese cálculo de potencia. No es una estimación arbitraria. Es una respuesta matemática a preguntas concretas: ¿cuánta variabilidad hay entre los sujetos? ¿Qué relación espero entre las concentraciones del medicamento test y el de referencia? ¿Qué margen de equivalencia acepto?
Los tres pilares del cálculo: CV%, GMR y márgenes de equivalencia
Para calcular cuántos participantes necesitas, solo necesitas tres datos clave.
- Coeficiente de variación intra-sujeto (CV%): mide cuánto varía la respuesta de una misma persona al tomar el mismo medicamento en diferentes ocasiones. Si el CV% es bajo (menos del 10%), necesitas solo 12-18 voluntarios. Si es alto (más del 30%), podrías necesitar 50 o más. Un CV% de 20% suele requerir alrededor de 26 sujetos con potencia del 80%. Si subes a 30%, el número se duplica.
- Relación de medias geométricas (GMR): es la proporción esperada entre la concentración del medicamento genérico y el de referencia. Se asume comúnmente entre 0.95 y 1.05. Si asumes un GMR perfecto de 1.00, pero en realidad es 0.95, tu cálculo de muestra puede estar subestimado en un 32%. Eso significa que el estudio podría fallar por no tener suficientes participantes.
- Márgenes de equivalencia: en la mayoría de los casos, se acepta que los medicamentos son bioequivalentes si la relación de sus concentraciones está entre el 80% y el 125%. Pero para algunos fármacos altamente variables (como los anticoagulantes o ciertos antiepilépticos), la Agencia Europea de Medicamentos (EMA) permite márgenes más amplios, hasta 75-133% para Cmax. Esto reduce el tamaño de muestra necesario en un 15-20%.
Estos tres valores se introducen en fórmulas estadísticas complejas. Una versión simplificada es: N = 2 × (σ² × (Z₁₋α + Z₁₋β)²) / (ln(θ₁) - ln(GMR))². Pero nadie la calcula a mano. Se usan herramientas como PASS, nQuery o FARTSSIE. Lo importante es entender qué entra en ellas y por qué.
Errores comunes que arruinan estudios de bioequivalencia
La mayoría de los estudios que fracasan por razones estadísticas no lo hacen por mala suerte. Lo hacen por errores predecibles.
- Usar CV% de literatura sin validar: un estudio de la FDA encontró que los valores de CV% tomados de artículos anteriores subestiman la variabilidad real en un 5-8% en el 63% de los casos. Si confías en datos viejos, tu muestra será demasiado pequeña.
- Ignorar las pérdidas: siempre hay voluntarios que se retiran. La práctica recomendada es aumentar el tamaño calculado entre un 10% y un 15%. Si necesitas 26 sujetos, planifica para 30. Si no lo haces, y se van 4, tu potencia cae de 80% a 65% -y ya no puedes confiar en los resultados.
- Calcular potencia solo para Cmax o AUC, no para ambos: el 55% de los estudios no consideran la potencia conjunta. Si Cmax tiene una potencia del 85% y AUC del 75%, la probabilidad de que ambos pasen juntos es solo del 64%. Eso significa que casi 1 de cada 3 estudios que parecen exitosos en un parámetro, fallan en el otro.
- No documentar el proceso: la FDA y la EMA piden explícitamente que se incluya el software usado, las versiones, los valores exactos de entrada y la justificación de cada suposición. Sin esto, tu estudio puede ser rechazado por falta de transparencia, aunque los resultados sean buenos.
¿Qué pasa con los fármacos altamente variables?
Algunos medicamentos -como el warfarina, el fenitoína o ciertos fármacos contra el cáncer- tienen una variabilidad tan alta que, con los márgenes tradicionales de 80-125%, necesitarías más de 100 participantes. Eso es inviable en la práctica.
Para estos casos, existe un método llamado bioequivalencia promedio escalada por referencia (RSABE). En lugar de usar un margen fijo, el margen se amplía según la variabilidad observada en el estudio. Por ejemplo, si el CV% es del 35%, el margen puede extenderse hasta 69.8-143.2%. Esto reduce drásticamente el tamaño de muestra: de 120 a 24-48 sujetos.
La FDA permite RSABE para fármacos con CV% > 30%. La EMA también lo acepta, pero con condiciones más estrictas. No es un atajo: requiere un diseño más robusto, análisis más complejos y una justificación clara. Pero es la única forma razonable de estudiar estos medicamentos sin poner en riesgo a cientos de voluntarios.
¿Qué herramientas usan los profesionales?
No hay un solo programa correcto, pero sí uno más usado en la industria: PASS 15. Es el más completo para estudios de bioequivalencia, con opciones preconfiguradas para crossover, paralelo, RSABE y múltiples parámetros. FARTSSIE es una alternativa gratuita y confiable, especialmente para investigadores académicos. nQuery también es popular, pero más costoso.
Lo que importa no es el software, sino cómo lo usas. Los estadísticos experimentados lo usan de forma iterativa: prueban diferentes escenarios. ¿Qué pasa si el CV% es un 5% más alto? ¿Y si el GMR es 0.93 en vez de 1.00? ¿Qué pasa si la pérdida es del 20% en vez del 10%? Eso no es perfeccionismo. Es responsabilidad.
¿Cuál es la diferencia entre FDA y EMA?
En esencia, ambas agencias exigen lo mismo: potencia del 80-90%, alfa = 0.05, márgenes de 80-125%. Pero hay matices.
- La FDA suele exigir potencia del 90% para fármacos de índice terapéutico estrecho (como la digoxina o la ciclosporina), mientras que la EMA acepta 80% en la mayoría de los casos.
- La EMA permite márgenes más amplios para Cmax en ciertos fármacos, lo que puede reducir el tamaño de muestra.
- La FDA exige documentación detallada del cálculo, incluyendo el software y versiones. La EMA lo pide, pero con menos rigor en la revisión inicial.
Esto crea un desafío para las empresas que quieren comercializar sus productos en ambos mercados. La mejor estrategia es diseñar el estudio para cumplir con el requisito más estricto: potencia del 90%, márgenes de 80-125%, y ajuste por pérdidas. Así, no necesitas volver a hacer el estudio si quieres entrar a EE.UU. después de Europa.
El futuro: ¿cambiará todo esto?
El análisis estadístico en bioequivalencia no está estancado. La FDA ya está explorando enfoques basados en modelos (model-informed bioequivalence), que usan simulaciones y datos previos para predecir la equivalencia con menos sujetos. Algunos estudios piloto han reducido el tamaño de muestra hasta en un 50%.
Pero no es el futuro inmediato. Solo el 5% de los estudios actuales lo usan. La razón: la regulación aún no lo ha estandarizado. Mientras tanto, el método clásico -basado en potencia, CV%, GMR y márgenes- sigue siendo el estándar global. Y lo seguirá siendo por los próximos años.
Lo que sí está cambiando es la exigencia de transparencia. Ya no basta con decir "calculamos el tamaño de muestra". Tienes que mostrar cómo, por qué y qué suposiciones hiciste. Porque detrás de cada número hay un paciente que espera un medicamento seguro, efectivo y asequible.
¿Cuál es el tamaño de muestra mínimo aceptable en un estudio de bioequivalencia?
El tamaño mínimo aceptable es de 12 sujetos, pero solo bajo condiciones ideales: CV% muy bajo (menos del 10%), GMR cercano a 1.00, y sin pérdidas esperadas. En la práctica, la mayoría de los estudios empiezan en 20-24 sujetos. Si el CV% supera el 25%, se necesitan más de 40. Un estudio con menos de 12 sujetos es casi siempre considerado subpotente por las agencias regulatorias.
¿Puedo usar un tamaño de muestra basado en un estudio anterior?
Sí, pero con precaución. Los valores de CV% y GMR de estudios anteriores son solo una guía. La FDA ha demostrado que los datos de literatura subestiman la variabilidad real en el 63% de los casos. Lo ideal es usar datos de un estudio piloto propio. Si no tienes uno, aplica un margen de seguridad: aumenta el CV% estimado en un 5-10% y recalcula. Es mejor sobrestimar que subestimar.
¿Por qué se usan logaritmos en los cálculos de bioequivalencia?
Porque las concentraciones de fármacos en sangre (Cmax y AUC) siguen una distribución log-normal, no normal. Esto significa que los valores no están simétricamente distribuidos: hay muchos valores bajos y pocos muy altos. Al aplicar logaritmos, los datos se transforman en una distribución normal, lo que permite usar métodos estadísticos estándar como el ANOVA. Además, la equivalencia en escala logarítmica se traduce directamente en una relación de proporciones (GMR) en escala original, que es lo que realmente importa.
¿Qué pasa si mi estudio falla por falta de potencia?
Si el estudio falla porque no logró demostrar bioequivalencia por baja potencia, no puedes simplemente añadir más sujetos y volver a analizar. Eso viola los principios de la estadística inferencial. Debes volver a diseñar el estudio: revisar los supuestos de CV% y GMR, justificar un nuevo tamaño de muestra, y hacer un nuevo ensayo clínico. Las agencias rechazan estudios reanalizados de esta forma. La única excepción es si usaste un diseño adaptativo con reestimación de muestra predefinida, lo cual es raro y requiere aprobación previa.
¿Es más fácil demostrar bioequivalencia en fármacos con alta o baja variabilidad?
Es más fácil en fármacos con baja variabilidad. Con CV% bajo, necesitas menos sujetos y los márgenes de equivalencia son fijos. En fármacos con alta variabilidad, aunque el método RSABE reduce el tamaño de muestra, el análisis es más complejo, requiere más datos y está sujeto a mayor escrutinio regulatorio. Además, si no calificas para RSABE, necesitas tantos sujetos que el estudio se vuelve inviable. Por eso, los fármacos con alta variabilidad son los más difíciles de desarrollar como genéricos.
Laura Gutiérrez
Me encanta cómo explicaste esto, realmente clarísimo. Yo trabajé en un estudio de BE hace dos años y me di cuenta de que nadie se tomaba en serio el CV% de la literatura... hasta que el estudio se fue al garete. Ahora siempre ajusto un +10% por seguridad. No es perfeccionismo, es supervivencia profesional.
Y sí, lo de las pérdidas... ¡qué drama! Si no aumentas el tamaño, te quedas con 18 sujetos y una potencia del 60%. No vale la pena.
Gracias por recordar que detrás de cada número hay un paciente que necesita su medicamento.
¡Y por favor, no usen Excel para esto!
Agustin Lopez
Interesante. En España, muchas veces se prioriza la rapidez sobre la rigurosidad. Yo he visto estudios con 16 sujetos y CV% de 40%... y aun así los aprobaron. No es que no sean válidos, es que no deberían existir.
La FDA tiene razón: si no documentas los supuestos, no es ciencia, es magia.
Katherine Hinojosa
¡SÍ! ¡ESTO ES LO QUE NECESITAMOS MÁS EN LA INDUSTRIA! ¡NO MÁS ESTUDIOS DE 12 PERSONAS PORQUE ‘SE VEN BIEN’! ¡NOSOTRAS LAS MUJERES EN CIENCIA TENEMOS QUE PELEAR POR ESTÁNDARES MÁS ALTOS! ¡NO ES SOLO ESTADÍSTICA, ES ÉTICA!
rosa maria alonso ferragud
Me da pena ver cómo se juega con la salud de la gente. Uno se imagina que las agencias reguladoras son guardianas... pero no, son burocracias que aceptan cualquier cosa si el laboratorio tiene buen lobby.
Y luego nos sorprendemos de que los genéricos no funcionen igual... ¿qué esperaban?
Wendy León
¿Alguien más se ha dado cuenta de que los que diseñan estos estudios nunca tienen que tomar los medicamentos? Yo sí. Y me encantaría que alguien me explicara por qué tengo que probar un genérico que ‘estadísticamente es igual’... pero me da mareos y me sube la presión.
¿No será que la estadística miente?
Jose Antonio Pascual
Esto es lo que pasa cuando los biólogos hacen estadística. Si no sabes lo que es un log-normal, no deberías estar diseñando estudios. La mayoría de los autores de estos papers ni siquiera entienden el teorema central del límite.
Y luego se quejan de que no los publican en Nature.