2026, Número 2
Desempeño comparativo entre modelos de inteligencia artificial y médicos residentes en un examen clínico tipo ABIM
Idioma: Español
Referencias bibliográficas: 16
Paginas: 118-124
Archivo PDF: 334.25 Kb.
RESUMEN
Este estudio evaluó el desempeño académico de cuatro modelos de inteligencia artificial (ChatGPT-4, Gemini 2.5, Claude 3.7 y DeepSeek R1) y médicos residentes de Medicina Interna al resolver un examen clínico tipo ABIM. Se compararon los promedios de respuestas correctas entre grupos, considerando también la consistencia de sus resultados. Gemini 2.5 obtuvo el puntaje más alto (98.3%, DE = 1.76), seguido de Claude 3.7 (93.3%, DE = 2.11), ChatGPT-4 (92.7%, DE = 2.00) y DeepSeek R1 (90.7%, DE = 3.06). En contraste, los residentes alcanzaron un promedio significativamente menor (60.4%, DE = 12.04). Todas las IA superaron estadísticamente a los residentes; Gemini 2.5 mostró diferencias significativas frente a los otros modelos. Las menores desviaciones estándar en los modelos de IA indican una mayor consistencia en sus respuestas frente a la amplia variabilidad observada en el grupo humano.ABREVIATURAS:
- ABIM = American Board of Internal Medicine (Junta Estadounidense de Medicina Interna)
- IA = inteligencia artificial
- MKSAP = Medical Knowledge Self-Assessment Program (Programa de Autoevaluación del Conocimiento Médico)
- USMLE = United States Medical Licensing Examination (Examen de Licencia Médica de los Estados Unidos)
INTRODUCCIóN
El uso de la inteligencia artificial (IA) ha emergido como una herramienta clave en salud, mejorando la eficiencia clínica y los desenlaces. En 1950, Alan Turing propuso simular el pensamiento humano con el uso de máquinas.1 En 1956, John McCarthy acuñó el término "inteligencia artificial", anticipando su potencial para igualar la inteligencia humana.1,2
Desde sus inicios, la IA ha dado lugar a desarrollos notables como el brazo robótico de General Motors, el programa ELIZA, bases de datos como PubMed y sistema diagnóstico como CASNET, MYCIN, INTERNIST-1 y DXplain.1-3 En años más recientes, plataformas como IBM Watson han demostrado su capacidad para diagnosticar enfermedades complejas.1,2
Actualmente, el desarrollo de modelos de IA ha generado debate sobre su utilidad y la posibilidad de reemplazar funciones médicas humanas.4,5 Su uso se ha enfocado al diagnóstico por imagen, electrodiagnóstico y pruebas genéticas, particularmente en enfermedades oncológicas, neurológicas y cardiovasculares.4,6
Desde su lanzamiento en 2022, ChatGPT (un modelo generativo preentrenado tipo transformer, basado en técnicas de aprendizaje automático y procesamiento de lenguaje natural, que permite interacciones conversacionales complejas)3,6 ha sido ampliamente evaluado. GPT-4, entrenado con datos públicos hasta septiembre de 2021, ha demostrado conocimiento clínico.7 Estudios compararon su desempeño con médicos en varios contextos. En Israel, GPT-4 superó a médicos en exámenes de certificación.7 En Polonia, GPT-3.5 aprobó el examen final de medicina varias veces. En España, GPT-4 logró un 86.8% en el examen MIR (Médico Interno Residente), superando a GPT-3.5.8,9 En Estado Unidos, GPT-4 obtuvo resultados cercanos al aprobado en el United States Medical Licensing Examination (USMLE), destacando en pasos clínicos.10 En Alemania, GPT-4 alcanzó un 85% en el examen de licencia médica, superando el promedio estudiantil.11 Se exploraron además sus habilidades interpersonales; en preguntas del USMLE sobre habilidades blandas, GPT-4 tuvo un 90% de precisión, mejor que GPT-3.5 y usuarios de AMBOSS.12
Estudios recientes evalúan modelos de lenguaje en medicina. ChatGPT o1 (septiembre 2024) mejoró en razonamiento complejo frente a GPT-4.12,13 GPT-4 (73.3%) y Claude 2 (54.4%) superaron en nefrología a modelos abiertos, destacando su utilidad.14,15 En el examen nacional de licencia médica de Japón, GPT-4o (89.2% general, 95% en preguntas fáciles) superó a Claude 3, Gemini 1.5 y GPT-4, respaldando su valor educativo.15,16
Pese a la creciente evidencia sobre ChatGPT-4, faltan estudios que comparen directamente su rendimiento académico con otros modelos avanzados (Claude 3.7, Gemini 2.5, DeepSeek R1) en evaluaciones médicas formales. Este estudio busca evaluar el desempeño académico de estos cuatro modelos de IA y el de residentes de Medicina Interna en un examen tipo ABIM (American Board of Internal Medicine), analizando las diferencias entre las IA para evaluar su precisión, consistencia y potencial educativo complementario.
MATERIAL Y MéTODOS
DISEÑO DEL ESTUDIO
Se llevó a cabo un estudio observacional, de corte transversal, con el objetivo de evaluar el desempeño académico de modelos de inteligencia artificial (ChatGPT-4, Claude 3.7, Gemini 2.5 y DeepSeek R1) y de residentes de Medicina Interna, utilizando un instrumento tipo ABIM. El análisis evaluó precisión, variabilidad y diferencias estadísticas.
INSTRUMENTO DE EVALUACIÓN
Se utilizó como instrumento de evaluación un cuestionario de 30 preguntas de opción múltiple, seleccionadas del banco de preguntas MKSAP (Medical Knowledge Self-Assessment Program), una herramienta reconocida y validada para la preparación del examen ABIM. El cuestionario fue diseñado para evaluar conocimientos clínicos en medicina interna y asegurar una distribución temática representativa. Para ello, se incluyeron tres preguntas de cada una de las siguientes 10 subespecialidades: Cardiología, Endocrinología, Gastroenterología, Hematología, Infectología, Nefrología, Neurología, Oncología, Neumología y Reumatología. Todas las preguntas seguían el formato de opción múltiple con una única respuesta correcta, buscando mantener una dificultad homogénea acorde a los estándares del ABIM.
PARTICIPANTES
Se incluyó en el estudio a 38 médicos residentes del programa de Medicina Interna del Angeles Health System, distribuidos por año de residencia de la siguiente manera: 13 de primer año (R1), 10 de segundo año (R2), 9 de tercer año (R3) y 6 de cuarto año (R4). La selección se realizó mediante un muestreo por conveniencia, asegurando la participación voluntaria y anónima, y obteniendo consentimiento informado previo. Se realizó una comparación entre cinco grupos: un grupo humano, conformado por residentes de Medicina Interna, y cuatro modelos de lenguaje de IA, los cuales fueron evaluados a través de sus interfaces web oficiales entre marzo y abril de 2025. Estos modelos incluyeron: ChatGPT-4 (OpenAI), Claude (Anthropic, versión 3.7), Gemini (Google DeepMind, versión 2.5) y DeepSeek (DeepSeek AI, versión R1).
PROCEDIMIENTO
La recolección de datos siguió protocolos distintos para los modelos de IA y los participantes humanos. Para evaluar los modelos de IA, se administró el cuestionario de 30 preguntas a cada modelo en 10 pruebas independientes. Cada prueba se realizó en una sesión de interacción nueva (iniciada desde cero, con historial limpio o diferente cuenta) para evitar el arrastre de contexto o memoria conversacional entre evaluaciones. Se utilizó un prompt estandarizado para realizar cada pregunta a cada una de las IA. La opción de respuesta seleccionada por cada modelo fue registrada manualmente. Este enfoque de múltiples ensayos tuvo como finalidad evaluar la homogeneidad de las respuestas generadas con IA.
Para los médicos residentes, el cuestionario se administró en una única sesión por participante, utilizando la plataforma digital Socrative (Socrative Inc., USA). La prueba se realizó bajo condiciones controladas, con un límite de tiempo estricto de 40 minutos. Durante la evaluación, no se permitió a los residentes el acceso a materiales de consulta externos ni se les proporcionó ningún tipo de retroalimentación sobre el acierto o error en sus respuestas.
ANÁLISIS ESTADÍSTICO
El análisis estadístico de los datos se realizó utilizando el software IBM SPSS Statistics (versión 30.0). Se calcularon estadísticas descriptivas, incluyendo media y desviación estándar del porcentaje de respuestas correctas para cada uno de los cinco grupos (cuatro modelos de IA y el grupo de residentes). Para fines del análisis comparativo inferencial, las 10 puntuaciones obtenidas para cada modelo de IA se trataron como observaciones individuales, resultando en N = 10 por cada modelo de IA y N = 38 para el grupo de residentes.
Dado que la prueba de Levene para la homogeneidad de varianzas resultó significativa (p < 0.001), se identificó heterocedasticidad entre los grupos. Adicionalmente, se evaluó la normalidad de las distribuciones por grupo mediante la prueba de Shapiro-Wilk. Los resultados mostraron que los modelos ChatGPT-4, Claude 3.7 y Gemini 2.5 presentaron distribuciones no normales (p < 0.001), mientras que DeepSeek R1 (p = 0.191) y el grupo de residentes (p = 0.431) mostraron distribuciones compatibles con la normalidad. Por esta razón, se decidió emplear un análisis de varianza robusto de Welch para evaluar las diferencias globales en el rendimiento entre los grupos.
Posteriormente, se realizaron comparaciones múltiples post hoc entre pares de grupos mediante la prueba de Games-Howell, adecuada para varianzas desiguales. Se estableció un nivel de significancia alfa de p < 0.05 para todas las pruebas. Adicionalmente, se utilizó la desviación estándar intragrupo como una medida descriptiva de la variabilidad (consistencia) del desempeño dentro de cada grupo.
RESULTADOS
Se evaluó el desempeño de cinco grupos en un examen médico tipo ABIM: cuatro modelos de inteligencia artificial (ChatGPT 4, Gemini 2.5, Claude 3.7 y DeepSeek R1) y un grupo de residentes humanos. En promedio, los modelos de IA obtuvieron mejores resultados que los residentes. El modelo con mayor puntaje fue Gemini 2.5, con una media de 98.33 puntos (DE = 1.76), seguido de Claude 3.7 (M = 93.33) y ChatGPT 4 (M = 92.67). Por otro lado, el grupo de residentes obtuvo un promedio considerablemente más bajo, con 60.43 puntos (DE = 12.04) (Tabla 1 y Figura 1).
Dado que se encontró una diferencia significativa en la variabilidad de los resultados (prueba de Levene: p < 0.001), se aplicó un análisis estadístico (ANOVA de Welch) que confirmó diferencias importantes entre los grupos (F [4, 22.20] = 85.29, p < 0.001). El tamaño del efecto fue alto (η2 = 0.799; ω2 = 0.785), lo que indica que el tipo de grupo (IA vs residentes) explica cerca del 80% de la variabilidad observada en el desempeño.
El análisis post hoc (Games-Howell) mostró que Gemini 2.5 superó significativamente a los demás modelos de IA, incluyendo a ChatGPT 4 (diferencia media = 5.66 puntos, IC95%: 3.03-8.30), a Claude 3.7 (Δ = 5.00, IC95%: 3.13-6.87) y a DeepSeek R1 (Δ = 7.67, IC95%: 3.83-11.50), con p < 0.001 en todos los casos (Tabla 2).
En cambio, no se encontraron diferencias estadísticamente significativas entre ChatGPT 4, Claude 3.7 y DeepSeek R1, lo que sugiere un desempeño similar entre ellos (p > 0.05). Todos los modelos de IA tuvieron un rendimiento significativamente superior al de los residentes humanos, con diferencias que oscilaron entre 30 y 40 puntos (p < 0.001).
Finalmente, al analizar los subgrupos de residentes por año de formación (R1 a R4), se observó una progresión en el rendimiento académico, siendo los residentes de cuarto año (R4) quienes obtuvieron el promedio más alto entre los humanos (69.6%, DE = 14.3), en contraste con los de primer año (R1), que registraron el puntaje más bajo (57.6%, DE = 9.1). Sin embargo, ninguno de los subgrupos alcanzó los resultados obtenidos por los modelos de inteligencia artificial, todos con promedios superiores al 90%. Las comparaciones post hoc mediante la prueba de Games-Howell confirmaron que los R1 fueron significativamente superados por todos los modelos de IA (p < 0.001), mientras que los R4 mostraron diferencias significativas sólo frente a Gemini 2.5 (p = 0.039) y DeepSeek R1 (p = 0.048), pero no frente a ChatGPT-4 ni Claude 3.7 (p > 0.05). La comparación directa entre los grupos R1 y R4 no alcanzaron significancia estadística (p = 0.592), aunque se identificó una tendencia a mejor desempeño con el avance en la formación clínica. Estas diferencias, no obstante, se vieron acompañadas de una alta variabilidad intragrupo entre los residentes, lo cual se refleja en sus amplios intervalos de confianza (Tabla 3).
DISCUSIóN
En este estudio se comparó el desempeño académico ante un examen clínico estandarizado de conocimientos entre cuatro modelos de inteligencia artificial (ChatGPT-4, Claude 3.7, Gemini 2.5 y DeepSeek R1) y residentes de Medicina Interna, utilizando un instrumento tipo ABIM. Los resultados mostraron que todos los modelos de inteligencia artificial obtuvieron puntajes superiores al del grupo de residentes, lo cual se correlaciona con hallazgos previos en Israel, España y Alemania.7-11
Un hallazgo relevante fue la menor variabilidad intragrupo en las respuestas de los modelos de IA, lo cual puede atribuirse a su consistencia algorítmica. Esto contrasta con la heterogeneidad natural entre humanos, influenciada por factores como experiencia clínica, preparación individual y estados emocionales. Entre los modelos, Gemini 2.5 fue el de mejor rendimiento, superando significativamente a los demás.
Estos hallazgos tienen implicaciones relevantes para la educación médica, particularmente en el diseño de herramientas de apoyo al aprendizaje. Los modelos de IA podrían funcionar como tutores virtuales, asistentes para simulación clínica o instrumentos complementarios en la preparación para exámenes, siempre bajo supervisión crítica por parte de profesionales humanos.
El estudio presenta limitaciones importantes relacionadas con el tamaño y la representatividad de la muestra. El número de casos por grupo fue reducido, especialmente para los modelos de IA (n = 10 por modelo), y todos los residentes pertenecen a un sólo centro, lo que limita la generalización de los hallazgos. Aunque se utilizó el mismo instrumento de evaluación para todos los participantes, las condiciones bajo las cuales se administró la prueba fueron marcadamente distintas entre IA y humanos.
Las IA respondieron el examen en 10 ocasiones independientes, sin límite de tiempo, sin exposición a fatiga o ansiedad, y con acceso completo a su base de conocimiento entrenado. En contraste, los residentes realizaron el examen en una única sesión, bajo una estricta limitación de tiempo (40 minutos), sin acceso a recursos externos y sometidos a presión cognitiva y emocional. Esta asimetría metodológica favorece a las IA, por lo que los resultados deben interpretarse como una estimación de su techo de rendimiento en condiciones ideales, más que como una comparación directa del conocimiento clínico neto.
Si bien se observó una alta consistencia en las respuestas de los modelos, ésta no debe asumirse como una propiedad generalizable de toda la inteligencia artificial; aunque hayan alcanzado un nivel notable de desempeño en el ámbito médico, no todos los modelos ofrecen la misma capacidad para resolver problemas clínicos complejos. Cada modelo fue construido con diferentes arquitecturas, corpus de entrenamiento, mecanismos de alineación y principios éticos, lo que influye en su forma de razonar, interpretar preguntas y producir respuestas. También deben considerarse los sesgos relacionados con el input: pequeñas variaciones en la redacción de las preguntas pueden alterar significativamente las respuestas generadas por los modelos.
Asimismo, el presente estudio se centró exclusivamente en resultados cuantitativos, sin explorar dimensiones cualitativas como el razonamiento clínico, la toma de decisiones en contextos dinámicos o la interacción médico-paciente. Estos elementos son esenciales para evaluar la verdadera utilidad clínica de cualquier herramienta de apoyo basada en IA.
Estudios futuros deberían usar cuestionarios más amplios y por especialidad, evaluando el impacto de la IA en la práctica clínica, su capacidad para justificar diagnósticos y colaborar con médicos. También es valioso analizar si reformular preguntas incorrectas o pedir justificaciones mejora la comprensión de su lógica, evaluando así precisión y calidad explicativa para su integración educativa y clínica.
CONCLUSIONES
Los modelos de inteligencia artificial evaluados en este estudio demostraron un desempeño superior al de los residentes de Medicina Interna en una prueba tipo ABIM, como era esperado. Estos hallazgos sugieren que las IA avanzadas poseen un potencial significativo como herramientas complementarias en la educación médica. Sin embargo, se observaron diferencias entre los modelos actuales en cuanto a su rendimiento y la variabilidad en las respuestas proporcionadas.
Este trabajo plantea la pregunta de si los residentes mejorarían sus resultados al repetir el examen en múltiples ocasiones o al realizarlo con libro abierto o con acceso a una base de datos médica confiable.
Futuras investigaciones deberán explorar no sólo el rendimiento de estas herramientas en otras áreas del conocimiento médico, sino también su utilidad en la práctica clínica, el desarrollo de habilidades blandas, el razonamiento clínico y su integración en entornos reales de enseñanza-aprendizaje. Una posible aplicación sería utilizar estos exámenes para evaluar a las IAs documentando el razonamiento detrás de cada respuesta incorrecta, así como la bibliografía que la respalda.
Las IA no logran un 100% de respuestas correctas debido a su dependencia de datos de entrenamiento, interpretación probabilística del lenguaje, falta de razonamiento clínico contextual y posibles sesgos algorítmicos. Algunos errores podrían originarse en el diseño del examen o en factores relacionados con los residentes al realizarlo.
Estas limitaciones subrayan la importancia de complementar el uso de la inteligencia artificial con el juicio crítico y la supervisión de profesionales humanos.
AGRADECIMIENTOS
Al Dr. Paolo Alberti Minutti por su orientación metodológica.
REFERENCIAS (EN ESTE ARTÍCULO)
AFILIACIONES
1 Residente de Medicina Interna, Hospital Angeles Pedregal (HAP). Facultad Mexicana de Medicina de la Universidad La Salle. Ciudad de México, México.
2 Profesor adjunto del curso de Medicina Interna, HAP. Ciudad de México, México. ORCID: 0000-0001-5680-4743
3 Residente de Oncología Médica, Instituto Nacional de Ciencias Médicas y Nutrición "Salvador Zubirán". Ciudad de México, México. ORCID: 0009-0007-7137-0315
4 Pasante médico de Servicio Social, Universidad del Valle de México. Ciudad de México, México. ORCID: 0000-0002-0671-371X
5 Adscrito de Nefrología, HAP. Ciudad de México, México. ORCID: 0009-0008-0602-9927
6 Adscrito de Medicina Interna, HAP. Ciudad de México, México. ORCID: 0009-0007-9212-7322
7 Profesor titular del curso de Medicina Interna, HAP. Ciudad de México, México. ORCID: 0000-0003-2449-9662
ORCID:
8 0009-0009-5554-6127
9 0000-0002-8030-3161
Si desea consultar los datos complementarios de este artículo, favor de dirigirse a editorial.actamedica@saludangeles.mx
CORRESPONDENCIA
Dr. César Adolfo Nieves Pérez. Correo electrónico: nievescesar96@gmail.comRecibido: 11-04-2025. Aceptado: 21-05-2025.