medigraphic.com
ENGLISH

Acta Médica Grupo Angeles

Órgano Oficial del Hospital Angeles Health System
  • Mostrar índice
  • Números disponibles
  • Información
    • Información general        
    • Directorio
  • Publicar
    • Instrucciones para autores        
    • Envío de artículos
    • Nombre y afiliación del Comité Editorial
  • Políticas
  • Nosotros
    • Plan de gestión e intercambio de datos
    • Objetivos declarados y alcance
  • medigraphic.com
    • Inicio
    • Índice de revistas            
    • Registro / Acceso
  • Mi perfil

2026, Número 2

<< Anterior Siguiente >>

Acta Med 2026; 24 (2)


Desempeño comparativo entre modelos de inteligencia artificial y médicos residentes en un examen clínico tipo ABIM

Nieves PCA, Rodríguez WFL, Molina OMC, Núñez HJC, Rivera TA, Rojas MA, Corona DA, Díaz GEJ
Texto completo Cómo citar este artículo Artículos similares

Idioma: Español
Referencias bibliográficas: 16
Paginas: 118-124
Archivo PDF: 330.29 Kb.


PALABRAS CLAVE

inteligencia artificial, ChatGPT, modelos de lenguaje grande, desempeño académico, ABIM.

RESUMEN

Este estudio evaluó el desempeño académico de cuatro modelos de inteligencia artificial (ChatGPT-4, Gemini 2.5, Claude 3.7 y DeepSeek R1) y médicos residentes de Medicina Interna al resolver un examen clínico tipo ABIM. Se compararon los promedios de respuestas correctas entre grupos, considerando también la consistencia de sus resultados. Gemini 2.5 obtuvo el puntaje más alto (98.3%, DE = 1.76), seguido de Claude 3.7 (93.3%, DE = 2.11), ChatGPT-4 (92.7%, DE = 2.00) y DeepSeek R1 (90.7%, DE = 3.06). En contraste, los residentes alcanzaron un promedio significativamente menor (60.4%, DE = 12.04). Todas las IA superaron estadísticamente a los residentes; Gemini 2.5 mostró diferencias significativas frente a los otros modelos. Las menores desviaciones estándar en los modelos de IA indican una mayor consistencia en sus respuestas frente a la amplia variabilidad observada en el grupo humano.


REFERENCIAS (EN ESTE ARTÍCULO)

  1. Kaul V, Enslin S, Gross SA. History of artificial intelligence in medicine.Gastrointest Endosc. 2020; 92: 807-812.

  2. Hirani R, Noruzi K, Khuram H, Hussaini AS, Aifuwa EI, Ely KE etal. Artificial intelligence and healthcare: a journey through history,present innovations, and future possibilities. Life (Basel). 2024; 14(5): 557.

  3. Al Kuwaiti A, Nazer K, Al-Reedy A, Al-Shehri S, Al-Muhanna A,Subbarayalu AV et al. A review of the role of artificial intelligence inhealthcare. J Pers Med. 2023; 13 (6): 951.

  4. Jiang F, Jiang Y, Zhi H, Dong Y, Li H, Ma S et al. Artificial intelligencein healthcare: Past, present and future. Stroke Vasc Neurol. 2017; 2:230-243.

  5. Khan B, Fatima H, Qureshi A, Kumar S, Hanan A, Hussain J et al.Drawbacks of artificial intelligence and their potential solutions inthe healthcare sector. Biomed Mater Devices. 2023: 1-8.

  6. Chakraborty C, Bhattacharya M, Pal S, Lee SS. From machine learningto deep learning: Advances of the recent data-driven paradigm shiftin medicine and healthcare. Curr Res Biotechnol. 2024; 7: 100164.

  7. Katz Katz U, Cohen E, Shachar E, Somer J, Fink A, Morse E et al. GPTversus resident physicians — a benchmark based on official boardscores. NEJM AI. 2024; 1 (5): AIdbp2300192.

  8. Suwala S, Szulc P, Guzowski C, Kaminska B, Dorobiala J,Wojciechowska K et al. ChatGPT-3.5 passes Poland’s medical finalexamination-Is it possible for ChatGPT to become a doctor in Poland?SAGE Open Med. 2024; 12: 20503121241257777.

  9. Guillen-Grima F, Guillen-Aguinaga S, Guillen-Aguinaga L, Alas-BrunR, Onambele L, Ortega W et al. Evaluating the efficacy of chatgpt innavigating the spanish medical residency entrance examination (MIR):promising horizons for ai in clinical medicine. Clin Pract. 2023; 13(6): 1460-1487.

  10. Yaneva V, Baldwin P, Jurich DP, Swygert K, Clauser BE. ExaminingChatGPT performance on USMLE sample items and implications forassessment. Acad Med. 2024; 99 (2): 192-197.

  11. Meyer A, Riese J, Streichert T. Comparison of the performance ofGPT-3.5 and GPT-4 with that of medical students on the writtenGerman medical licensing examination: observational study. JMIRMed Educ. 2024; 10: e50965.

  12. Brin D, Sorin V, Vaid A, Soroush A, Glicksberg BS, Charney AW etal. Comparing ChatGPT and GPT-4 performance in USMLE soft skillassessments. Sci Rep. 2023; 13 (1): 16492.

  13. OpenAI. Introducing OpenAI o1 [Internet]. 2024. Available in: https://openai.com/index/introducing-openai-o1-preview/

  14. OpenAI. Learning to reason with LLMs [Internet]. 2024. Available in:https://openai.com/index/learning-to-reason-with-llms/

  15. Wu S, Koo M, Blum L, Black A, Kao L, Fei Z et al. Benchmarkingopen-source large language models, GPT-4 and Claude 2 on multiplechoicequestions in nephrology. NEJM AI. 2024; 1 (2): AIdbp2300092.

  16. Liu M, Okuhara T, Dai Z, Huang W, Okada H, Furukawa E et al.Performance of advanced large language models (GPT-4o, GPT-4,Gemini 1.5 Pro, Claude 3 Opus) on Japanese medical licensingexamination: A comparative study [Internet]. medRxiv; 2024.




2020     |     www.medigraphic.com

Mi perfil

C?MO CITAR (Vancouver)

Acta Med. 2026;24

ARTíCULOS SIMILARES

CARGANDO ...