Tabla 1: Estadísticos descriptivos del rendimiento por grupo.

Participantes

N

Media ± DE

EE

IC95%

Rango

Varianza

entre

componentes

ChatGPT 4

10

92.6667

± 2.10819

0.66667

91.1586-94.1748

86.67-93.33

Gemini 2.5

10

98.3333

± 1.75682

0.55556

97.0766-99.5901

96.67-100.00

Claude 3.7

10

93.3330

± 0.00105

0.00033

93.3322-93.3338

93.33-93.33

DeepSeek R1

10

90.6667

± 3.44265

1.08866

88.2039-93.1294

86.67-96.67

Residente

38

60.4321

± 12.03695

1.95265

56.4757-64.3886

35.00-90.00

Total

78

77.5182

± 18.89347

2.13926

73.2583-81.7780

35.00-100.00

Modelo:

Efectos fijos

DE = 8.70782

0.98597

75.5531-79.4832

Modelo:

Efectos aleatorios

11.03054

46.8925-108.1438

39,823,361

Se presentan el número de casos (N), media ± desviación estándar (DE), error estándar (EE) e intervalo de confianza al 95% (IC9%) para la media del rendimiento en cada grupo (modelos de IA y residentes).