Tabla 2: Comparaciones múltiples post hoc entre grupos

mediante el test de Games-Howell.

(I) Grupo de

participantes

(J) Grupo de participantes

Diferencia

media (I-J)

EE

p

IC95%

ChatGPT 4

Gemini 2.5

–5.66667

0.86781

< 0.001

–8.2997 - –3.0337

Claude 3.7

–0.66663

1.06667

0.983

–3.9441 - 2.6108

DeepSeek R1

0.7

1.27557

0.991

–3.1347 - 4.5347

Residente

32.23456

1.22054

< 0.001

28.4443 - 36.0248

Gemini 2.5

ChatGPT 4

5.66667

0.86781

< 0.001

3.0337 - 8.2997

Claude 3.7

5.00003

1.12222

0.001

1.9532 - 8.0468

DeepSeek R1

6.36667

1.22522

< 0.001

3.1527 - 9.5806

Residente

37.90123

1.26127

< 0.001

34.0462 - 41.7563

Claude 3.7

ChatGPT 4

0.66663

1.06667

0.983

–2.6108 - 3.9441

Gemini 2.5

–5.00003

1.12222

0.001

–8.0468 - –1.9532

DeepSeek R1

1.36664

1.31887

0.837

–2.9348 - 5.6681

Residente

32.90120

1.36782

< 0.001

27.7304 - 38.0720

DeepSeek R1

ChatGPT 4

–0.7

1.27557

0.991

–4.5347 - 3.1347

Gemini 2.5

–6.36667

1.22522

< 0.001

–9.5806 - –3.1527

Claude 3.7

–1.36664

1.31887

0.837

–5.6681 - 2.9348

Residente

31.53456

1.39328

< 0.001

27.3656 - 35.7035

Residente

ChatGPT 4

–32.23456

1.22054

< 0.001

–36.0248 - –28.4443

Gemini 2.5

–37.90123

1.26127

< 0.001

–41.7563 - –34.0462

Claude 3.7

–32.90120

1.36782

< 0.001

–38.4989 - –27.3034

DeepSeek R1

–30.23456

2.23563

< 0.001

–36.5841 - –23.8850

Se presentan las diferencias de medias entre pares de grupos, con su error estándar (EE), significancia (p) y el intervalo de confianza al 95% (IC9%).

Las diferencias estadísticamente significativas (p < 0.05) están marcadas con negritas. Comparaciones no significativas indican grupos con rendimiento similar.