|
Tabla 2: Comparaciones múltiples post hoc entre grupos mediante el test de Games-Howell. |
|||||
|
(I) Grupo de participantes |
(J) Grupo de participantes |
Diferencia media (I-J) |
EE |
p |
IC95% |
|
ChatGPT 4 |
Gemini 2.5 |
–5.66667 |
0.86781 |
< 0.001 |
–8.2997 - –3.0337 |
|
Claude 3.7 |
–0.66663 |
1.06667 |
0.983 |
–3.9441 - 2.6108 |
|
|
DeepSeek R1 |
0.7 |
1.27557 |
0.991 |
–3.1347 - 4.5347 |
|
|
Residente |
32.23456 |
1.22054 |
< 0.001 |
28.4443 - 36.0248 |
|
|
Gemini 2.5 |
ChatGPT 4 |
5.66667 |
0.86781 |
< 0.001 |
3.0337 - 8.2997 |
|
Claude 3.7 |
5.00003 |
1.12222 |
0.001 |
1.9532 - 8.0468 |
|
|
DeepSeek R1 |
6.36667 |
1.22522 |
< 0.001 |
3.1527 - 9.5806 |
|
|
Residente |
37.90123 |
1.26127 |
< 0.001 |
34.0462 - 41.7563 |
|
|
Claude 3.7 |
ChatGPT 4 |
0.66663 |
1.06667 |
0.983 |
–2.6108 - 3.9441 |
|
Gemini 2.5 |
–5.00003 |
1.12222 |
0.001 |
–8.0468 - –1.9532 |
|
|
DeepSeek R1 |
1.36664 |
1.31887 |
0.837 |
–2.9348 - 5.6681 |
|
|
Residente |
32.90120 |
1.36782 |
< 0.001 |
27.7304 - 38.0720 |
|
|
DeepSeek R1 |
ChatGPT 4 |
–0.7 |
1.27557 |
0.991 |
–4.5347 - 3.1347 |
|
Gemini 2.5 |
–6.36667 |
1.22522 |
< 0.001 |
–9.5806 - –3.1527 |
|
|
Claude 3.7 |
–1.36664 |
1.31887 |
0.837 |
–5.6681 - 2.9348 |
|
|
Residente |
31.53456 |
1.39328 |
< 0.001 |
27.3656 - 35.7035 |
|
|
Residente |
ChatGPT 4 |
–32.23456 |
1.22054 |
< 0.001 |
–36.0248 - –28.4443 |
|
Gemini 2.5 |
–37.90123 |
1.26127 |
< 0.001 |
–41.7563 - –34.0462 |
|
|
Claude 3.7 |
–32.90120 |
1.36782 |
< 0.001 |
–38.4989 - –27.3034 |
|
|
DeepSeek R1 |
–30.23456 |
2.23563 |
< 0.001 |
–36.5841 - –23.8850 |
|
|
Se presentan las diferencias de medias entre pares de grupos, con su error estándar (EE), significancia (p) y el intervalo de confianza al 95% (IC9%). Las diferencias estadísticamente significativas (p < 0.05) están marcadas con negritas. Comparaciones no significativas indican grupos con rendimiento similar. |
|||||