am262h-T2

Tabla 2: Comparaciones múltiples post hoc entre grupos

mediante el test de Games-Howell.

(I) Grupo de

participantes

(J) Grupo de participantes

Diferencia

media (I-J)

EE

p

IC95%

ChatGPT 4

Gemini 2.5

–5.66667

0.86781

< 0.001

–8.2997 - –3.0337

Claude 3.7

–0.66663

1.06667

0.983

–3.9441 - 2.6108

DeepSeek R1

0.7

1.27557

0.991

–3.1347 - 4.5347

Residente

32.23456

1.22054

< 0.001

28.4443 - 36.0248

Gemini 2.5

ChatGPT 4

5.66667

0.86781

< 0.001

3.0337 - 8.2997

Claude 3.7

5.00003

1.12222

0.001

1.9532 - 8.0468

DeepSeek R1

6.36667

1.22522

< 0.001

3.1527 - 9.5806

Residente

37.90123

1.26127

< 0.001

34.0462 - 41.7563

Claude 3.7

ChatGPT 4

0.66663

1.06667

0.983

–2.6108 - 3.9441

Gemini 2.5

–5.00003

1.12222

0.001

–8.0468 - –1.9532

DeepSeek R1

1.36664

1.31887

0.837

–2.9348 - 5.6681

Residente

32.90120

1.36782

< 0.001

27.7304 - 38.0720

DeepSeek R1

ChatGPT 4

–0.7

1.27557

0.991

–4.5347 - 3.1347

Gemini 2.5

–6.36667

1.22522

< 0.001

–9.5806 - –3.1527

Claude 3.7

–1.36664

1.31887

0.837

–5.6681 - 2.9348

Residente

31.53456

1.39328

< 0.001

27.3656 - 35.7035

Residente

ChatGPT 4

–32.23456

1.22054

< 0.001

–36.0248 - –28.4443

Gemini 2.5

–37.90123

1.26127

< 0.001

–41.7563 - –34.0462

Claude 3.7

–32.90120

1.36782

< 0.001

–38.4989 - –27.3034

DeepSeek R1

–30.23456

2.23563

< 0.001

–36.5841 - –23.8850

Se presentan las diferencias de medias entre pares de grupos, con su error estándar (EE), significancia (p) y el intervalo de confianza al 95% (IC9%).

Las diferencias estadísticamente significativas (p < 0.05) están marcadas con negritas. Comparaciones no significativas indican grupos con rendimiento similar.

Tabla 2: Comparaciones múltiples post hoc entre grupos mediante el test de Games-Howell.
(I) Grupo de participantes	(J) Grupo de participantes	Diferencia media (I-J)	EE	p	IC95%
ChatGPT 4	Gemini 2.5	–5.66667	0.86781	< 0.001	–8.2997 - –3.0337
	Claude 3.7	–0.66663	1.06667	0.983	–3.9441 - 2.6108
	DeepSeek R1	0.7	1.27557	0.991	–3.1347 - 4.5347
	Residente	32.23456	1.22054	< 0.001	28.4443 - 36.0248
Gemini 2.5	ChatGPT 4	5.66667	0.86781	< 0.001	3.0337 - 8.2997
	Claude 3.7	5.00003	1.12222	0.001	1.9532 - 8.0468
	DeepSeek R1	6.36667	1.22522	< 0.001	3.1527 - 9.5806
	Residente	37.90123	1.26127	< 0.001	34.0462 - 41.7563
Claude 3.7	ChatGPT 4	0.66663	1.06667	0.983	–2.6108 - 3.9441
	Gemini 2.5	–5.00003	1.12222	0.001	–8.0468 - –1.9532
	DeepSeek R1	1.36664	1.31887	0.837	–2.9348 - 5.6681
	Residente	32.90120	1.36782	< 0.001	27.7304 - 38.0720
DeepSeek R1	ChatGPT 4	–0.7	1.27557	0.991	–4.5347 - 3.1347
	Gemini 2.5	–6.36667	1.22522	< 0.001	–9.5806 - –3.1527
	Claude 3.7	–1.36664	1.31887	0.837	–5.6681 - 2.9348
	Residente	31.53456	1.39328	< 0.001	27.3656 - 35.7035
Residente	ChatGPT 4	–32.23456	1.22054	< 0.001	–36.0248 - –28.4443
	Gemini 2.5	–37.90123	1.26127	< 0.001	–41.7563 - –34.0462
	Claude 3.7	–32.90120	1.36782	< 0.001	–38.4989 - –27.3034
	DeepSeek R1	–30.23456	2.23563	< 0.001	–36.5841 - –23.8850
Se presentan las diferencias de medias entre pares de grupos, con su error estándar (EE), significancia (p) y el intervalo de confianza al 95% (IC9%). Las diferencias estadísticamente significativas (p < 0.05) están marcadas con negritas. Comparaciones no significativas indican grupos con rendimiento similar.