Introducción a la Psicometría Teoría clásica – José Muñiz PDF

El índice presentado abarca tres grandes ejes dentro de la medición y evaluación psicológica y educativa: la fiabilidad, la validez y el análisis de los ítems. Estos pilares constituyen la base teórica y práctica para garantizar que un test o instrumento de medición cumpla con el propósito para el que ha sido diseñado. A continuación, se exponen las ideas centrales de cada uno de estos bloques y su importancia en el ámbito de la evaluación.


1. Fiabilidad

La primera parte del índice se centra en la fiabilidad, entendida como la consistencia de las puntuaciones que un test produce a lo largo del tiempo o entre diferentes formas de aplicarlo. Un instrumento fiable minimiza los errores de medida y refleja con precisión la verdadera puntuación de la persona evaluada.

  1. Se introduce el coeficiente de fiabilidad, uno de los indicadores más utilizados en psicometría para cuantificar esta consistencia.
  2. Luego, se aborda la estimación empírica de dicho coeficiente, es decir, cómo calcularlo a partir de datos reales obtenidos en la aplicación de un test.
  3. El tema de la estimación de las puntuaciones verdaderas discute procedimientos para aproximarse a lo que se consideraría la “verdadera” capacidad o rasgo latente del evaluado, depurando en la medida de lo posible el ruido o error de medida.
  4. Se estudia la fiabilidad de las diferencias entre puntuaciones, clave cuando el interés radica en comparar resultados en distintas escalas o subescalas, o al realizar mediciones repetidas a un mismo individuo.
  5. Se describen los tipos de errores de medida (sistemáticos y aleatorios), estableciendo así la base conceptual para comprender qué factores contaminan los resultados.
  6. La sección de factores que afectan a la fiabilidad analiza cómo la variabilidad de las puntuaciones, la longitud del test y el nivel de dificultad de los ítems impactan en la estabilidad de las mediciones.
  7. Finalmente, el coeficiente alfa (α) recibe una atención especial por ser la estadística más común para evaluar la consistencia interna de un test. Se incluyen subtemas como sus casos particulares, la relación con el análisis de varianza, el coeficiente beta (β) y los métodos de análisis factorial.

Este conjunto de tópicos proporciona la estructura fundamental para entender que la fiabilidad no solo es un número sino que depende de múltiples aspectos de la construcción, aplicación y características del test.


2. Validez

La segunda parte se ocupa de la validez, el atributo que indica en qué medida una prueba mide realmente lo que se propone medir. Mientras que la fiabilidad es condición necesaria, la validez es el objetivo central de todo proceso de evaluación.

  1. Se parte del concepto de validez y de las diferentes evidencias que la respaldan (por ejemplo, basadas en el contenido, en la estructura interna o en la relación con variables externas).
  2. Se explora la relación validez-fiabilidad, señalando cómo las fórmulas de atenuación permiten estimar el efecto de la falta de fiabilidad en la correlación entre el test y un criterio externo, así como el valor máximo que el coeficiente de validez puede alcanzar. También se discute la influencia que tiene la longitud y la variabilidad del test en la validez.
  3. La sección de validez y predicción describe cómo la validez no solo concierne la interpretación presente de las puntuaciones, sino también su poder para predecir comportamientos o resultados futuros. Aquí se contemplan modelos con dos, tres o más variables, y casos más complejos que reflejan situaciones reales de investigación.
  4. Finalmente, se desarrolla la validez y la toma de decisiones, que integra conceptos de regresión simple y múltiple (con la correlación parcial y semiparcial, y la influencia de variables moduladoras o supresoras) con la evaluación del desempeño del test en situaciones de clasificación o selección. Se discuten indicadores prácticos como los índices de validez, la incidencia del punto de corte en los errores de decisión y las curvas ROC, cada uno de ellos imprescindible para comprender el rendimiento real de una prueba en contextos aplicados (por ejemplo, selección de personal, diagnósticos clínicos, etc.).

3. Análisis de los ítems

La tercera sección se centra en el análisis de los ítems, elemento fundamental cuando se desea refinar un test o construir uno nuevo. El estudio pormenorizado de cada pregunta permite identificar cuáles ítems funcionan adecuadamente, cuáles no discriminan a los participantes o incluso cuáles generan confusiones.

  1. El índice de dificultad evalúa qué tan complejo (o fácil) resulta un ítem para el grupo de personas evaluadas. Un índice de dificultad extremo (muy fácil o muy difícil) limita la capacidad de discriminación del test.
  2. El índice de discriminación es crucial para determinar en qué grado un ítem diferencia a quienes tienen una habilidad o rasgo alto de quienes lo tienen bajo. Se explica cómo calcularlo y su relación con parámetros más generales del test.
  3. El índice de validez de un ítem estima la relación entre la respuesta a ese ítem y un criterio o puntuación global, lo que permite calibrar su aporte a la medida total.
  4. El estudio de las alternativas incorrectas (distractores) revisa su importancia en la discriminación y la dificultad; de allí surge, por ejemplo, la decisión sobre el número óptimo de alternativas en preguntas de opción múltiple.
  5. La sección de corrección del azar analiza métodos que ajustan la puntuación en función de la probabilidad de aciertos al adivinar las respuestas.
  6. La calificación del conocimiento parcial propone estrategias para asignar puntajes más justos a quienes tengan un dominio parcial de la respuesta, evitando castigar excesivamente los errores.
  7. Finalmente, el funcionamiento diferencial de los ítems (DIF) aborda la posible existencia de sesgos en ítems que puedan favorecer o perjudicar a ciertos grupos (por ejemplo, de distinto género o cultura). Se discuten métodos de evaluación como el uso del χ² de los aciertos, el χ² global o el método delta, cada uno con implicaciones prácticas para la equidad y la validez del test en diferentes poblaciones.

Más artículos y Publicaciones