Análisis de correspondencias multiples en presencia de datos faltantes: el principio de datos disponibles del algoritmo NIPALS( ACMpdd)
Portada
Citas bibliográficas
Código QR
Autores
Director
Autor corporativo
Recolector de datos
Otros/Desconocido
Director audiovisual
Editor/Compilador
Editores
Tipo de Material
Fecha
Cita bibliográfica
Título de serie/ reporte/ volumen/ colección
Resumen en español
El Análisis de Correspondencias Múltiples (ACM) en presencia de datos faltantes usualmente se trabaja eliminando los registros en donde exista el dato faltante, algunas veces se elimina toda la fila o toda la columna de la matriz de datos, lo cual no es adecuado ya que al realizarlo se pierde información relevante sobre algún individuo o variable del estudio. En algunos otros casos, se asume que el dato faltante es una categoría de la variable cualitativa, trayendo como consecuencia mayor dispersión de varianza en los nuevos ejes. Una solución para esta situación puede ser la imputación del dato faltante o utilizar un algoritmo que permita trabajar con la presencia de ´este tipo de datos. Este trabajo se centra en realizar el método ACM en presencia de datos faltantes sin acudir a técnicas de imputación, para esto se utiliza el principio de datos disponibles del algoritmo NIPALS (Wold et al., 1966). En el caso de ACM los autores Josse et al. (2012) y Audigier et al. (2015) han trabajado con el enfoque de imputación de datos y no se conocen trabajos o ideas que intenten trabajar ACM bajo el principio de datos disponibles; usando NIPALS. Por esta razón, este trabajo de investigación propone una forma de trabajar los datos faltantes con ACM usando el principio de datos disponibles. De tal manera, que se conforman las matrices simétricas en Rp y en Rn, obteniendo los valores y vectores propios; a su vez garantizando las relaciones de transición y las propiedades de ortogonalidad en los ejes factoriales. En una primera instancia se analizó los resultados del ACM en una base de datos completa, luego se generaron aleatoriamente 1000 matrices con el 5%, 10%, 15% y hasta un 50% de datos faltantes. En cada una de las matrices se evaluó el ACM bajo el principio de datos disponibles (ACMpdd) y un método de ACM con el enfoque imputación. Se compararon los planos factoriales, la inercia total y el poder descriptivo con datos completos y faltantes. Se encontró´ que en ACMpdd a medida que aumenta el porcentaje de datos faltantes el poder descriptivo disminuye. Por otro lado, con el método de imputación, se encontró que a medida que aumenta el porcentaje de datos faltantes el poder descriptivo aumenta, situación que no es coherente, por que se espera que a mayor porcentaje de datos faltantes se explique menos variabilidad en los ejes.