Maestría en Ingeniería - Énfasis en Estadística
URI permanente para esta colección
Navegar
Examinando Maestría en Ingeniería - Énfasis en Estadística por Título
Mostrando 1 - 8 de 8
Resultados por página
Opciones de ordenación
Publicación Acceso abierto Análisis de correspondencias multiples en presencia de datos faltantes: el principio de datos disponibles del algoritmo NIPALS( ACMpdd)(Universidad del Valle, 2018) Ochoa Muñoz, Andrés Felipe; González Rojas, Víctor ManuelEl Análisis de Correspondencias Múltiples (ACM) en presencia de datos faltantes usualmente se trabaja eliminando los registros en donde exista el dato faltante, algunas veces se elimina toda la fila o toda la columna de la matriz de datos, lo cual no es adecuado ya que al realizarlo se pierde información relevante sobre algún individuo o variable del estudio. En algunos otros casos, se asume que el dato faltante es una categoría de la variable cualitativa, trayendo como consecuencia mayor dispersión de varianza en los nuevos ejes. Una solución para esta situación puede ser la imputación del dato faltante o utilizar un algoritmo que permita trabajar con la presencia de ´este tipo de datos. Este trabajo se centra en realizar el método ACM en presencia de datos faltantes sin acudir a técnicas de imputación, para esto se utiliza el principio de datos disponibles del algoritmo NIPALS (Wold et al., 1966). En el caso de ACM los autores Josse et al. (2012) y Audigier et al. (2015) han trabajado con el enfoque de imputación de datos y no se conocen trabajos o ideas que intenten trabajar ACM bajo el principio de datos disponibles; usando NIPALS. Por esta razón, este trabajo de investigación propone una forma de trabajar los datos faltantes con ACM usando el principio de datos disponibles. De tal manera, que se conforman las matrices simétricas en Rp y en Rn, obteniendo los valores y vectores propios; a su vez garantizando las relaciones de transición y las propiedades de ortogonalidad en los ejes factoriales. En una primera instancia se analizó los resultados del ACM en una base de datos completa, luego se generaron aleatoriamente 1000 matrices con el 5%, 10%, 15% y hasta un 50% de datos faltantes. En cada una de las matrices se evaluó el ACM bajo el principio de datos disponibles (ACMpdd) y un método de ACM con el enfoque imputación. Se compararon los planos factoriales, la inercia total y el poder descriptivo con datos completos y faltantes. Se encontró´ que en ACMpdd a medida que aumenta el porcentaje de datos faltantes el poder descriptivo disminuye. Por otro lado, con el método de imputación, se encontró que a medida que aumenta el porcentaje de datos faltantes el poder descriptivo aumenta, situación que no es coherente, por que se espera que a mayor porcentaje de datos faltantes se explique menos variabilidad en los ejes.Publicación Acceso abierto Análisis factorial múltiple para describir las condiciones de salud sentidas de la población priorizada de la ciudad de Cali en el año 2018.(Universidad del Valle, 2021) Garcia Altamirano, Crhistian Camilo; Mosquera Restrepo, JaimeEn este trabajo se analizan, desde una perspectiva multivariada, los datos recogidos en el proyecto: implementación de la estrategia de atención primaria en salud en el municipio de Santiago de Cali. Estos datos fueron colectados a través de un formulario tipo encuesta que indaga sobre las condiciones de la vivienda, de los individuos y de su entorno, la cual está a dividida en 7 módulos que generan las tablas de datos: vivienda, generalidades, personas menores de 10 años, salud sexual y reproductiva, cáncer, estilos de vida saludable, salud mental y micobacterias. Las unidades de análisis corresponden a 18 barrios de la ciudad que fueron priorizados por la estrategia Territorios de Inclusión y Oportunidad (TIO) de la alcaldía, para estos barrios se calcularon algunos indicadores resumen de la condición de salud y vida de sus habitantes, tales como: porcentaje de hacinamiento, porcentaje de animales domésticos sin vacunas, porcentaje de niños con esquema de vacunación incompleto, porcentaje de gestantes inasistentes a control prenatal, porcentaje de inasistencia a programas de Promoción y Prevención (hipertensión, diabetes, crecimiento y desarrollo, entre otros).Cada subconjunto de indicadores fue consolidado en diferentes tablas multivariadas, la cuales se analizan de forma conjunta a través de la metodología del Análisis Factorial Múltiple (AFM). El AFM es una técnica estadística de análisis de datos multivariados adaptado al tratamiento de tablas de datos en las que un mismo conjunto de individuos se describe a través de múltiples grupos de variables, con la condición de que las variables de un mismo grupo deben ser de la misma naturaleza: cualitativa o cuantitativa. Como resultado se caracterizan los barrios de la ciudad, identificando en ellos los principales problemas de salud sentida que los afectan. Complementariamente, el AFM permitió resumir la información colectada en un índice sintético, a través del cual se genera un ranking u ordenamiento de los barrios con mayor afectación en salud en la ciudad. Este índice será de utilidad para la administración municipal en el sentido de que su aplicación permite priorizar las intervenciones sociales y de salud pública sobre el conjunto de barrios más vulnerables.Publicación Acceso abierto Metodologías estadísticas para el análisis de la asociación entre dos estructuras de datos de tres vías(Universidad del Valle, 2024) MONTES MORA, CLAUDIA LORENA; Mosquera Restrepo, JaimeLa necesidad de analizar datos de múltiples dimensiones ha dado lugar al desarrollo de metodologías para el análisis de estas estructuras. Frecuentemente, los datos se organizan en estructuras bidimensionales que implican dos vías de análisis (individuos y variables), y se pueden representar fácilmente mediante matrices. Las estructuras tridimensionales añaden una tercera dimensión (tiempo, lugar, condición, entre otras), generando conjuntos de datos más complejos que pueden organizarse como cubos de datos e incluso se puede extender a arreglos de más de N-vías. En la actualidad, con el crecimiento de los datos, es frecuente enfrentarnos a estructuras de tres vías, especialmente en áreas de investigación como las ciencias sociales y económicas, biología, quimiometría, ingeniería, entre otras áreas. Las metodologías para el análisis de estas estructuras han tenido un crecimiento en los últimos años y brinda gran utilidad para identificar patrones entre los datos y las diferentes vías que compone la estructura. Sin embargo, en algunas ocasiones surge la necesidad de analizar dos estructuras de datos en tres vías y la asociación entre ellas. Este trabajo se centra en la revisión de metodologías para el análisis de datos organizados en estructuras de tres vías, explorando métodos como Análisis Factorial Múltiple (AFM), Mínimos Cuadrados Parciales (sus siglas en inglés PLS) y Mínimos Cuadrados Parciales Multivía (N-PLS) para analizar simultáneamente dos estructuras de datos tridimensionales. Para la aplicación de las metodologías toma como caso de estudio datos del Producto Interno Bruto - PIB y el índice de Pobreza Multidimensional - IPM en los departamentos de Colombia entre los años 2018 y 2021, buscando identificar la técnica más eficaz para estudiar la relación entre estas dos estructuras de datos. Al realizar la comparación se evidencia que las técnicas empleadas para el análisis de las dos estructuras de datos de tres vías ofrecen resultados comparables, a pesar de tener finalidades diferentes.Publicación Acceso abierto Modelamiento del desempeño de los estudiantes universitarios en el primer curso de estadística(Universidad del Valle, 2019) Peláez García, Ernesto; Tovar Cuevas, Jose RafaelLos estudiantes universitarios que ingresan a un primer curso de estadística, llegan con preconcepciones, temores, y con algunos conocimientos básicos, si han tenido la oportunidad en los colegios de secundaria, de ver algunos temas relacionados con la estadística. En muchas de las universidades de carácter privado, el fracaso de los estudiantes, originado por afrontar los primeros cursos de matemática universitaria y en este caso en particular, por afrontar un primer curso de estadística, es de gran preocupación. En este sentido la presente investigación quiere indagar, especialmente en alguna de las universidades privadas del sur de Cali, los conocimientos previos, antecedentes académicos, temores, entre otros factores que podrían amenazar el rendimiento y resultado de los estudiantes en un primer curso universitario de estadística, teniendo en cuenta carreras con fuerte componente matemático y las que no lo tienenPublicación Acceso abierto Modelo autorregresivo de medias móviles iARMA para series de tiempo con intervalos de tiempo irregulares(Universidad del Valle, 2024) Godoy Pulecio, Diana Alejandra; Ojeda, César; Pereira Hoyos, Luz AdrianaEsta investigación se enfoca en el estudio de procesos estocásticos con intervalos de tiempo irregularmente espaciados, presentes en una amplia cantidad de campos como la climatología, la astronomía, la medicina y la economía. Las investigaciones realizadas han propuesto modelos autorregresivos (iAR) y de medias móviles (iMA) de forma separada, y procesos autorregresivos de medias móviles (iARMA) para autocorrelaciones positivas. El objetivo de este trabajo fue generalizar el modelo iARMA para incluir correlaciones negativas. Se presenta un modelo autorregresivo de medias móviles de primer orden para series irregulares de tiempo discreto, siendo un proceso Gaussiano ergódico y estrictamente estacionario. La estimación de los parámetros se realizó por Máxima Verosimilitud y la de las varianzas de los parámetros por Bootstrap, evaluando el rendimiento de una muestra finita mediante simulaciones de Monte Carlo. La estimación de la Función de Autocorrelación (ACF) se realiza utilizando el estimador DCF (Función de Correlación Discreta) evaluando su desempeño en función del tamaño de la muestra y del intervalo promedio de los tiempos. Se implementó el modelo en datos reales de cuatro contextos diferentes: el primero pertenece a la medición durante dos semanas de destellos de estrellas de la Nebulosa de Orión en el desarrollo del proyecto COUP (Chandra Orion Ultradeep Project), el segundo corresponde al indicador financiero colombiano COLCAP medido en los últimos seis meses, el tercero está relacionado con datos climáticos indicadores de ENSO (El Niño-Southern Oscillation) con mediciones entre 1850 y 2006, y el cuarto pertenece a la medición de los ciclos de las manchas solares entre 1860 y 1990 y su relación con la variación de temperatura en el hemisferio norte.Publicación Acceso abierto Modelo de regresión funcional de la precipitación pentadal, integrando datos de estaciones climáticas y de satélite.(2019-02-20) Ospina Galindez, Johann Alexis; Andrade Bejarano, Mercedes; Giraldo Henao, RamónEl conocimiento del comportamiento de las variables climáticas y su modelación ayudan a predecir, pronosticar, monitorear el cambio climático y a caracterizar los fenómenos naturales relacionados con el clima que afectan el medio ambiente y los recursos hídricos que determinan la agricultura en una región. Es por ello que la modelación de variables climáticas, es uno de los objetivos del Grupo de Investigación en Estadística Aplicada INFERIR. El presente proyecto de investigación está enmarcado dentro de la línea de investigación en Regresión y Predicción del grupo INFERIR y tiene como meta modelar la precipitación pentadal en el Valle del Cauca en el período 1993-2011, con el fín de generar información que sirva de insumo para la toma de decisiones de los agricultores, centros de investigación, corporaciones autónomas regionales e instituciones de salud, entre otros.Publicación Acceso abierto Un modelo lineal mixto con covariable funcional aplicado a datos de concentración de clorofila.(2019-05-16) Gómez Escobar, Gustavo Adolfo; Andrade Bejarano, Mercedes; Giraldo Henao, RamónEl presente trabajo de investigación tiene como objetivo modelar la concentración de clorofila en plantas de ají de tabasco a través de un modelo lineal mixto con covariable funcional. Las plantas han sido sometidas a dos fuentes de estrés causados por el tipo de fertilizante y el nivel de riego, también se usa la firma espectral como covariable funcional. Se propone dos alternativas para involucra la firma espectral como covariable funcional en el modelo lineal mixto. Por medio de bandas de confianza se encontró que la firma espectral es significativo para explicar la concentración de clorofilaPublicación Acceso abierto Uso de variables latentes para estimar el origen más probable de un evento sísmico(Universidad del Valle, 2019) Martínez Muñoz, Juan Camilo; Tovar Cuevas, Jose Rafael; Ospina Ostios, Lina MaríaEste trabajo de investigación presenta una propuesta metodológica para resolver el problema conjunto Hipocentro-Modelo de Velocidad considerando la forma probabilística y no lineal del problema inverso. La incertidumbre de los tiempos de arribo y modelos de velocidad es analizada y modelada por variables aleatorias que involucran la subjetividad e información externa de los datos y parámetros del fenómeno físico. El problema hacia adelante es descrito por la solución de la ecuación de onda para medios no homogéneos a través de la ecuación Eikonal o cálculo de tiempos de viaje de rayos sísmicos, considerando la metodología de Monte Carlo para diferentes escenarios de posición inicial y con¿guración de modelos de velocidad. La selección de focos probables considera las variables aleatorias construidas para los tiempos de arribo registrados por estaciones sismológicas y los tiempos de viaje aleatorios calculados. Las estimaciones obtenidas con la propuesta metodológica son validadas empíricamente usando el concepto de convergencia en probabilidad de sucesiones de variables aleatorias. Finalmente, la solución del problema conjunto Hipocentro-Modelo de Velocidad es resumida por los valores esperados de los las sucesiones de variables aleatorias de los parámetros hipocentrales y modelos de velocidad probabilísticos