Doctorado en Ingeniería - Énfasis en Ciencias de la Computación
URI permanente para esta colección
Navegar
Envíos recientes
Publicación Acceso abierto Análisis comparativo de multifractalidad en genomas humanos colombianos relacionados con poblaciones humanas(Universidad del Valle, 2019) Arias Iragorri, Christian Gustavo; Moreno Tovar, Pedro AntonioEl estudio de las secuencias genéticas y su relación con los diversos fenómenos biológicos presenta una gran relevancia ya que los resultados obtenidos pueden ayudar a la detección y prevención de enfermedades, mejoras en la productividad y resistencia de los cultivos, y un sinnúmero de aplicaciones. Debido a la complejidad y el volumen de datos disponibles además de la gran variedad de tipos de análisis posibles, especialmente en temas de alineamiento y búsqueda de patrones de secuencias, por lo cual, se hace necesario y urgente implementar nuevos abordajes que permitan desarrollar diagnósticos más precisos en los diversos campos y la búsqueda y comprensión de nuevos conocimientos. La mayoría de los algoritmos usados para estos estudios hacen comparaciones que buscan similitudes entre las cadenas que representan el ADN, usando algoritmos como la distancia Levenshtein y Jaro-Winkler, sin embargo, existe otro tipo abordaje donde las cadenas independientes dejan de ser el eje central de las comparaciones y lo que se busca en su lugar, son patrones estructurales, para lo cual se utilizan aproximaciones no lineales. [...] Debido a la complejidad y el volumen de datos disponibles además de la gran variedad de tipos de análisis posibles, se ha fomentado en la investigación el uso de diversos enfoques y técnicas, pasando por áreas tan diversas como técnicas de aprendizaje de máquinas, redes neuronales, modelos de Markov, algoritmos genéticos y fractales (por mencionar algunas), las cuales son potenciadas, gracias a los avances en los sistemas de cómputo, las bases de datos y los algoritmos. Por ejemplo, en la genómica comparada se usa una gran variedad de herramientas para comparar las secuencias de genomas completos de distintas especies, incluido el genoma humano. El propósito de este trabajo en primer lugar, es realizar una comparación entre genes de diferentes organismos, utilizando enfoques no lineales, aplicando conceptos como la ley de Zipf y la dimensión fractal y, en segundo lugar, hacer comparación de genomas completos de poblaciones humanas, incluida una muestra de la población colombiana, utilizando técnicas de análisis multifractal. El contenido de esta Tesis Doctoral inicia con una introducción mencionando la complejidad y necesidad del análisis de secuencias, luego se hacen breves definiciones sobre la genética, así como de sistemas dinámicos, fractales y multifractales, posteriormente se exponen algunos de los estándares en la representación de datos y las bases de datos referencia. Luego se presentan los materiales y métodos utilizados en ambos experimentos para finalmente presentar los resultados y conclusiones de las dos investigaciones efectuadas. El código fuente, el modelo de datos de la base de datos, las instrucciones para acceder a la base de datos y demás material suplementario, se encuentra disponible en el siguiente https://bit.ly/2N0btPHPublicación Acceso abierto Modelo inteligente de especificación de la granularidad de aplicaciones basadas en microservicios.(Universidad del Valle, 2021) Vera Rivera, Fredy Humberto; Gaona Cuevas, Carlos MauricioLos microservicios son un enfoque arquitectónico y organizativo del desarrollo de software en el que las aplicaciones están compuestas por pequeños servicios independientes que se comunican a través de una interfaz de programación de aplicaciones (API) bien definida, muchas empresas utilizan los microservicios para estructurar sus sistemas, también la arquitectura de microservicios ha sido utilizada en otras áreas como la internet de las cosas (IoT), computación en el borde (edge computing), computación en la nube, desarrollo de vehículos autónomos, telecomunicaciones, sistemas de E-Salud, E-Learning, entre otros. Un gran desafío al diseñar este tipo de aplicaciones es encontrar una partición o granularidad adecuada de los microservicios, proceso que a la fecha se realiza y diseña de forma intuitiva, según la experiencia del arquitecto o del equipo de desarrollo. La definición del tamaño o granularidad de los microservicios es un tema de investigación abierto y de interés, no se han estandarizado patrones, métodos o modelos que permitan definir qué tan pequeño debe ser un microservicio. Las estrategias más utilizadas para estimar la granularidad de los microservicios son: el aprendizaje automático, la similitud semántica, la programación genética y la ingeniería de dominio. En este trabajo de investigación doctoral se propone un modelo inteligente para especificar y evaluar la granularidad de los microservicios que hacen parte de una aplicación; teniendo en cuenta algunas características como la complejidad cognitiva, el tiempo de desarrollo, el acoplamiento, la cohesión y su comunicación. En el capitulo uno se presentan el marco teórico, se plantea el problema de investigación resuelto, junto con las preguntas de investigación que ayudan a resolverlo, también se presentan los objetivos y la metodologia de investigación, por medio de la cual se propone una nueva práctica, un modelo inteligente de especificación de la granularidad de los microservicios llamada ¿Microsevices Backlog¿, también se presentan las fases y métodos de investigación que permitieron resolver las preguntas de investigación planteadas. El captiulo dos presenta el esatado del arte y los trabajos relacionados con el presente trabajo de investigación doctoral; también se identifican las métricas que se han utilizado para definir y evaluar la granularidad de los microservicios. En el capitulo 3 se caracteriza el proceso de desarrollo de aplicaciones basadas en microservicios, explicando su uso en un caso de estudio llamado ¿Sinplafut¿. En el capitulo 4 se plantea la descripción del ¿Microservice Backlog¿, se presenta la definición de cada uno de sus componentes, entre los cuales se encuentran: el componente parametrizador, el componente agrupador (un algoritmo genético y un algoritmo de agrupamiento semántico basado en aprendizaje automático no supervisado), el componente evaluador de métricas y el componente comparador de descomposiciones y de microservicios candidatos, también se presenta la formulación matemática de la granularidad de aplicaciones basadas en microservicios. El capitulo 5 presenta la evaluación de la práctica propuesta, se realizó de forma iterativa usando cuatro casos de estudio, dos ejemplos planteados en el estado del arte (Cargo Tracking and JPet-Store) y dos proyectos reales (Foristom Conferences y Sinplafut), se utilizó el Microservices Backlog para obtener y evaluar los microservicios candidatos de las cuatro aplicaciones. Se realizó un analisis comparativo contra métodos propuestos en el estado del arte y con el diseño basado en el dominio (DDD), el cual es le método más utilizado para definir los microservicios que van a ser parte de una aplicación. El Microservices Backlog obtuvo un bajo acoplamiento, alta cohesión, baja complejidad y reduce la comunicación entre los microservicios, esto comparado con las propuestas del estado del arte y con DDD. Finalmente en el capitulo 6 se presentan las conclusiones, contribuciones, limitaciones y productos obtenidos como resultado de esta tesisPublicación Acceso abierto Modelo de arquitectura de información para interfaces tangibles de usuario.(Universidad del Valle, 2019) Reyes Vera, Javier Mauricio; Rodríguez Carrillo, Paola Johanna; Kafure Muñoz, IvetteLa presente Tesis de Doctorado busca acercar dos áreas de conocimiento diversas por su propia naturaleza: el Diseño (Gráfico e Industrial) y la Ingeniería (ciencias de la computación), el punto de convergencia son las Interfaces Tangibles de Usuario -TUI- en las que implementa el Modelo de Arquitectura de Información propuesto. Los usuarios del modelo son el grupo de desarrollo, quienes por medio del desarrollo de prototipos de TUI aplican el Modelo y contribuyen con su validación. Los métodos que se utilizan en esta investigación son: desarrollo de prototipos de TUI de bajo costo, evaluación de los prototipos con usuario de testeo, observación directa participativa, encuestas, entrevistas y grupo de discusión dirigidos. Como resultado se obtiene el Modelo de Arquitectura de Información que permite especificar la TUI (Nombre, Objetivos y Descripción), los Roles (en el equipo de desarrollo de las TUI), Elementos (Objetos, Acciones, Atributos, Inter-acciones, Intra-acciones, Interrelaciones y Reacciones), Estereotipos (Objetos, Acciones, Interacciones e Interrelaciones) y un conjunto diagramas que enlazan todo lo anterior. Además, la herramienta Bisqua que es una aplicación web que permite gestionar y realizar la documentación de la TUI y sus diagramas. En conclusión, los diagramas del Modelo de Arquitectura de Información propuestos permiten una integración de las áreas mínimas involucradas en el desarrollo de una TUI (Diseñadores -gráfico e Industrial-, Electrónico e Ingeniero de Sistemas), en donde se favorece la comunicación y la dinámica de trabajo del grupo de desarrollo de la TUI independiente de su disciplina de conocimientoPublicación Acceso abierto Characterizing viruses mimicry mechanisms with protein-protein interactions and short linear motifs(Universidad del Valle, 2016) Becerra Sandoval, Andrés; Moreno Tovar, Pedro Antonio; Buchelli Guerrero, Victor A.Los virus son parásitos intracelulares obligados que predominan en todos los dominios de la vida. Las infecciones virales causan enfermedades y muertes a seres humanos y a organismos que sirven de alimento como plantas y ganado. Los cortos genomas virales codifican mecanismos de subversión de las células hospederas. Estos mecanismos están basados en interacciones proteína-proteína entre virus y hospedero. La disminución de los costos de la secuenciación de nueva generación ha impulsado un crecimiento exponencial del número de genomas virales en las bases de datos bioinformáticas. En contraste, el costo de las técnicas experimentales para la determinación de interacciones proteína-proteína entre virus y hospedero no está descendiendo a la misma velocidad. Aunque el número de interacciones proteína-proteína entre virus y hospedero ha crecido en las bases de datos, todavía es bajo para analizar los mecanismos de subversión viral con enfoques de biología de sistemas. Hay una necesidad de métodos computacionales de predicción de interacciones proteína-proteína entre virus y hospedero. Sin embargo, el número de estructuras 3D de proteínas virales y de hospederos es muy pequeño para realizar la predicción con métodos estructurales. La predicción de interacciones proteína-proteína entre virus y hospedero ha sido realizada principalmente con clasificadores basados en aprendizaje automático. No obstante, los clasificadores desarrollados no revelan en alto nivel por qué se infirieron las interacciones y son sensitivos a la calidad del conjunto de datos de aprendizaje. Para interacciones proteína-proteína entre virus y hospedero todavía no hay un conjunto de datos de validación de alta calidad. Esta tesis trata sobre la predicción de interacciones proteína-proteína entre virus y hospedero mediadas por motivos lineales cortos. Estas interacciones predominan más que las interacciones dominio-dominio entre virus y hospedero; además son usadas por varios virus. La inferencia de este tipo de interacciones se sustenta en hipótesis biológicas como la conservación de los motivos y su localización en regiones proteínicas desordenadas. El resultado de ésta tesis es un método y una plataforma computacional para predecir interacciones proteína-proteína entre virus y hospederos mediadas por motivos lineales. Las interacciones candidatas obtenidas son usadas para estudiar un subsistema particular humano, las proteínas que hacen síntesis de proteínas. Sin embargo, los métodos desarrollados pueden ser usados con cualquier otro subsistema como el interferon y el de apoptosis.Publicación Acceso abierto An Approach to formal Modeling of grid Computing.(Universidad del Valle, 2016) Ramírez Restrepo, Carlos Alberto; Díaz Frias, Juan Francisco; Aranda Bueno, Jesús AlexanderGrid computing (GC) is a large-scale computational paradigm and infrastructure that comprises a massive poolofresources. Users interact with the gridby concurrently adding new challenging tasksPublicación Acceso abierto Lenguaje visual de consulta basado en transformación de grafos: aplicación en el dominio médico(Universidad del Valle, 2016) Pabón Burbano, María Constanza; Millán, Marta; Roncancio, Claudia; Collazos, CésarOfrecer a los usuarios finales de un sistema de información herramientas que les faciliten acceder y consultar los datos del sistema es un reto que ha sido y que se sigue enfrentando desde diversas perspectivas. Los usuarios expertos en un dominio de aplicación pueden aportar grandes beneficios a las organizaciones si tienen mecanismos que les permitan aprovechar la información que reside en los sistemas transaccionales para el desarrollo de sus labores. Uno de los mecanismos que se han propuesto para brindar a los usuarios finales la posibilidad de acceder a estos datos son los lenguajes visuales de consulta. En particular, las consultas sobre modelos de grafos han cobrado relevancia en los últimos años debido a su aplicación en áreas como el análisis de datos biológicos, las redes sociales y la web semántica. El desarrollo de sistemas visuales de consulta sobre grafos de datos ha seguido dos vertientes. La primera, se orienta hacia las herramientas de exploración y análisis de grafos haciendo énfasis en la facilidad de uso, a pesar de su limitación en términos de expresividad de consulta. La segunda, centrada en interfaces gráficas para lenguajes de consulta basados en texto, ofrece mayor expresividad y traslada a una notación visual cada cláusula del lenguaje, llevando a la notación gráfica la complejidad de formular consultas que generalmente tienen los lenguajes basados en texto. En esta tesis se propone un lenguaje visual de consulta sobre un modelo de grafos, enfocado en el usuario final, que ofrece mayor expresividad que las herramientas de exploración de grafos sin trasladar a una notación visual los elementos de un lenguaje basado en texto. Se exploran los beneficios del uso de un modelo de grafos simple, en el cual se diferencia el esquema y la instancia, de manera que el esquema representa el modelo conceptual de los datos y su representación gráfica soporta la interacción con el usuario final. El lenguaje facilita la formulación de consultas ad hoc (no conocidas con anticipación) que pueden ser complejas, en el sentido que pueden incluir un patrón de filtro formado por una porción del grafo con múltiples nodos y arcos, en los cuales el usuario especifica condiciones de filtro sobre uno o varios nodos y, de manera guiada, establece combinaciones que generan expresiones de conjunción y disyunción de las condiciones. Se propone un conjunto de operadores definidos bajo la estrategia de transformar los grafos esquema e instancia para reducirlos hasta obtener el conjunto de datos que el usuario requiere como resultado de una consulta. La semántica de los operadores incluye el manejo de datos incompletos, teniendo en cuenta que esta es una característica común en el tipo de sistemas de información hacia los cuales se enfoca este trabajo. Durante el desarrollo del lenguaje propuesto se aplicaron algunas técnicas de diseño centrado en el usuario, enfocadas a satisfacer necesidades de usuarios en el dominio médico, particularmente las relacionadas con el acceso a los datos de las historias clínicas. Desde las primeras etapas de diseño y desarrollo se realizaron pruebas de usabilidad para identificar las necesidades de los usuarios y validar las decisiones de diseño del lenguaje. Finalmente, se realizó´ una prueba comparativa entre el prototipo funcional del lenguaje propuesto y una interfaz gráfica para SPARQL. Los resultados que se obtuvieron en esta prueba permiten afirmar que el lenguaje propuesto le facilita al usuario la formulación de consultas complejas. Los operadores se implementaron con recorridos de caminos usando un motor de grafos. Las pruebas de ejecución mostraron que esta es una opción viable, teniendo en cuenta los tiempos de ejecución, en comparación con la ejecución de las mismas consultas sobre un motor de tripletas y formuladas en SPARQLPublicación Acceso abierto Contact map prediction based on cellular automata and protein folding trajectories(Universidad del Valle, 2019) Diaz Mariño, Nestor Milciades; Tisher, IreneIn Structural Bioinformatics, it is necessary to know the protein¿s tertiary structure because its specific shape is central in its interaction with binding molecules. Being experimental tertiary structure determination a highly expensive process, computational protein structure prediction becomes an alternative option aimed toward cost and technical limitations reduction. In the last decade, residue-residue protein contact prediction (PCP) has taken broad consideration. Currently, PCP has become a common subtask of computational structure prediction. Residue-residue interactions can constraint the space of possible protein conformations, improving protein structure determination. Despite the recent improvements in PCP, the high rate of false positive predicted contacts hinders the applicability of existing PCP tools. To reduce the false positive rate in PCP, we developed a novel approach based on celular automata (CAs), which determines residue-residue contacts that are likely to be actual contacts. Our approach exploits the local interactions found in protein contact maps and the iterative refinement provided by CAs. Our CAs were identified using a parallel genetic algorithm which used for training the PSICOV data set (150 proteins). To benchmark our approach, we used the CASP12 data set (Critical Assessment of Techniques for Structure Prediction, year 2016). Our best CA outperformed the ten PCP tools compared in the benchmark. However, a more detailed analysis using non-parametric Friedman¿s statistical test revealed that our tool does not excel the performance of prominent PCP tools such as MetaPSICOV and RaptorX-Contact. Although our CA-based approach for PCP was successful, the precision for long-range contacts (sequence separation > 24 amino acids) was hard to improve. To enrich local interactions, we proposed a multiclass contact map representation that can improve long-range PCP. Our multiclass contact map was obtained using a large-scale comparison of decision trees. The next step to follow is to reformulate our CA-based approach to incorporate multiclass contacts and repeat the overall process to obtain a new PCP toolPublicación Acceso abierto Conformational folding status and folding levels based on global protein properties a computacional approach [recurso electrónico](2019-11-05) Garreta Unigarro, Luis Ernesto; Tischer, IreneProteins during the folding process undergo many events that continuously modify their structure adjusting their structural elements, and so altering their physical properties. These events are hard to observe by experimental methods, but computer simulations can generate valuable information about the conformational states by which proteins assume their native state. The information can be used to describe and understanding the folding process, hence, researchers in the protein folding use a single or a combination of physical properties to describe how a protein folds or what degree of folding it has. But their results differ, depending on the selected properties, the particular context, and the aimed generality. We hypothesize that folding can be described by a few features that determine how a protein folds and that are associated with the stages of folding it passes through on the way, from unfolded to folded and intermediates. The set of folding features is what we will refer to as folding status, and we propose here a computational method to combine a wide range of different physical structural and energetic properties to obtain a concise representation of a conformations folding features. Also, as the folding status is associated with the stages of folding, we propose a mechanism for determining the most plausible conformational stages assumed by a protein conformation or what we refer to as folding levels. Therefore, the objective of this thesis is to derive a computational definition of the folding status of a protein and the associated folding levels, based on physical properties of protein structures. We use protein folding pathways generated by the Probabilistic Roadmap Method that provides us with a set of very variable protein conformations. On these pathways, we apply a Principal Component Analysis to define Inherent Conformational Features that allow to describe a protein¿s folding status in a compact way. The obtained features summarize the individual properties of a protein conformation and associate with general folding characteristics of stability, compactness, and native-likeness. The features can be used to compare the conformations of a pathway or trajectory, or to compare the folding status of the conformations of different proteins. From the features, we derived the Inherent Conformational Feature Score, which condenses the three-dimensional feature status to a one-dimensional numeric value: the higher the score, the more folded is a protein conformation. The features allow to deduce folding levels and characterize their respective conformations in a computational way. Clustering our selected conformations, we obtain four well-defined groups that we associated with four main folding levels: unfolded, early intermediate, late intermediate and folded. These folding levels agree with experimentally observed folding states of proteins. And moreover, they reflect concisely the dynamic behavior of a pathway when we represent the folding process in terms of its dynamic transitions between folding levels. The process of evaluating the selected properties on a large set of conformations is computationally highly expensive. With the aim of offering our methods to researchers who do not dispose of a sophisticated computing system, we developed a distributed framework that runs on personal computers using a cloud service for communication. We added a toolkit for protein analysis to the framework that allows to execute all above stated tasks.Publicación Acceso abierto Evaluation of Disparity Maps(2015-09-10) Cabezas, Ivan; Trujillo, MaríaEn la tesis se presenta una metodología de evaluación para métodos de correspondencia estéreo. La metodología incluye un conjunto elementos y métodos interactuando en una secuencia ordenada de pasos. Los elementos de evaluación identificados abarcan un conjunto de imágenes de prueba, datos de disparidad de referencia y criterios de evaluación; mientras que los métodos de evaluación abarcan tanto medidas de evaluación, como modelos de evaluación. Un conjunto innovador de elementos y métodos es propuesto con el propósito de abordar (a pregunta de investigación formulada. Las contribuciones del trabajo de investigación se sintetizan a continuación: • Se propone un fundamento teórico para los criterios de evaluación con el propósito de permitir una adecuada asociación entre el cálculo de errores y las áreas en las cuales estos se encuentran. • Se disertan dos medidas de evaluación que consideran tanto la magnitud del error de estimación como la relación inversa entre disparidad y profundidad. • Se presenta una caracterización de las medidas de evaluación. • Se presenta un modelo evaluación que aborda la comparación de métodos de correspondencia estéreo como un problema de optimización incluyendo múltiples objetivos. El modelo propuesto se basa en el concepto de dominancia de Pareto, e incluye una formulación para la interpretación de resultados. Las propuestas son validadas en una plataforma disponible en línea, y ejemplificando su impacto sobre tos resultados obtenidos mediante el proceso de evaluación, así como su relevancia con la pregunta de investigación formulada.