Abajo los datos del proyecto.
Romina Hoffman (una de las estudiantes) es estudiante de ISC.
slds
----------------------------------------------
Estimados todos, queremos invitarlos a la presentación del proyecto de fin de carrera de Graciana Castro, Romina Hoffman y Mateo Musitelli, titulado "PredGenIA: Transformers para Predicción Genómica" que tuvimos el gran gusto de dirigir junto con Maine Fariello (IMERL).
El tribunal está compuesto por Camilo Simoes (IPMon), Guillermo Moncecchi (INCO), y Federico Larroca.
La presentación será presencial y por zoom con los siguientes detalles de
El tribunal está compuesto por Camilo Simoes (IPMon), Guillermo Moncecchi (INCO), y Federico Larroca.
La presentación será presencial y por zoom con los siguientes detalles de
Día: 29 de junio
Hora: 08:30
Hora: 08:30
Salón: 101
Detalles sala zoom: https://salavirtual-udelar.zoom.us/j/82925653657?pwd=MUVscHdGbkxWdjRYMVJwLzZtZ0pEdz09
Meeting ID: 829 2565 3657
Passcode: PredG3n!IA
Passcode: PredG3n!IA
Resumen:
La predicción genómica busca predecir el valor reproductivo y/o genético de un individuo. Para eso, se cuenta con una base de datos genotípicos a los que se les asocia el fenotipo a predecir. Al ser los datos genotípicos una secuencia de letras, se puede tomar cada secuencia como si fuera un enunciado y las bases que lo componen (adenina (A), timina (T), citosina (C) y guanina (G)) las palabras que lo forman.
Debido al reciente auge de las redes neuronales bidireccionales para el trabajo en Procesamiento de Lenguaje Natural (``Natural Languaje Processing'', \textit{NLP}), surge la interrogante de si estos algoritmos, como las redes neuronales, redes neuronales recurrentes o \textit{Transformers}, son igualmente eficientes en dominios que comparten similitudes en términos de estructuras de datos.
En este proyecto, se plantea el objetivo de entrenar un modelo para predicción genómica basado en \textit{Transformers}. Se toma como secuencia de entrada el genotipo de individuos de una especie haploide para comparar su desempeño con el de los modelos más utilizados en esta área, haciendo énfasis en comprender el funcionamiento del modelo. ¿Obtiene el modelo mejores resultados que los modelos ya existentes? Además, ¿es capaz de identificar las porciones importantes de esta secuencia, para realizar la predicción deseada?
Para esta investigación se realizó un estudio del algoritmo \textit{Transformers}, su funcionamiento y aplicaciones en el campo del NLP. Comprendido esto, se procedió a realizar el análisis de cómo adaptar un algoritmo de \textit{Transformers} para su funcionamiento con datos genómicos de levadura. Se estudió el modelo \textit{GPTransformers}, propuesto por Jubair et al., 2021 \cite{gptransformer}, en el cual se propone una estructura de \textit{Transformers} basada solamente en el \textit{Encoder}, debido a que para la predicción de un fenotipo es necesario contar con el conocimiento de la estructura local del ADN, la cual es determinada por este módulo. Se realizó el preprocesamiento de la base de datos de levadura, búsqueda de hiperparámetros mediante \textit{Optuna} y entrenamiento del modelo realizando validación cruzada. Se simularon dos fenotipos (lineal y no-linealmente) a partir de los genotipos que componen la base de datos, con los que se buscó evaluar cómo funciona el modelo con este tipo de datos. Luego se entrenaron modelos para realizar predicciones del crecimiento de levadura en los ambientes \textit{Lactato} y \textit{Lactosa}. También se realizaron predicciones conjuntas (\textit{Multitrait}) para \textit{Lactato} y \textit{Lactosa} a la vez.
Se concluyó en base a los resultados obtenidos, que el algoritmo de \textit{Transformers}, basado en mecanismos de atención, presenta resultados prometedores para el campo de la predicción genómica.
Debido al reciente auge de las redes neuronales bidireccionales para el trabajo en Procesamiento de Lenguaje Natural (``Natural Languaje Processing'', \textit{NLP}), surge la interrogante de si estos algoritmos, como las redes neuronales, redes neuronales recurrentes o \textit{Transformers}, son igualmente eficientes en dominios que comparten similitudes en términos de estructuras de datos.
En este proyecto, se plantea el objetivo de entrenar un modelo para predicción genómica basado en \textit{Transformers}. Se toma como secuencia de entrada el genotipo de individuos de una especie haploide para comparar su desempeño con el de los modelos más utilizados en esta área, haciendo énfasis en comprender el funcionamiento del modelo. ¿Obtiene el modelo mejores resultados que los modelos ya existentes? Además, ¿es capaz de identificar las porciones importantes de esta secuencia, para realizar la predicción deseada?
Para esta investigación se realizó un estudio del algoritmo \textit{Transformers}, su funcionamiento y aplicaciones en el campo del NLP. Comprendido esto, se procedió a realizar el análisis de cómo adaptar un algoritmo de \textit{Transformers} para su funcionamiento con datos genómicos de levadura. Se estudió el modelo \textit{GPTransformers}, propuesto por Jubair et al., 2021 \cite{gptransformer}, en el cual se propone una estructura de \textit{Transformers} basada solamente en el \textit{Encoder}, debido a que para la predicción de un fenotipo es necesario contar con el conocimiento de la estructura local del ADN, la cual es determinada por este módulo. Se realizó el preprocesamiento de la base de datos de levadura, búsqueda de hiperparámetros mediante \textit{Optuna} y entrenamiento del modelo realizando validación cruzada. Se simularon dos fenotipos (lineal y no-linealmente) a partir de los genotipos que componen la base de datos, con los que se buscó evaluar cómo funciona el modelo con este tipo de datos. Luego se entrenaron modelos para realizar predicciones del crecimiento de levadura en los ambientes \textit{Lactato} y \textit{Lactosa}. También se realizaron predicciones conjuntas (\textit{Multitrait}) para \textit{Lactato} y \textit{Lactosa} a la vez.
Se concluyó en base a los resultados obtenidos, que el algoritmo de \textit{Transformers}, basado en mecanismos de atención, presenta resultados prometedores para el campo de la predicción genómica.
Saludos,
-- Federico Lecumberry