Seminario - Aprendizaje profundo aplicado al Procesamiento de Lenguaje Natural
Diagrama de temas
-
1. Fundamentos de Probabilidad.
Referencias: "Review of Probability" (del curso CS229 de Stanford); Capítulo 2 ("Foundations") del libro "Probabilistic Graphical Models" (Daphne Koller, Nir Friedman)
Distribuciones de probabilidad. Axiomas. Interpretación frecuentista y bayesiana. Probabilidad condicional. Regla de la cadena. Regla de Bayes. Variables aleatorias. Distribución multinomial. Distribución marginal. Distribución conjunta. Distribución condicional. Independencia. Funciones de densidad de probabilidad. Distribución cumulativa. Distribución uniforme. Distribución normal. Esperanza. Varianza y desviación estándar. Distribuciones multivariadas. Esperanzas y covarianzas. Distribución gaussiana multivariada.
2. Fundamentos de Álgebra Lineal y Cálculo de Matrices
Referencias: "Linear Algebra" (libro de la UC Davis). Linear Algebra Review and Reference (del curso CS229 de Stanford), Matrices for Data Scientists (IPython notebook - GM)
Notación y conceptos básicos. Producto de vectores y matrices. Trasposición. Matrices como transformaciones lineales. Matriz inversa. Rango. Independencia lineal. Traza. Determinante. Matrices positivas semidefinidas. Matriz Gram. Valores y vectores propios. Diagonalización de matrices simétricas. Regla de la Cadena. Gradiente. Hessiano. Gradiente y Hessiano de funciones lineales. Mínimos cuadrados. Gradiente del Determinante.
3. Redes neuronales artificiales y Backpropagation
Referencias: Capítulo 4 ("Artificial Neural Networks") del libro "Machine Learning" de Tom Mitchell. Capítulo 1 del libro "Neural Networks and Deep Learning" de Michael Nielsen.
Motivación. Perceptrón. Descenso por gradiente y la Regla Delta. Descenso por Gradiente Estocástico. Redes multicapa. Sigmoide. Backpropagation. Poder expresivo de las ANN. Clasificación supervisada con redes feedforward.
4. Deep Feedforward networks.
Referencias: Capítulo 3 y Capítulo 5 del libro "Neural Networks and Deep Learning" de Michael Nielsen, Capítulo 6 ("Deep Feedforward Networks") del libro "Deep Learning" de Goodfellow, Bengio and Courville.
Función de costo de entropía cruzada. Sobreajuste y Métodos de regularización. Elección de hiperparámetros. Variaciones al descenso por gradiente. Función tanh y rectified linear unit. Softmax. The vanishing gradient problem. -
- Qué es Deep Learning
- Historia
- Aplicación al PLN
Presentaciones
- Introducción a Deep Learning - Rodrigo Stecanella
- Redes neuronales artificiales para el PLN - Mathías Etcheverry
Material:
-
Deep Learning - Goodfellow, Bengio, Courville (en preparación) - Introducción
- Deep Learning in Neural Networks: A Survey
Sesión 1: Rodrigo Stecanella (Introducción al Deep Learning)
Sesión 2: Mathías Etcheverry (RNNs para PLN)
-
Sesión 1: Guillermo Moncecchi (Repaso de álgebra lineal)
Sesión 2: Jairo Bonanata (Regresión lineal, regresión logística, gradient descent)
Sesión 3: Raúl Garreta (Redes Neuronales y Backpropagation)Repaso de álgebra lineal (Matrices con Python y Numpy)
Repaso de regresión lineal, regresión logística. Gradient descent.
- Redes neuronales y backpropagation (Artificial Neural Networks and Backpropagation)
Material
- A tutorial on PCA (Lindsay Smiths)
- PCA Step by step in Python (Sebastian Raschka)
- Machine Learning - Ng (Stanford) - II, III, IV, VI, VII
- Logistic Regression - del libro Advanced Data Analysis from an Elementary Point of View (Cosma Rohilla - Carnegie Mellon)
- Gradient Descent Example
- An overview of gradient descent optimization algorithms - Sebastian Ruder
- Fitting a model via closed-form equations vs. Gradient Descent etc. - Sebastian Raschka
- (Physio)logical circuits: the intellectural origins of the McCulloch - Pitts Neural Networks - Tara Abraham
- Calculus on computational graphs: backpropagation - Crhis Olah
- Neural Networks and Deep Learning - Chapter 2 - Michael Nielsen
- Neural Networks and Deep Learning - Chapter 1 - Michael Nielsen
- Notas del curso de Socher (parte III)
-
Sesión 1: Theano (Diego Kiedanski)
Sesión 2: Keras (Santiago Castro)
- Jupyter Notebook Tutorial Theano
- Jupyter Notebook Tutorial Keras -
Sesión 1: Word vector representations - Federico Orihuela- Efficient Estimation of Word Representations in Vector Space - Mikolov et al.
Sesión 2: Aplicación de word embeddings al PLN - Gabriel Mordecki
Material
Una visión global de word embeddings
El curso de Hugo Larochelle (Universidad de Sherbrooke) - este no incluye word2vec pero si lo de antesCurso de Universidad de waterloo- https://uwaterloo.ca/data-
science/deep-learning (los 2 videos de word2vec)
Papers
- A Neural Probabilistic Language Model - Bengio et al. (el primer Neural Network Language Model)
- Distributed Representations of Words and Phrases and their Compositionality - Mikolov et al.
- Distributed Representations of Sentences and Documents - Le et al.
- Linguistic Regularities in Continuous Space Word Representations - Mikolov et al.
- GloVe: Global Vectors for Word Representation - Pennington et al.Aplicaciones- Zero-Shot Learning Through Cross-Modal Transfer - Socher et al.
- Show and Tell: A Neural Image Caption Generator - Vinyals et al.Entendiendo word2vec (https://code.google.com/archive/p/word2vec/)
- Words as vectors (blog post)
- word2vec Parameter Learning Explained - Xin Rong
- word2vec Explained: Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method - Goldberg et al.
- Neural Word Embedding as Implicit Matrix Factorization
Materiales sesión 2 (en las ppts aparece el contexto): - https://uwaterloo.ca/data-
-
Sesión: Redes Neuronales Convolutivas - Diego Garat
- Elements of Statical Learning, Hastie et al. (01)
- Pattern Recognition and Machine Learning, Bishop (06)
- Convolution, https://en.wikipedia.org/wiki/
Convolution , Ult.Acc.:3/10/16
- Convolution Matrix GIMP Help, https://docs.gimp.org/en/plug-
in-convmatrix.html , Ult.Acc.:3/10/16
- Generalization and Network Design Strategies, Le Cun (89)
- Gradient-based learning applied to document recognition, Le Cun et al. (98)
- ImageNet Classification with Deep Convolutional Neural Networks, Krizhevsky et al. (12)
- Going deeper with convolutions, Szegedy et al. (14)
- Deep Residual Learning for Image Recognition, He et al. (15)
- ImageNet Large Scale Visual Recognition Challenge, Russakovsky et al (15)
- Convolutional Neural Networks for Sentence Classification, Yoon Kim (14)
- A
Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional
Neural Networks for Sentence Classification, Zhang & Wallace (16)
- Natural Language Processing (Almost) from Scratch, Collobert et al. (11)
- Elements of Statical Learning, Hastie et al. (01)
-
Sesión: Recursive Neural Networks - Luis Chiruzzo
Referencias:
- Socher, R., Manning, C. D., & Ng, A. Y. (2010, December). Learning continuous phrase representations and syntactic parsing with recursive neural networks. In Proceedings of the NIPS-2010 Deep Learning and Unsupervised Feature Learning Workshop (pp. 1-9).- Socher, R., Bauer, J., Manning, C. D., & Ng, A. Y. (2013, August). Parsing with Compositional Vector Grammars. In ACL (1) (pp. 455-465).- Socher, R., Huval, B., Manning, C. D., & Ng, A. Y. (2012, July). Semantic compositionality through recursive matrix-vector spaces. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (pp. 1201-1211). Association for Computational Linguistics.- Socher, R., Perelygin, A., Wu, J. Y., Chuang, J., Manning, C. D., Ng, A. Y., & Potts, C. (2013, October). Recursive deep models for semantic compositionality over a sentiment treebank. In Proceedings of the conference on empirical methods in natural language processing (EMNLP) (Vol. 1631, p. 1642).- Notas del curso (clase 9 y 10)