Preguntas de diseño de una red (primeros ejercicios de los parciales)

Re: Preguntas de diseño de una red (primeros ejercicios de los parciales)

de Luis Chiruzzo -
Número de respuestas: 0
Hola,

Voy por partes:

- El nivel de detalle que le podés dar a la descripción puede depender de la complejidad de la red. Si tu propuesta es diseñar una red simple que toma como entrada centroide de embeddings y luego es un MLP, mejor definir cada capa con entradas, salidas, activación, etc. Pero si usás arquitecturas más complicadas como el transformer podés especificar que vas a usar un transformer con tal cantidad de capas, y luego enchufarle otras capas a la salida (o no, dependiendo de lo que quieras), y la salida de la red tiene tal función de activación. Si estás usando precisamente BERT, RoBERTa, LLama, etc, mencioná esas arquitecturas y especificá cómo modelás la entrada y luego qué le hacés a la salida para adaptarla a tu problema. De esta forma un poco el nivel de detalle te va a quedar atado a las arquitecturas que uses.

- Es válido decir que vas a usar una red preentrenada o un modelo de embeddings preentrenado o algo de eso. Indicalo, y decí qué otras cosas harías encima de eso. ¿Empezás con X modelo preentrenado y luego hacés fine-tuning? ¿Lo usás en modo zero-shot? Esas cosas son las que podés especificar para adaptarlas a tu problema.

- Sobre los hiperparámetros, eso que describís es lo que se busca. Y acordate que a medida que vamos avanzando en los tipos de redes van apareciendo más hiperparámetros a modificar. La idea es que describan una forma de entrenamiento y búsqueda y un conjunto de hiperparámetros que resulte apropiado para la tarea en cuestión.

Saludos,
Luis