Maine,
La idea del proyecto es entrenar un clasificador binario que pueda predecir nuevos genes asociados a un proceso biológico a partir de datos de expresión génica. Nosotros tenemos la clase positiva que serían 74 genes que ya sabemos que pertenecen al proceso, y nos genera la siguiente duda:
A la hora de crear la muestra de entrenamiento, pensabamos seleccionar genes al azar como clase negativa, dado que no hay evidencia empirica de genes que se sepa al 100% que no están asociados a dicho proceso. Dado que en la realidad nos econtramos con un problema de clases desbalanceadas, la clase negativa debería ser más grande que la positiva? Y ahí utilizar lo que aprendimos de stratified sampling. O dado que hay algoritmos que se desempeñan "mal" con clases desbalanceadas agarramos la misma cantidad de genes? Y en ese caso, la muestra de evaluación también debería estar balanceada? O ahí si tendría que estar desbalanceada para representar la realidad?
Gracias desde ya!
Sofía