Estimados,
Su discusión aquí va en el sentido correcto, y es correcto lo que indica Daniel.
La incertidumbre de los estimativos (2% para GHI) y la incertidumbre por variabilidad interanual (X%, calculado a través del desvío estándar de las anomalías porcentuales) son fuentes de incertidumbre distinta en el conocimiento del recurso solar en el sitio. Estas incertidumbres se combinan cuadráticamente para llegar a una incertidumbre efectiva, por ejemplo, para la parte (c). Habría que decir que la incertidumbre de la medición en tierra es otra fuente de incertidumbre a adicionar, y algunas consultoras especializadas en recurso solar lo hacen, pero en este ejercicio no se pide (además, no se dan los datos).
A partir de esta incertidumbre efectiva, y asumiendo una hipótesis Gaussiana, es que se estiman los valores pedidos en la parte c.
Respecto a la parte a), lo que se pide es la distribución empírica de los datos, sin asumir ningún tipo de distribución paramétrica (como Gaussiana u otra). Hay varias formas de calcular la distribución CDF empírica de un set de datos. Estas son:
* La más simple es ordenar los datos de menor a mayor y asignarle a cada uno probabilidad de i/N, donde N es la cantidad total de muestras e i es la posición de cada muestra en el vector ordenada, que varía entre 1 y N. Entonces, por ejemplo, la primer muestra del vector ordenado (x1) tiene CDF(x1) = 1/N y la última (xn) tiene CDF(xn) = 1, lo que coincide perfectamente con la definición de CDF: CDF(x) = P(X<=x). Esta forma de estimación de la CDF empírica es simple, pero hay que tenerle cuidado a la hora de operar con ella, debido a que el eje x que nos va a quedar son los datos y, por tanto, no es un vector regular. He visto muchas malas implementaciones de restas de CDFs empíricas (incluso en artículos académicos!), por ejemplo, al hacer de esta manera la cuenta (CDF(x) - CDF(y)), donde x e y son conjuntos de datos distintos. Para este ejercicio, obtenerlas de esta manera y graficarlas es completamente aceptable, dado que les va a permitir visualizarlas y compararlas cualitativamente.
* Hay una forma un poco más elaborada que no tiene el problema anterior, que es la de tomar un vector x fijo (y regular) como soporte del cálculo de la CDF empírica, y utilizar los datos para ir sumando escalones desplazados (escalón de Heavyside o escalón unitario, H(x), desplazado por los datos, H(x-xi)). Esto no tiene el problema anterior, y su uno calcula CDFs empírica con el mismo soporte x, puede operar entre ellas sin ningún problema. Hay una explicación sobre esto al inicio del Cap. 3 de la Memoría Técnica del AMTUes (http://les.edu.uy/pub/MT-AMTUes.pdf), dado que operar con CDFs es crítico en ese desarrollo. En el caso de este ejercicio, no es exigido, pero es posible que es la cuenta que haga cualquier función built-in de programas de cálculo numérico.
* Hay otras formas más complejas, que intentan mejorar la estimación de la CDF o PDF empírica cuando uno tiene pocos datos o cuando necesita hacer operaciones que requieran curvas "suaves". Pueden ver, si les interesa, la estimación de densidad de probabilidad por núcleos (kernels, usualmente gaussianos): https://en.wikipedia.org/wiki/Kernel_density_estimation. Uno estima la PDF sobre un soporte x fijo, como el anterior, y luego calcula la CDF por integración de al PDF. Esto, obviamente, esta lejano a lo esperado para el ejercicio (que sería el primer punto).
Saludos, Rodrigo