Datos y Energía. La calidad importa

Datos. El mantra de la cuarta revolución industrial. A contracorriente de la temática habitual, en esta entrada no vamos a volver sobre sentencias manoseadas como la de "los datos son el nuevo petróleo", ni vamos a exponer las impresionantes maravillas que están por llegar de mano de la Inteligencia Artificial. Vamos a plantear en cambio una breve reflexión sobre un asunto que suele permanecer en segundo plano, pero que como vamos a ver, juega un papel decisivo en todo este asunto: la calidad del carburante, si se me permite el símil "fósil", con que alimentamos los modelos de predicción en el mundo de las energías renovables, la calidad de los datos.

Vivimos un cambio de paradigma en el sector energético. La explosión de la cantidad de información disponible junto a la imparable penetración de las energías renovables y su incertidumbre inherente, hacen de este campo un lugar increíblemente atractivo para la aplicación de modelos estadísticos, Machine Learning, o si el lector más visionario prefiere, Inteligencia Artificial. Altas cantidades de datos disponibles junto a una buena dosis de incertidumbre por explicar en procesos complejos de toma de decisiones que abarcan desde el análisis de inversiones hasta nuestra vida cotidiana como usuarios. Qué más se puede pedir.

Un sencillo ejemplo para hacer sitio al tema principal de este post. Pensemos en algunos de los Gigantes del Dato: Google, Facebook, Amazon, etc. Su fuente primaria de información se genera a través de la actividad de millones de usuarios en la red. Simplificando un poco, se miden "clics". El error de medición podríamos decir que es despreciable. En el mundo de la energía renovable, por contra, gran parte de nuestros datos se originan ahí fuera, en una red de sensores físicos sujeta a los rigores de la intemperie. Hablamos de un rango muy extenso de posibles problemas: de ubicación, de calibración, de fallos técnicos, etc. Nosotros, al contrario, no podemos obviar el error de medida. A esta nutrida lista habría que añadir los problemas derivados de la transmisión ineficiente de la información y sus atributos, los conocidos como "metadatos". Ejemplos clásicos serían series temporales sin zona horaria o datos de disponibilidad indescifrables. Cualquiera que haya entrado en el cuerpo a cuerpo con datos de este tipo sabe a qué me refiero.

Los modelos de Machine Learning son increíblemente efectivos a la hora de encontrar la señal útil en conjuntos de datos complejos. Consiguen desentrañar patrones ocultos que ayudan a explicar el fenómeno que perseguimos. La mala noticia es que son algo malos a la hora de determinar de qué tipo es el ruido presente en los datos. Son algo resultadistas, podríamos decir. Por lo tanto, introduciendo errores de medida caemos en el riesgo de que estos artefactos de predicción den por buenas relaciones alejadas de la realidad (espurias), que restan dramáticamente valor a su salida.

Cuando revisamos las causas de desempeños pobres de sistemas de predicción de generación en plantas renovables, hay dos motivos que explican prácticamente el 100% de los casos: o bien se trata de emplazamientos cuyas características hacen intrínsecamente complicada la predicción en ellos (forzamientos topográficos u otros fenómenos de pequeña escala que escapan a los modelos meteorológicos de entrada), o bien la calidad de las observaciones con que se calibran los modelos es deficiente (históricos cortos o incompletos, variables mal especificadas o directamente valores erróneos).

Es fácil entender que la calidad del dato tiene un doble impacto: el filtrado y organización de la información constituye generalmente una fase altamente costosa dentro del proceso de modelización. Por otra, tenemos el propio efecto de los modelos basados en datos poco fiables: predicciones de calidad deficiente que afectan a los costes de operación de las plantas, o estimaciones mejorables de eficiencia de los equipos de generación que desembocan en análisis financieros poco fiables. Aspectos importantes en un escenario competitivo de márgenes cada vez más finos.

Por otra parte, la estructura del sector hace que generalmente haya varios actores implicados en el procesamiento y transmisión de la información. Desde la recogida de los datos en la red de sensores hasta su ingestión en los modelos finales, los datos pasan por varias manos y por un número indeterminado de decisiones bajo diversos criterios.

Retomando el discurso de la revolución de los datos, sin duda uno de los avances más atractivos es la creciente capacidad de manejar volúmenes importantes de información en tiempo real. A las indudables mejoras en técnicas de predicción, se suma la disponibilidad de la información en plazos cada vez más cortos. Para materializar esta disponibilidad en un incremento de valor añadido de los modelos de predicción es fundamental avanzar en la automatización de la cadena de procesos de adquisición, transmisión y procesado de la información. Dicho de otro modo: los modelos de predicción de generación y demanda serán capaces de cubrir las crecientes necesidades del sector en la medida en que seamos capaces de optimizar el intercambio de información, con la premisa indispensable de mantener una calidad suficiente en los datos.

Los retos que afronta en este sentido el sector son múltiples. No sólo es necesario avanzar en la definición de estándares que normalicen la información que se intercambia (correcta definición y comunicación de metadatos – variables, unidades, convenios), sino también en mejorar las condiciones de acceso independiente por parte de los proveedores de modelos a los datos en origen (con las necesarias garantías de protección de la información propiedad del cliente) y en el diseño y desarrollo de plataformas de intercambio de información estructuradas atendiendo a su uso final. Y por supuesto, la necesidad de progresar en rutinas automáticas de filtrado automático que aseguren la calidad mencionada anteriormente.

Como hemos visto, es vital que los diferentes agentes implicados en todas las fases de vida del proyecto de energía renovable adopten criterios de 'cariño a los datos' en las decisiones propias de cada una: desde la planificación de emplazamientos de los instrumentos de medición, hasta las metodologías de filtrado y comunicación, pasando por el mantenimiento de la infraestructura en su conjunto. Un combustible de calidad que a la larga compensa.

paulino.tardaguila@ul.com

ul renovables

Datos y Energía. La calidad importa