Uso de aprendizado de máquinas para imputação de valores de radiação solar
Data
2023-01-10
Tipo
Trabalho de conclusão de curso
Título da Revista
ISSN da Revista
Título de Volume
Resumo
Possuir uma matriz energética diversificada é imprescindível para um país ter segurança elétrica, principalmente fazendo uso de recursos renováveis, como a energia solar. Para que se possa aproveitar seu uso é necessário a utilização de usinas fotovoltaicas ou centrais heliotérmicas e para realizar estudos de viabilidade de projetos envolvendo seu uso é necessário possuir uma base de dados com dados captados de radiação solar para que sejam realizadas as estimativas necessárias. Porém é conhecido que falhas e erros podem ocorrer, e surjam inúmeras lacunas de dados não captados, gerando valores ausentes nas bases de dados. Métodos simples de imputação de dados para o preenchimento de lacunas nas bases de dados podem apresentar incertezas elevadas uma vez que a irradiação incidente na superfície apresenta variabilidade não linear associadas com a condição meteorológica. Existem recursos de aprendizado de máquina capazes de realizar imputações para valores ausentes, realizar a predição e avaliar a métrica de forma adequada entre os valores reais e preditos. No presente trabalho foi realizado a aplicação de técnicas de imputação para valores ausentes baseados em métodos de aprendizagem de máquina: K-Vizinhos Próximos (KNN), Regressão Linear (Lr), Extra Tree (Et,) LightGBM, Catboost e ExtremeGradientBoosting (XGBoost). As incertezas dos métodos foram avaliadas com métricas estatísticas típicas como o desvio quadrático médio (MSE), desvio absoluto médio (MAE) e a raiz do MSE (RMSE). O método com os melhores resultados obtidos foi o catboost, apresentando a melhor correlação do R-quadrado, menor MSE e RMSE e segundo melhor MAE.
Having a diversified energy matrix is essential for a country to have electrical security, especially using renewable resources, such as solar energy. In order to take advantage of its use, it is necessary to use photovoltaic plants or heliothermal power stations and to carry out feasibility studies of projects involving its use, it is necessary to have a database with data captured from solar radiation so that the necessary estimates can be made. However, it is known that failures and errors can occur, and numerous gaps of data not captured appear, generating missing values in the databases. Simple data imputation methods to fill gaps in the databases can present high uncertainties since the incident irradiation on the surface presents non-linear variability associated with the meteorological condition. There are machine learning resources capable of performing imputations for missing values, performing the prediction, and evaluating the metric appropriately between the actual and predicted values. In the present work, imputation techniques were applied for missing values based on machine learning methods: k-Nearest Neighbors (KNN), Linear Regression (Lr), Extra Tree (Et,) LightGBM, Catboost and ExtremeGradientBoosting (XGBoost). Method uncertainties were evaluated with typical statistical metrics such as root mean square deviation (MSE), mean absolute deviation (MAE) and root of MSE (RMSE). The method with the best results obtained was catboost, presenting the best R-squared correlation, lowest MSE and RMSE and second best MAE.
Having a diversified energy matrix is essential for a country to have electrical security, especially using renewable resources, such as solar energy. In order to take advantage of its use, it is necessary to use photovoltaic plants or heliothermal power stations and to carry out feasibility studies of projects involving its use, it is necessary to have a database with data captured from solar radiation so that the necessary estimates can be made. However, it is known that failures and errors can occur, and numerous gaps of data not captured appear, generating missing values in the databases. Simple data imputation methods to fill gaps in the databases can present high uncertainties since the incident irradiation on the surface presents non-linear variability associated with the meteorological condition. There are machine learning resources capable of performing imputations for missing values, performing the prediction, and evaluating the metric appropriately between the actual and predicted values. In the present work, imputation techniques were applied for missing values based on machine learning methods: k-Nearest Neighbors (KNN), Linear Regression (Lr), Extra Tree (Et,) LightGBM, Catboost and ExtremeGradientBoosting (XGBoost). Method uncertainties were evaluated with typical statistical metrics such as root mean square deviation (MSE), mean absolute deviation (MAE) and root of MSE (RMSE). The method with the best results obtained was catboost, presenting the best R-squared correlation, lowest MSE and RMSE and second best MAE.
Descrição
Citação
JUVÊNCIO, Rafael Mariano. Uso de aprendizado de máquinas para imputação de valores de radiação solar. 2023. 37 f. Trabalho de conclusão de curso (Graduação em Engenharia de Petróleo) - Instituto do Mar, Universidade Federal de São Paulo, Santos, 2023.