通过对kaggle网站中的” SolarRadiation Prediction”数据集分析,进一步探索各个指标间的相关信息,最终找出影响太阳辐射量的重要因素。该数据集来自HI-SEAS气象站4个月期间(2016年9月至12月)所观测的气象数据,包含了11项数据指标。在经过对数据的预处理后,本文通过数据指标的描述性统计以及各个指标的相关性分析,初步探明了数据概况。同时,还利用ggplot2包中的相关函数以及可视化方法对数据进行可视化处理,以直方图、密度图、散点图、风向风速玫瑰图等形式来呈现。
在进行相关性分析之后,利用多元线性回归、随机森林等进行统计建模,并利用测试集对模型进行预测和检验。通过对不同模型的拟合优度的比较,确定最优预测模型为随机森林回归模型。与此同时,也通过对影响太阳辐射量的相关数据指标探索,确定了温度为影响太阳辐射量的最重要指标。后面我们也尝试使用神经网络进行数据拟合,建立神经网络模型进行回归预测建模。另外,使用RNN对太阳辐射量进行预测,得到了不错的拟合效果。最后对探索该数据集做了总结和展望,可以利用不同的模型对该数据集进行统计建模,更好地探究太阳辐射量与其它天气因素之间的关系,以便于人类更好的利用太阳能资源。