原题:
某企业在全国各地建有多个种猪场(饲养和管理母猪,用于生产仔猪的养殖场),也因此收集到大量的养殖大数据。数据主要分为三类:
a.传感器采集的饲养方案数据。如温度、湿度、饲喂饲料量等。未来随着物联网技术的发展,将有更多的数据可通过传感器收集,如体温、运动图像等。
b.人工采集并记录的种猪数据。如品种、胎次、疾病情况、肥瘦程度等。
c.种猪的生产成绩。主要是生仔总数和健康仔猪数。其中以健康仔猪数为最重要的指标,但健康仔猪数占生仔总数的比例也需考虑提升。
如附件所示。现需要:
(1)对于a.饲养方案数据和b.种猪数据,是影响c.生产成绩的因素,但是,这只是一个经验判断,试建立关系分析模型,以参数形式表征变量a, b对结果c的影响程度(或正或负)。注意,变量间并非一定相对独立,可对变量进行分组,使分组与分组之间相对独立,再表征分组对结果的影响程度。
(2)对(1)中影响程度较大的因素记为显著因子(绝对值排名前3),试建立显著因子对c.生产成绩造成影响的数学模型,并求出最优解或最优解的趋势。
(3)该企业对种猪场的建设速度为180天,猪场前期审批和建成后引种需180天,配种和怀孕生产周期为17周,养户饲养生猪从进猪到售卖约为180天。也就是说,做出建设种猪场的决定到养育成生猪在市场售卖,约有两年的时间滞后(以两年时间计算)。现请根据全国人口分布,及生猪价格的分布和变动趋势,决策2018年4月应在哪些区域建设种猪场。
现在我们的难题是怎么把自变量之间的影响考虑进去,不知道是用多元方差还是主成分分析。
我们之前想的是第一题用逐步回归分析法,但它只针对于线性模型。我们根据第二题判断应该是非线性模型,所以我们目前方向是主成分分析,第二题用神经网络,但操作时遇到一些困难,也不知道这个方向对不对,求解答!谢谢大家!