背景及统计的作用:
一个洗衣粉产品的清洁能力好坏受很多因素的影响,例如:
- 配方中的每一成分的多少
- 洗衣的方法及环境条件(洗衣时间的长短,洗衣用水的情况等)
如果能通过统计建模的方法建立一个用配方及洗衣条件来预测产品功效的模型,就可以
1. 了解产品中每一成分,及洗衣的方法、条件等因素对产品清洁能力的影响;
2. 在给出产品的配方时对产品在一定条件下的清洁能力做出比较可靠的预测;
3. 在一定的条件下,优化产品的配方。
试验:
根据目标,我们设计了一个250个不同处理组合(Treatment)的试验:
- 设计时考虑的因素有产品的配方中每一成分的量及洗衣条件,每一因素有三个水平;
- 用设计所得的每一个配方的产品去洗涤一些衣物,根据洗涤后衣物的清洁程度计算出每一配方的清洁能力(试验中衣物的初始脏度可能会有一些波动,所以拟合模型时需要考虑到它的影响);
- 每四个配方作为一组来进行试验(这样就产生了一个区组的效应需要在建模时考虑);
已有的数据:
250个不同处理组合(Treatment)的试验数据
输入变量包括:
- 配方中的20种成分 (C1—C20)
- 洗衣方法及洗衣环境参数 4 个 (P1—P4)
- 区组 (block)
- 衣物初始的脏度 (Baseline1—Baseline5,分别对应5种污渍)
输出变量为:产品在5种不同种类污渍上的清洁功效(Cleaning1—Cleaning5)
要求:
- 对此数据选用不同的统计方法进行分析,建立一个用产品配方来预测产品清洁能力模型;
- 需要考虑的效应为所有变量的线性项,C1—C20、P1—P4的平方项及交互作用项;
- 将对应每一污渍初始的脏度(Baseline1—Baseline5)作为协变量放入模型,例如对Cleaning1建模时,需将Baseline1作为协变量加入模型,依此类推;
- 试用多种不同的模型选择方法对数据进行分析;
- 选择合适的能够反映模型预测能力的评价准则(可以根据需要提出新的准则),并根据所选准则找出最优模型;
- 再利用前10组数据说明拟合出的模型的预测能力。
注意:
如果同时考虑所有的线性项、平方项和交互作用项的话,所有要估计的参数的个数远大于处理组合的个数(250)。