人工智能学习:机器学习测试题2
人类对于自动化和智能化的追求一直推动着技术的进步,而机器学习这类型的技术对各个领域都起到了巨大的作用。随着时间的推移,我们将看到机器学习无处不在,从移动个人助理到电子商务网站的推荐系统。即使作为一个外行,你也不能忽视机器学习对你生活的影响。
21.在一个包含5000个特征及超过一百万个观测值的数据集上建立一个机器学习的模型,下面哪种方法能更高效地训练模型?
A.从数据集中随机抽取样本来建立模型
B.使用在线学习算法
C.使用主成分分析法(PCA)对数据降维
D.B和C
E.A和B
F.以上全部
答案:F
解析:以下是在有限内存机器上处理高维数据的方法:在数据集中随机抽样,创建一个较小的数据集进行计算(如:抽取1000个变量和300000行的数据);运用在线学习算法,如使用Vowpal Wabbit;运用主成分分析法(PCA)选取方差最大方向。
22.以下哪种方法可以减少数据集中的特征(选择一个最佳答案)?
a.使用“前向”搜索
b.使用“后向”搜索
c.我们把模型中的所有特征都训练一次,得到测试中模型的精确性。每次取一个特征,对测试数据集的特征值进行清洗,并且对测试数据进行预测,然后评估模型。若模型的精确性提高,则移除次特征。
d.根据相关表提出相关性高的特征
A.a和b
B.b,c和d
C.a,b和d
D.以上全部
答案:D
解析:“前向”搜索和“后向”搜索是特征选择的两种主要方法;使用前面两种方法失败时,第三种方法在一个大数据集中则非常有效;在特征选择中使用相关性进行选择还可以剔除存在多重共线性的特征。
23.下列关于随机森林和GradientBoosting说法正确的是?
a.随机森林里的决策树不是相互独立的,而GradientBooting里的决策树是相互独立的。
b.两者都使用特征的