全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 python论坛
1895 2
2017-06-13
以下内容转自 数析学院,只节选了部分,有需要的同学可以直接查看原文

在数据分析中,特征选择往往是我们面临的首要难题,本节将向大家介绍 Scikit-Learn 提供的特征工程相关工具,以便我们在 Python 中更好地对模型的特征进行处理。

1、分类变量特征预处理

首先我们构造如下示例数据:

复制代码


在作为示例的租房数据中,分类变量 neighborhood 可以对应以下三个值:

复制代码

运用 Scikit-Learn 中的 DictVectorizer 函数,我们将以上租房数据的分类变量转换为 one-hot 形式:

复制代码
array([[     0,      1,      0, 850000,      4],       [     1,      0,      0, 700000,      3],       [     0,      0,      1, 650000,      3],       [     1,      0,      0, 600000,      2]])
可以通过调用 get_feature_names 函数,来查看转换后的数组中对应的列名:
复制代码
['neighborhood=Fremont', 'neighborhood=Queen Anne', 'neighborhood=Wallingford', 'price', 'rooms']
要注意的是,当我们将 DictVectorizer 函数参数 sparse 的值设置为 True 时,转换后的对象将不再是一个数组,而是一个 sparse matrix 对象:
复制代码

<4x5 sparse matrix of type '<class 'numpy.int64'>'        with 12 stored elements in Compressed Sparse Row format>

后文还有介绍 文本特征提取、特征项扩充、特征缺失值处理、pipeline 模型等,内容较多,先搬运到这,有需要的同学可以先直接到 数析学院 查看原文
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-6-16 15:14:52
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-12-21 10:27:54
谢谢分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群