经管之家App
让优质教育人人可得
立即打开
全部版块
我的主页
›
论坛
›
数据科学与人工智能
›
数据分析与数据科学
›
python论坛
python怎么处理大容量的类别数据?(category data)
楼主
jimozhegu
1635
2
收藏
2019-08-07
之前用R的时候factor类型可以直接导入模型,现在用Python使用随机森林的时候才发现不支持。
查了下资料,说这个时候一般用one hot encoding,但是我的数据类别有1000多个,容量太大。
请问这个时候一般怎么处理?或者有没有什么好的压缩次元的方法?
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
全部回复
沙发
詹惠儿
2019-8-8 11:59:18
1. 利用聚类算法进行类别合并;
2. 利用决策树进行类别合并;
3. WOE编码
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
藤椅
jimozhegu
2019-8-8 19:17:58
詹惠儿 发表于 2019-8-8 11:59
1. 利用聚类算法进行类别合并;
2. 利用决策树进行类别合并;
3. WOE编码
请问怎么进行合并?只知道决策树用importance重新想了下,比如我有ABCDEF个列,全部都是类别数据。其中ABCDE是X,F是Y,ABCD有10个类别,E有300个类别。
那应该怎么将E聚类?用ABCD来描述E吗?这样不是E就变成相当于ABCD?
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
相关推荐
求解答,关于category和dummy
python装饰器的巧用
【量化实验室q.datayes.com】量化分析师的Python日记【第1天:谁来给我讲讲Python?】
【量化实验室q.datayes.com】量化分析师的Python日记【第2天:再接着介绍一下Python】
【量化实验室q.datayes.com】量化分析师的Python日记【第4天:scipy篇】
python卸载问题
几本关于Python以及data的书
python 3的数据读取问题
太香了!强烈安利14个Python奇技淫巧
【答读者问2】用python做量化投资能实现什么?
栏目导航
python论坛
新手入门区
爱问频道
行业分析报告
哲学与心理学版
经管文库(原现金交易版)
热门文章
CDA 数据分析师:特征处理核心指南
电子行业深度报告:量子深潜-计算篇:从比特 ...
制造业全要素生产率(2000-2024年)
从知识图谱到认知智能
2025生成式人工智能在自动驾驶中的应用白皮 ...
中物联:全球供应链发展趋势蓝皮书(2025)
企业降低融资成本白皮书(2025)
2025年最值得关注的公司-放射配体创新者开启 ...
中国能源统计年鉴1986-2023
签个到
推荐文章
AI狂潮席卷学术圈,不会编程也能打造专属智 ...
10月重磅来袭|《打造Coze/Dify专属学术智能 ...
最快1年拿证,学费不足5W!热门美国人工智能 ...
关于如何利用文献的若干建议
关于学术研究和论文发表的一些建议
关于科研中如何学习基础知识的一些建议 (一 ...
一个自编的经济学建模小案例 --写给授课本科 ...
AI智能体赋能教学改革: 全国AI教育教学应用 ...
2025中国AIoT产业全景图谱报告-406页
关于文献求助的一些建议
说点什么
分享
微信
QQ空间
QQ
微博
扫码加好友,拉您进群
各岗位、行业、专业交流群