经管之家App
让优质教育人人可得
立即打开
全部版块
我的主页
›
论坛
›
数据科学与人工智能
›
数据分析与数据科学
›
python论坛
python怎么处理大容量的类别数据?(category data)
楼主
jimozhegu
1698
2
收藏
2019-08-07
之前用R的时候factor类型可以直接导入模型,现在用Python使用随机森林的时候才发现不支持。
查了下资料,说这个时候一般用one hot encoding,但是我的数据类别有1000多个,容量太大。
请问这个时候一般怎么处理?或者有没有什么好的压缩次元的方法?
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
全部回复
沙发
詹惠儿
2019-8-8 11:59:18
1. 利用聚类算法进行类别合并;
2. 利用决策树进行类别合并;
3. WOE编码
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
藤椅
jimozhegu
2019-8-8 19:17:58
詹惠儿 发表于 2019-8-8 11:59
1. 利用聚类算法进行类别合并;
2. 利用决策树进行类别合并;
3. WOE编码
请问怎么进行合并?只知道决策树用importance重新想了下,比如我有ABCDEF个列,全部都是类别数据。其中ABCDE是X,F是Y,ABCD有10个类别,E有300个类别。
那应该怎么将E聚类?用ABCD来描述E吗?这样不是E就变成相当于ABCD?
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
相关推荐
求解答,关于category和dummy
python装饰器的巧用
【量化实验室q.datayes.com】量化分析师的Python日记【第1天:谁来给我讲讲Python?】
【量化实验室q.datayes.com】量化分析师的Python日记【第2天:再接着介绍一下Python】
【量化实验室q.datayes.com】量化分析师的Python日记【第4天:scipy篇】
python卸载问题
几本关于Python以及data的书
python 3的数据读取问题
太香了!强烈安利14个Python奇技淫巧
【答读者问2】用python做量化投资能实现什么?
栏目导航
python论坛
市场行情分析
经管文库(原现金交易版)
悬赏大厅
经管高考
商学院
热门文章
表格结构数据特征与CDA数据分析师:精准适配 ...
新宏观丨豆包,传统经济学与商学对全球性债 ...
几何(第五卷)[法] M. 贝尔热
几何(第四卷)[法] M. 贝尔热
问卷填写,每份50个论坛币
【中国电信】2025年云计算研究白皮书
奇瑞QQ焕新归来
房地产行业:2026年,年轻人应该先买车还是 ...
普华永道 - 中国影响力报告2025
【24更新,自用整理!】2007-2024省级环境保护 ...
推荐文章
2026JG学术冬训营:从Stata初高到Python机器 ...
【必看】【本版版规,欢迎发悬赏贴求助】
26年寒假天津站|Gemini论文写作&数据分析 ...
关于如何利用文献的若干建议
关于学术研究和论文发表的一些建议
关于科研中如何学习基础知识的一些建议 (一 ...
一个自编的经济学建模小案例 --写给授课本科 ...
AI智能体赋能教学改革: 全国AI教育教学应用 ...
2025中国AIoT产业全景图谱报告-406页
关于文献求助的一些建议
说点什么
分享
微信
QQ空间
QQ
微博
扫码加好友,拉您进群
各岗位、行业、专业交流群