全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
17925 6
2018-09-10
希望实现的功能:原数据是2列,数万行,包含500多个不同的字符型变量。希望能用一种方法将变量从1开始统一编号,并且生成一个可以索引的序列表,然后再用这些数字进行代替原数据。希望实现的结果如下图(从左图变为右图): 捕获1.PNG

目前的进度是生成了一个序列表
flung_seq.txt
大小:(5.42 KB)

 马上下载

,但是在使用gsub进行替换时候,得到的数据用不了,希望能有大神指导,谢谢!


原始数据
fLung_cha.txt
大小:(210.46 KB)

 马上下载


前几行是希望得到的处理数据
fLung_num.txt
大小:(191.2 KB)

 马上下载



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-9-10 19:41:50
1. stack two column into one column
2. use set to get the unique vaule
3. use dict to get the unique key and value
4. use the key-value to map the vaule in the original file
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-9-11 08:02:29
你需要的是将character的数据转变为factor数据,转变时,levels = sort(unique(fLung_cha$Var1))即可
要想变为完全数字,就用as.integer(),
要想看转化的规则,就看levels(fLung_cha$Var1)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-9-11 10:32:14
这个不是变换吧,感觉就是变成因子变量,用factor语句
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-9-11 17:49:29
factor转换然后用stringr包逐个查找替代
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-3-12 18:15:03
楼主解决了吗
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群