全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
1837 1
2020-06-08
求教,
目前有一组数据,其中姓氏列包含大部分正常的数据(张王李赵等)和小部分乱码(ABCD *$等符号)。 如何筛选只有中文的数据?
多谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2020-6-9 13:04:52
可能需要一些数据来判断

我的想法是使用utf8ToInt函数,把所有列都转换成int,
正常的中文字符是从\u4e00 ~ \u9fa5,也就是19968 ~ 40869

如果你的乱码都是字母啥的,那肯定不在这个范围,对每行判断一下每个字(姓氏可能是多个字)是否都落在这个范围,不在的就是乱码

举个例子:
复制代码
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群