全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学
5408 24
2010-08-26
本次大赛只有一个目的就是读取中文。
条件如下:
(1)现在有提供文本数据一个txt文件(需要考虑文章中汉字个数是不确定的)
(2)必须读入文件
(3)必须用SAS(以写程序者将获得比较高的分数)
(4)输出每个汉字(比如在文章中有10000个汉字)不论重复与否,都应该输出。
例如: “我们爱统计, 我LOVE华东师大”
输出应该是:
obs    x
1       我
2       们
3       爱
4       统
5       计
6       我
7       LOVE
8       华
9       东
10     师
11     大               
奖品:
一等奖:10000论坛币(2名)
二等奖:6000论坛(5名)
三等奖:3000论坛币(10名)
参与奖:1000论坛币(30名)
截止日期:2010年10月10日
结果发送到:wjw84221@yahoo.com.cn
我将组织相关人员进行评估,评估方法将公布!

————————————————————————————————————————————————————————————
我个人在实践过程中认为难处

难点有四:
1、如何分割中文使其一个字一个字,一个词一个词(达到比赛基本要求=150 score)
2、如何将段落之间的关系处理好。段与段之间怎么在文章中把他们自动连接在一起或者说怎么删除换行 (=120 score)
3、如何处理好各种标点符号(应该删除)、西文(英文、日文、俄文等等)(=60 score)
4、值得注意的是1个字好处理,汉字是汉字,英文是英文(解决了=30),但是两个字(一个双字词)的时候英文会变。如: we爱 变成 “wwee爱”;当是三个字以上,英文就消失了(这是一个问题)(=90 score)
附件列表

bisai.txt

大小:113.46 KB

 马上下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2010-8-26 08:13:54
支持
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-8-26 08:23:57
首先感谢管理人员的支持,
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-8-26 08:45:06
支持!很好的活动!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-8-26 16:31:17
可以用SAS TEXT MINER模块么?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-8-26 16:34:46
将大量中文读入sas在实际中是否有现实意义呢?望斑竹举例
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群