本次大赛只有一个目的就是读取中文。
条件如下:
(1)现在有提供文本数据一个txt文件(需要考虑文章中汉字个数是不确定的)
(2)必须读入文件
(3)必须用SAS(以写程序者将获得比较高的分数)
(4)输出每个汉字(比如在文章中有10000个汉字)不论重复与否,都应该输出。
例如: “我们爱统计, 我LOVE华东师大”
输出应该是:
obs x
1 我
2 们
3 爱
4 统
5 计
6 我
7 LOVE
8 华
9 东
10 师
11 大
奖品:
一等奖:10000论坛币(2名)
二等奖:6000论坛(5名)
三等奖:3000论坛币(10名)
参与奖:1000论坛币(30名)
截止日期:2010年10月10日
结果发送到:
wjw84221@yahoo.com.cn
我将组织相关人员进行评估,评估方法将公布!
————————————————————————————————————————————————————————————
我个人在实践过程中认为难处
难点有四:
1、如何分割中文使其一个字一个字,一个词一个词(达到比赛基本要求=150 score)
2、如何将段落之间的关系处理好。段与段之间怎么在文章中把他们自动连接在一起或者说怎么删除换行 (=120 score)
3、如何处理好各种标点符号(应该删除)、西文(英文、日文、俄文等等)(=60 score)
4、值得注意的是1个字好处理,汉字是汉字,英文是英文(解决了=30),但是两个字(一个双字词)的时候英文会变。如: we爱 变成 “wwee爱”;当是三个字以上,英文就消失了(这是一个问题)(=90 score)