全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
1607 0
2010-12-07
新手就要处理大量数据,一直用data步程序弄,但是读取的数据总是不完整,宏又不会用,只好来求教。

原始文件是test.doc,这个文挡是400多个同样格式的文档组成的(我只保留了七个)。每个文档都有update date,generic name,latest news,Licensor, Latest Phase, Active Program, Indication, Action, Substance Origin, Class Description, 等等变量。把它转化成txt后,变量名和每个变量都占一行,变量和变量之间空格隔开。

我想把他们转换成excel文件,因为数据太多,数据里又有表格,所以我就先只取 Update Date,Licensor, Latest Phase,
Active Program, Class Description, Company, Patentee, Patent Data, History 这些数据。
但是像class description, company这种变量,它可能有多于一个的变量值,而且在不同行,我就不知道怎么读取了。
我读取像Licensor这种值的时候,只会用@‘Lincensor’这种语句,结果把文本里其他licensor的语句也读了,
实在是不知道怎么办了。
望高手解答。
附件列表

test.txt

大小:24.75 KB

 马上下载

test.docx

大小:36.43 KB

 马上下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群