全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 python论坛
1367 3
2017-06-11
悬赏 50 个论坛币 未解决
图片1.png

要处理的文本是这种形式的,现在要在文本中把每一个Z4提取出来,经过清洗和分词之后,作为一行写入新的文本中,下一个Z4经过同样的处理作为另一行写入新的文本中,以此类推。最终形成的文本是每一个经过分词处理后的Z4作为一行。

这是目前写的代码:

图片2.png

基本的逻辑是这样的:

对于文本中的每一行

如果开头两个字符是Z4

    打印行

    进行清洗

    写入新的文本

如果开头的两个字符为空

    打印行

    进行清洗

    写入新的文本

  如果开头的两个字符是CR

  加入换行

      结束

这段代码能够提取每一个Z4,并进行清洗。但是输出的结果最后都是一行,没有实现每一个Z4是一行,代码中qingxi += ‘\n’是实现换行的,但是从结果看也没有起作用,不知道该怎么解决这个问题。求大神解答


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-6-11 16:54:55
这是要处理的文本
附件列表

savedrecs (1)(1).txt

大小:132.47 KB

 马上下载

要处理的文本

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-6-12 18:45:06
实际上每次循环是把一行追加保存在new_result里面。
而换行符是保存在qingxi里面。在下次循环的时候qingxi被重现赋值了。
结果就是new_result里面有完整的内容,但是没有换行符。

逻辑不太对。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-6-12 18:55:49
手机不方便,我觉得大概过程应该是这样
qingxi=findall(line)
result.append(qingxi)

if cr
result.append('\n')

循环完后完整内容在result里。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群