全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 python论坛
1461 2
2018-06-26
代码如下:
复制代码
这个代码的目的是要找到在这两个文件中存在的满足条件的行,比如下面两行:
E00548:177:HKH53CCXY:4:1204:1783:5563|TACAGACTGTGGCAAGCAACCGAT  163     chr22   24930312        54      71M67S  =       24930312        71      GAGAATTGCTTGGGCAGAGGTTGCAGTGAACTGAGATCATGCCACTGCACTCCAGCCTGGCGACAGAGCGAACCACAGTCTGTAAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTAGATCTCGGTGGTCGCCGTAT   JJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJAJJJJFJJJJAAJJFJFJJJJJAFJJJJJJJJJJFAJAAF   NM:i:0  MD:Z:71 AS:i:71 XS:i:54 RG:Z:L004

E00548:177:HKH53CCXY:4:2210:30573:69678|CAAGCAACCGATTACAGACTGTGG        99      chr22   24930312        54      71M67S  =       24930312        71      GAGAATTGCTTGGGCAGAGGTTGCAGTGAACTGAGATCATGCCACTGCACTCCAGCCTGGCGACAGAGCGAACCACAGTCTGTAAGATCGGAAGAGCACACGTCTGAACTCCAGTCACATCTCGTATGCCGTCTTCTG   JJJJJJJFJJJJJJJJJJFJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJAJJJJJJFJJJFFJJJ7   NM:i:0  MD:Z:71 AS:i:71 XS:i:54 RG:Z:L004


这是两行,分别来自打开的两个文件,格式都是相同的,筛选出这两行的条件就是:
1、这两行的第一列中的TACAGACTGTGGCAAGCAACCGAT 与 CAAGCAACCGATTACAGACTGTGG
     第一个的前12个字符等于第二个中的后12个字符,第一个的后12个字符等于第二个中的前12个字符,直观一点就是:
     TACAGACTGTGG   CAAGCAACCGAT
     CAAGCAACCGAT   TACAGACTGTGG
2、第四列值相同
3、这两行的第8列值也相同

如上代码所示,我是对这两个文件用了两个for循环,满足条件的就写入文件,但是这个代码运行得十分缓慢,请问一下怎么修改可以提高运行速度啊?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-6-28 10:00:07
可以考虑用高级的数据结构,pandas的DataFrame之类的.
或者用map reduce等高级函数操作.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-7-6 14:20:56
杨Yuer参上 发表于 2018-6-28 10:00
可以考虑用高级的数据结构,pandas的DataFrame之类的.
或者用map reduce等高级函数操作.
不知道该怎么用,所能想到的就是循环。。。。。。。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群