全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
2685 5
2021-03-12
目前我根据已EntrezGeneID,通过R包biomaRt获取了如下图所示的hgnc_symbol等信息,请问有木有大神知道如何根据EntrezGeneID、hgnc_symbol等信息来批量下载基因序列数据(格式为3utr)?biomaRt包中getSequence()和R包中示例获取5utr的代码都有尝试,但报参数Invalid,代码和运行结果如下图所示。请大神指教!十分感谢! p.s. 最终希望获得的数据类型为基因3utr序列数据
gene_info.png 代码

附件列表
code.jpg

原图尺寸 200.27 KB

code.jpg

code.jpg

原图尺寸 200.27 KB

code.jpg

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2021-3-12 22:36:15
BiocManager::install("BSgenome.Hsapiens.UCSC.hg19")
只试过安装人类基因组序列数据包
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-3-14 20:50:37
llb_321 发表于 2021-3-12 22:36
BiocManager::install("BSgenome.Hsapiens.UCSC.hg19")
只试过安装人类基因组序列数据包
感谢大侠帮助!大神一句话,菜鸟少十年。再请问下,如何从该包中获取人类基因组序列数据呢?看了下官方文档,没有思路。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-3-14 22:09:50
那个包里有个Hsapiens,比如,用Hsapiens$chr1可以得到第一条染色体的数据。但是,这是UCSC的hg19版本,相当于Grch37,版本略低。
最新的应该是Grch38,下面是ensembl的Grch38版本人类基因组数据的链接页面
http://ftp.ensembl.org/pub/release-103/fasta/homo_sapiens/dna/
其中,Homo_sapiens.GRCh38.dna.toplevel.fa.gz 这个文件,大概1个多G压缩包,应该是最完整的数据,其他是各染色体的单独压缩包。
不同来源的、不同版本的基因组数据,读取的方法会有差别,具体你多查查网上的资料。一般地,在R中,用的比较多的是Biostrings包,可以对DNA、RNA、AA等序列进行操作,比如基本的转录、翻译、匹配、比对等。

你最开始用的biomaRt,有的时候不太稳定,受网络传输速率、访问超时等因素影响较大,而且现在有些mart的网站架构可能发生了变化,以前能过的代码现在可能就不好用了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-3-14 22:11:47
ensembl的序列文件应该是fasta格式的,不是3utr
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-3-15 11:06:24
llb_321 发表于 2021-3-14 22:09
那个包里有个Hsapiens,比如,用Hsapiens$chr1可以得到第一条染色体的数据。但是,这是UCSC的hg19版本,相 ...
好的,十分感谢大神!!让我对BSgenome包和人类基因组数据有了更深的了解和认识。多谢大神的帮助和指导!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群