相关动态
根据表格内容批量在RCSB上搜索并下载蛋白文件
2024-11-10 17:01

记于23-10-22

根据表格内容批量在RCSB上搜索并下载蛋白文件

舍友的导师给了个任务,给了一个csv文件,里面记录的是各种基因名,希望能够将csv内的所有基因名在RCSB上能不能搜出相应的蛋白并下载下来作序列比对。

于是打开一看

一共有540行数据,并且有些名称是错误的,在RCSB上不一定能搜到,如果要一个个复制下来去搜肯定是非常不现实的。所以这需要借助爬虫的力量。

所幸RCSB上有关于搜索的api与python的包提供助力:

而在github上也有相应的实例:

该代码块返回的是一个搜索结果的列表,而搜索结果是一系列PDB文件的名称。

因此,根据这个实例,我们可以编写这样的一个脚本,以上代码块是返回搜索结果的一个列表,而往往我们只需要提取搜索的第一个结果,也就是列表的第一位元素。根据搜索下来的元素,也就是pdb文件的名称,再去通过爬虫批量下载下来。

安装rcsb搜索包:

根据该思路写的一个脚本:

跑出来会生成fasta与pdb文件夹,里面存放这爬下来的fasta与pdb文件。

    以上就是本篇文章【根据表格内容批量在RCSB上搜索并下载蛋白文件】的全部内容了,欢迎阅览 ! 文章地址:http://fswenzheng.xhstdz.com/quote/60606.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://fswenzheng.xhstdz.com/mobile/ , 查看更多   
发表评论
0评