前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何从网上超高速(30M/s)下载别人的转录组原始数据?

如何从网上超高速(30M/s)下载别人的转录组原始数据?

作者头像
Chris生命科学小站
发布2023-02-28 21:35:25
1.3K0
发布2023-02-28 21:35:25
举报

SRA 一串英文的缩写,是啥不重要。重要的是你可以用来刨根挖数据。老司机带你从下载开始~找种子,下电(shu)影(ju)。

SRA能用来干嘛

我们以往的挖数据都是吃别人嚼过的。

比如:你可能用人家文章中FPKM的值然后去R分析之后得到了一堆图,结果发现好的基因都被人家做过了。这是下策,创新性极弱。再比如,你可能得到的是BAM文件,或者得到的是Count文件,这个算是半成品,当然可以去再加工,做几个好看的图。这是中下策,创新性弱。什么是上策呢?当然是自己收样本自己去测序分析,这个绝对原创。

我们可以去搞原料自给做饭吃。

那么在上述几种情况中,你还可以找到一个中上策,有可能达到与原创几乎一样的效果,就是去下载原始数据。一些期刊比如CNS是要求将测序原始数据上传到NCBI以共享,这些原始数据再加工的潜力会很大。 比如,文章只做了编码基因,你可以研究非编码基因 再比如,测序深度很深,你可以研究反式剪切,有可能挖出某个明星的环状RNA。 再再比如,你可以做从头分析,找到新的基因。以上都能作为文章的亮点或者创新,虽然你没功夫收样本,虽然你没花钱做实验,但同样你可以做到接近原创。这才是挖数据的最高境界,用别人的钱养自己。

下面就是重要的干货

SRA获取方式

你上面说的那么重要,怎么获取呢?这个问题问得好SRA数据你可以理解为测序fastq文件的压缩测序fastq文件很大,至少也有5G左右,双端测序,加起来一个样本也要8G左右,SRA就是压缩这么大的文件至2~3G。下载速度越快获得数据越完整,心情越舒畅。("别废话,赶紧说下载!"~"好的“)下载的东西哪里去找呢 ?https://www.ncbi.nlm.nih.gov/sra?term=SRP074349 你在GEO上面找到了你想要的高通量数据,按照下面的步骤你会得到你要的文件名称是啥。

下载方式一:FTP下载https://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR347/SRR3474721/

用任意浏览器,推荐火狐,打开这个网址,如图点击就自动下载了。 如果网速足够快,比如平时下个小电影速度是50~100Mbp/s,用这种方法就可以了,但记住得一个一个下。上面的那种下载速度在国内不是普遍的,我们一般都是1~5Mbp/s这个级别的下载方式二:神器~Aspera Connect 浏览器插件这个神器是IBM公司出品的一个免费的,不知道什么原理的神器,他能让下载速度保持在50~100Mbp/s。也就是说打破了带宽和地域的限制。这里要说明一下,以前你可以下载Aspera connect软件。它能嵌入到浏览器中,当浏览带有高速下载内容网址直接点击就好了。例如NCBI的:https://www.ncbi.nlm.nih.gov/projects/faspftp/1000genomes/以前SRA还是能够从这里下载的,现在不知道为什么这个口被关了,可能是跟政府没钱了有关系吧。下载方式三:神器Too~Aspera Connect对的还是这个东西,只不过是在linux的系统中采用命令行的方法去下载。所以, 首先你得有个带有Linux的电脑或者服务器电脑么,去搞个虚拟机,装个linux服务器么,去搞个云服务器,怎么搞看下面的教程10元转录组分析:这次真的是干货了~灰常干 然后,安装与配置环境下载:wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz解压:tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz安装bash aspera-connect-3.7.4.147727-linux-64.sh查看是否有.aspera文件夹去根目录ls -a 如果看到.aspera文件夹,代表安装成功永久添加环境变量echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrcsource ~/.bashrc查看帮助文档,验证是否可以调用ascp --help这样你的电脑或者服务器就可以开启神器了下面是开启命令ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR347/SRR3474721/SRR3474721.sra ~/downloads上面命令中SRR后面的数字就是下载文件的代号,大家应该能看懂规律吧。按照??中的Access list就能够一个一个的下载到你要的文件。你可以看一下速度,

根据那个ascp帮助文档,你可以去调整速度,也不能太快了,四不四。

本文参与?腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-05-14,如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自 Chris生命科学小站 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • SRA能用来干嘛
  • 下面就是重要的干货
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com