MySQL数据库之教你如何用R包TCGA-Assembler下载TCGA数据
小标 2019-03-06 来源 : 阅读 1960 评论 0

摘要:本文主要向大家介绍了MySQL数据库之教你如何用R包TCGA-Assembler下载TCGA数据 ,通过具体的内容向大家展现,希望对大家学习MySQL数据库有所帮助。

本文主要向大家介绍了MySQL数据库之教你如何用R包TCGA-Assembler下载TCGA数据 ,通过具体的内容向大家展现,希望对大家学习MySQL数据库有所帮助。

MySQL数据库之教你如何用R包TCGA-Assembler下载TCGA数据

今天师兄发给我一个TCGA网址,让我想办法把胰腺癌的所有RNA-Seq数据下载下来,可是界面是这样的:


这么多样本有各自的测序数据,甲基化数据,突变数据和临床数据等,不可能一个个去点开下载,那么批量下载就可以借助R的一个包TCGA-Assembler。电脑是win10系统,所以以下教程是基于windows系统的。


安装教程:1.建立新文件夹,例如:E:\TCGA_assemble;然后下载TCGA-Assembler安装包(链接:https://pan.baidu.com/s/1WMxP-0ucJxGR7xwg743b6w 密码:33s2)并解压,将解压之后的文件夹里的Module_A.R和Module_B.R复制到刚才建立的文件夹内,同时将curl.exe这个文件,复制到电脑C盘Windows文件夹的System32这个文件夹中。


2.在TCGA_assemble文件夹内建立一个用来存放下载数据的新文件夹(注意一定要在TCGA_assemble文件夹内),比如我下载的数据是pancreatic adenocarcinoma,所以简写命名为PAAD。现在你的TCGA_assemble文件夹内应该是这样的:


3.接下来打开R,并把路径设置到TCGA_assemble文件夹的位置,然后导入刚才的两个模块,在导入模块的过程中可能会出现缺包的情乱,那当然是缺什么包装什么包,这个应该大家都会啦。因为是新电脑,所以要装的包比较多,代码如下:


#设置路径到刚才的文件夹


setwd("E:/TCGA_assemble")


#载入所需的包


source("https://bioconductor.org/biocLite.R")


biocLite("httr")


biocLite("RCurl")


biocLite("stringr")


biocLite("HGNChelper")


biocLite("rjson")


library(httr)


library(RCurl)


library(stringr)


library(HGNChelper)


library(rjson)


#载入TCGA_assemble文件夹中的两个模块,其中A模块用来下载数据,B用来分析数据


source("Module_A.R")


source("Module_B.R")


以上步骤完成后没有报错就可以开始下载数据了。


4.大家在下载前可以先打开解压后的文件夹内的指南,里面有下载每种类型数据的代码和说明。我觉得还是十分清晰明了的。


4.1首先给大家讲一下RNA-Seq数据,也就是大师兄给我的任务。


给大家看一下指南里关于RNA-Seq数据下载的代码是这样的:


第一个参数是cancerType,也就是你要弄清楚下载数据是什么癌症以及它的缩写是什么,具体可以查看网址 https://tcga-data.nci.nih.gov/docs/publications/tcga/。


第二个参数是你需要知道下载的数据是在什么平台测得的,自己去TCGA的网站看下数据信息,如下是部分截图


第三个参数则是组织类型,如果有就写上去,如果没有就默认全选。


第四个参数则是下载的数据保存的位置。


第五个参数则是下载的数据文件名字。


第六个参数则是TCGA上自己挑选的样本ID,一般形式为TCGA-XX-XXXX。


那我的是185个pancreatic adenocarcinoma(PAAD)的RNA-Seq数据,代码如下:


setwd("E:/TCGA_assemble/PAAD")


Patient_ID<-read.table(file="TCGA_ID.txt",sep=" ",quote="\t",header=F)

vPatient_ID<-as.vector(as.array(Patient_ID[,1]))


#A.下载数据


#下载RNA-Seq数据


#' choose a cancer type


#' 可查看网址https://tcga-data.nci.nih.gov/docs/publications/tcga/


filename_READ_RNASeq <- DownloadRNASeqData(cancerType = "PAAD",


assayPlatform = "gene.normalized_RNAseq",


saveFolderName = "./gene_RNA",inputPatientIDs = vPatient_ID)


需要说明的是一般inputPatientIDs=c("TCGA-05-4245", "TCGA-44-2661", "TCGA-38-4630", "TCGA-93-8067", "TCGA-05-5420")是这样的,但是样本太多,所以就想到了比较笨的方法,在网页上将所有样本选中,点击右上角TSV将当前信息下载下来获取Case ID,也就是PatientID,再导入R进行转换。


运行后如果出现如下界面则表明数据下载完成:


最后下载的数据就是这样的(截图比较粗糙,捂脸):


4.2下载甲基化数据同上,代码如下:


#下载甲基化数据


filename_READ_Methylation450<- DownloadMethylationData(cancerType = "PAAD",


assayPlatform = "methylation_450", saveFolderName = "./MethylationData",


inputPatientIDs =vPatient_ID)


其他类型数据同样如此,该模块提供了下载这么多类型的数据方法,大家可以根据需要去修改代码,不过一定要搞清楚癌症类型,数据平台和PatientID,


还有模块B是用来分析数据,不过我还米有做,等之后做了就会来更新哒。新人一枚,如有错漏之处欢迎指正。


          

本文由职坐标整理并发布,希望对同学们学习MySQL有所帮助,更多内容请关注职坐标数据库MySQL数据库频道!

本文由 @小标 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程