提取TCGA中mRNA或lncRNA表达矩阵
2024-04-10 07:30:33  阅读数 2361

前面给大家讲解过新版的TCGA数据库中,RNAseq的表达矩阵中加入了一列gene type。

TCGA数据库悄咪咪更新了—RNAseq没有HTSeq-Counts了

我们在合并表达矩阵的时候,可以把这一列加入到矩阵里面

合并新版TCGA表达矩阵R代码叕更新了—RNA类型也给你提出来

零代码合并新版TCGA数据库RNAseq表达谱数据

然后根据type这一列就可以来判断对应的基因是什么类型了,下图列出了所有的RNA类型


如果想要mRNA的表达矩阵,就挑protein_coding对应的行就可以了,同理如果对lncRNA感兴趣,挑选lncRNA对应的行就可以了。这个其实通过Excel的筛选功能就能够实现了。既然我们是用R代码来合成得到的矩阵,那么就顺手用R来挑选感兴趣的表达矩阵。

#读取完整的表达矩阵
RNAcounts=read.table(file="combined_RNAseq_counts.txt",header=T,sep="\t",check.names = F)

#挑选protein_coding,也就是mRNA
PCcounts=RNAcounts[RNAcounts$type=="protein_coding",]
dim(PCcounts)
#[1] 19944    46
#保存mRNA的表达矩阵
write.table(file="PCcounts.txt",PCcounts,quote=F,sep="\t")

#挑选lncRNA
LNCcounts=RNAcounts[RNAcounts$type=="lncRNA",]
dim(LNCcounts)
#[1] 16889    46
#保存lncRNA的表达矩阵
write.table(file="LNCcounts.txt",LNCcounts,quote=F,sep="\t")

对于其他的几种表达矩阵的格式,TPM,FPKM, FPKM-UQ的处理方式是一样的,这里就不在赘述了。

提取TCGA中mRNA或lncRNA表达矩阵