RNAseq-踩坑02 -- Aligment 比对率低

如题所述

RNAseq的第二步就是Aligment, 一般都是有参考基因组的比对,据同事介绍,比对这一步,比对率再80%以上才算是正常的,很多样本的比对结果都能达到90%以上。

然而,然而,然而,对于第一次跑流程的我,第一个项目,居然不到50% !!!

QC 统计, 均在90%以上,说明测序数据质量尚可

遇到问题:Aligment 统计,比对率 在 28%-47%之间。

解决思路:找到比对不上的序列,进行blast 比对,查看比对上的是什么。

如今序列比对已成为各种生物学分析中不可缺少的重要环节,通过将未知的基因片段与已知具体信息的基因或基因组进行比较,并分析其中的相同部分与差异部分,就可以得到该基因片段SNP位点、所属物种以及可能具有的生物学功能等重要信息。sam与bam是两种最常用的比对结果输出文件格式,(如转录组STAR分析软件输出的比对结果为.bam文件等)
bam文件格式是sam文件的二进制格式,占用的存储空间更小,更利于节省存储资源,而且bam文件的计算处理也更快,但二进制无法直接查看,这就需要借助于工具查看了。

基本命令
samtools view [options] <输入bam文件>

bam/sam文件 每一列的内容

fastq文件格式
FASTQ文件中每个序列通常有四行:

fasta文件格式
在生物信息学中,FASTA格式是一种基于文本的、用于表示核苷酸序列或氨基酸序列的格式。
FASTA文件以 序列表示 和 序列 作为一个基本单元,各行记录信息如下:

使用方法
安装路径\bin\blastn -query 比对序列文件名.fasta -db database -out 比对结果文件名 -evalue le-5 -outfmt 0(或其他比对结果参数)

为了测试,这里只提取前1000条fastq数据,

检查一下行数

下面就是进行ID匹配了。

pLVX-ShRNA-1_val_1_tmp中仍旧是fastq的标准4行的格式,我们需要提取其中的seqID,然后检查该seqID是否在上面的Paired_ID_list.txt当中,我们需要提取不在的部分fastq序列进行分析。

方法2:借助于 python Bio::SeqIO

但是,我们需要的是unpaired seqID对应的fastq序列。

seqIO可以一步到位,筛选seqID, 并保存seqID对应的fastq文件

查看fastq文件
less -S pLVX-ShRNA-1_val_2_tmp_unpaired2
pLVX-ShRNA-1_val_2_tmp有 1000条数据,居然有496条没匹配上。

blastn进行核酸序列比对

发现都是支原体污染,问了一下养过细胞的小伙伴,说是细胞被支原体污染是件很常见的事情啊啊啊啊啊啊啊啊啊啊啊啊啊

温馨提示:答案为网友推荐,仅供参考