RNAseq-踩坑02 -- Aligment 比对率低

如题所述

推荐答案 2022-07-08

RNAseq的第二步就是Aligment, 一般都是有参考基因组的比对，据同事介绍，比对这一步，比对率再80%以上才算是正常的，很多样本的比对结果都能达到90%以上。

然而，然而，然而，对于第一次跑流程的我，第一个项目，居然不到50% ！！！

QC 统计，均在90%以上，说明测序数据质量尚可

遇到问题：Aligment 统计，比对率在 28%-47%之间。

解决思路：找到比对不上的序列，进行blast 比对，查看比对上的是什么。

如今序列比对已成为各种生物学分析中不可缺少的重要环节，通过将未知的基因片段与已知具体信息的基因或基因组进行比较，并分析其中的相同部分与差异部分，就可以得到该基因片段SNP位点、所属物种以及可能具有的生物学功能等重要信息。sam与bam是两种最常用的比对结果输出文件格式，（如转录组STAR分析软件输出的比对结果为.bam文件等）
bam文件格式是sam文件的二进制格式，占用的存储空间更小，更利于节省存储资源，而且bam文件的计算处理也更快，但二进制无法直接查看，这就需要借助于工具查看了。

基本命令
samtools view [options] <输入bam文件>

bam/sam文件每一列的内容

fastq文件格式
FASTQ文件中每个序列通常有四行：

fasta文件格式
在生物信息学中，FASTA格式是一种基于文本的、用于表示核苷酸序列或氨基酸序列的格式。
FASTA文件以序列表示和序列作为一个基本单元，各行记录信息如下：

使用方法
安装路径\bin\blastn -query 比对序列文件名.fasta -db database -out 比对结果文件名 -evalue le-5 -outfmt 0(或其他比对结果参数)

为了测试，这里只提取前1000条fastq数据，

检查一下行数

下面就是进行ID匹配了。

pLVX-ShRNA-1_val_1_tmp中仍旧是fastq的标准4行的格式，我们需要提取其中的seqID，然后检查该seqID是否在上面的Paired_ID_list.txt当中，我们需要提取不在的部分fastq序列进行分析。

方法2：借助于 python Bio::SeqIO

但是，我们需要的是unpaired seqID对应的fastq序列。

seqIO可以一步到位，筛选seqID, 并保存seqID对应的fastq文件

查看fastq文件
less -S pLVX-ShRNA-1_val_2_tmp_unpaired2
pLVX-ShRNA-1_val_2_tmp有 1000条数据，居然有496条没匹配上。

blastn进行核酸序列比对

发现都是支原体污染，问了一下养过细胞的小伙伴，说是细胞被支原体污染是件很常见的事情啊啊啊啊啊啊啊啊啊啊啊啊啊

温馨提示：答案为网友推荐，仅供参考

当前网址：http://33.wendadaohang.com/zd/RB05c0RB5R5cdWBc4hW.html

相似回答

RNA-seq 数据量化答：RNA-seq数据量化是指在RNA-seq实验中将原始测序数据（通常是读段，即reads）转化为表达量的过程，旨在确定每个基因或转录本在给定样本中的表达水平，这个过程包含几个关键步骤：1.读段（Reads）质量控制：在进行量化之前，首先需要对原始测序读段进行质量控制。这通常涉及去除低质量的读段、去除接头序列以及...

3、RNAseq(3)--对RNAseq测序数据的质量控制(fastqc)答：一般测序在初步生成fastq文件时候，adapter会被去除，但是有的会没有去除或者遗漏部分adapter。所以这一步是检测RNA-seq测序过程中adapter是否去除。如果没有去除会严重影响后续的比对工作。没有去除的adapter在质量处理环节会被处理掉。参考链接：https://zhuanlan.zhihu.com/p/61847802 ...

RNASeq分析系列--使用STAR软件进行比对答：STAR 软件由于其敏感的比对特性，因此在转录组 SNP Calling 过程中使用较多。对于 Ubuntu 系统：对于Red Hat, CentOS, Fedora 系统：一般使用 2-pass 模式进行比对，获得更准确的剪切信息。步骤如下：生成的 SJ.out.tab 文件为 Tab 分隔符，每一列意义如下：第二步完成后的 bam 文件仍然无法直接用...

大家正在搜

ATAC seq sense 踩的坑多了踩过的坑不踩坑不我从不踩坑踩坑避免踩坑该踩的坑一个都不会少