Introduction
rRNA 在RNA-seq,CLIP 等测序当中都会存在一部分,如何处理这些 rRNA reads 来消除影响,是重要的一步。整体思路是在处理测序数据的一开始就首先对 rRNA 进行比对,unmapping reads 再进行后续处理。
最近接触到了两种处理方法,记录一下:
strategy 1 STAR + genomic DNA sequence
方法来自 Cell, 2023, Glucose dissociates DDX21 dimers to regulate
mRNA splicing and tissue differentiation 的 CLIP-seq 部分。
summary:
在对测序数据完成 adapter, UMI 预处理后,用STAR 做如下比对
- 把 reads 首先比对到 ribosomal DNA,
- human rDNA sequence, Genbank accession U13369.1
- EndToEnd alignment
- 增加了一步repeat sequence alignment
- repetitive elements created from Dfam
- EndToEnd alignment, disallow splicing
- 剩余的 reads 比对到参考基因组上
- allow splicing and clipping
strategy 2 bowtie2 + rRNA sequence
具体内容看帖子,下载 RNA sequence 可以按照如下方法:
- 从 NCBI 中下载 RNA 序列
- 从 NCBI genome search 想要的物种,进入 RefSeq file index system,

- 然后下载 RNA_from_genomic files

- 从 NCBI genome search 想要的物种,进入 RefSeq file index system,
无论是哪种方法,找到完整和正确的 ribosomal sequence 都是至关重要的,第一种方法,在写贴的当前,貌似在 nucleotide search到的物种有限:
所以,第二种方法使用更广泛一些。
2025.12.23 方法更新
最近做ribominus,拿到的RNA-Seq数据比对率比较低,可能原因:
rRNA去除不干净(上面已经谈到了)支原体污染
对于第二个原因,如何能批量获取Mesomycoplasma的基因组就是问题的关键。
以下回答,结合Gemini获得:
使用 NCBI Datasets 工具(获取最全库),可以下载RefSeq中整个“支原体目(Mycoplasmatales)”的代表性基因组。以下是我实际运行的代码:
# conda 安装 ncbi-datasets-cli
conda create -n ncbi_datasets
conda activate ncbi_datasets
conda install -c conda-forge ncbi-datasets-cli
# 下载mycoplasmatales
datasets download genome taxon mycoplasmatales --reference --assembly-source Refseq --filename mycoplasma_genomes.zip
unzip mycoplasma_genomes.zip
find ncbi_dataset/ -name '*.fna' | xargs cat > Mesomycoplasma.fna
# 创建bowtie2 index
bowtie2-build Mesomycoplasma.fna Mesomycoplasma_bowtie2_index/
后续对测序数据用bowtie2进行比对,就可以了。