Introduction

rRNA 在RNA-seq，CLIP 等测序当中都会存在一部分，如何处理这些 rRNA reads 来消除影响，是重要的一步。整体思路是在处理测序数据的一开始就首先对 rRNA 进行比对，unmapping reads 再进行后续处理。

最近接触到了两种处理方法，记录一下：

strategy 1 STAR + genomic DNA sequence

方法来自 Cell, 2023, Glucose dissociates DDX21 dimers to regulate
mRNA splicing and tissue differentiation 的 CLIP-seq 部分。

summary：
在对测序数据完成 adapter， UMI 预处理后，用STAR 做如下比对

把 reads 首先比对到 ribosomal DNA，
- human rDNA sequence, Genbank accession U13369.1
- EndToEnd alignment
增加了一步repeat sequence alignment
- repetitive elements created from Dfam
- EndToEnd alignment, disallow splicing
剩余的 reads 比对到参考基因组上
- allow splicing and clipping

strategy 2 bowtie2 + rRNA sequence

方法来自知乎:如何去除核糖体RNA（rRNA）序列

具体内容看帖子，下载 RNA sequence 可以按照如下方法：

从 NCBI 中下载 RNA 序列
- 从 NCBI genome search 想要的物种，进入 RefSeq file index system，
- 然后下载 RNA_from_genomic files

无论是哪种方法，找到完整和正确的 ribosomal sequence 都是至关重要的，第一种方法，在写贴的当前，貌似在 nucleotide search到的物种有限：

所以，第二种方法使用更广泛一些。

2025.12.23 方法更新

最近做ribominus，拿到的RNA-Seq数据比对率比较低，可能原因：

rRNA去除不干净（上面已经谈到了）
支原体污染

对于第二个原因，如何能批量获取Mesomycoplasma的基因组就是问题的关键。

以下回答，结合Gemini获得：

使用 NCBI Datasets 工具（获取最全库），可以下载RefSeq中整个“支原体目（Mycoplasmatales）”的代表性基因组。以下是我实际运行的代码：

# conda 安装 ncbi-datasets-cli
conda create -n ncbi_datasets
conda activate ncbi_datasets
conda install -c conda-forge ncbi-datasets-cli

# 下载mycoplasmatales
datasets download genome taxon mycoplasmatales --reference --assembly-source Refseq --filename mycoplasma_genomes.zip

unzip mycoplasma_genomes.zip
find ncbi_dataset/ -name '*.fna' | xargs cat > Mesomycoplasma.fna

# 创建bowtie2 index
bowtie2-build Mesomycoplasma.fna Mesomycoplasma_bowtie2_index/