Pervasive Chromatin-RNA Binding Protein Interactions Enable RNA-Based Regulation of Transcription
原文链接:
挑选RBP做大规模的 ChIP-seq
在 HepG2 和 K562 细胞中做 RBP 的 ChIP-seq。有两种细胞才能谈common 和 cell-type dependent。
RBP挑选原则:
- 部分或完全定位在核内
- 抗体要特异性和有效性足够强
- RBP-binding domain 和 功能类型 要有代表性和多样性
- 以前有报道RBP是会影响转录的(转录复合物的组分或者有研究表明该RBP确实对转录有影响)
- 在两种细胞中都有表达
除了 RBP 的 ChIP-seq,还需要其他层面的支持,包括:
- HepG2 和 K562 的 RNA-seq,用于表达量定量
- pol II 的 ChIP-seq 数据,用于关联RBP与转录
POLR2G(an RNAPII subunit with the documented ability to bind RNA)
POLR2A(the largest subunit of RNAPII)
二者的 pattern(figS1A) 高度一致,表达了ChIP-seq结果的高可信度。
ChIP-seq details
文章的发展,主要就是基于ChIP-seq的结果的,所以先把ChIP-seq的内容先简单描述一下。
ChIP-seq library 构建方法
因为 RBP 和染色质的结合没有 TF 那么强,所以,该文章对 ChIP-seq 的方法做了调整。
ChIP-seq data处理
identification and annotation of RBP ChIP-seq peaks (peak的鉴定和注释)
RBP ChIP-seq 数据处理使用的是 ENCODE 数据库中统一的转录因子 ChIP-seq 分析流程
挑选的可用的数据集,有如下标准:
- 每个 replicate(每个RBP做了两个重复) 包含 10 million以上的 usable(or alignable but not PCR duplicates) reads
- replicate 要通过
IDR
(IDR,irreproducible discovery rate, 的用法,有时间,我还记得的话,再整理一下) 的 cutoff(set as 0.02) 过滤 - 找到的 peaks 数量要超过 200 个(太少的话,可能 ChIP 的效果不太好)
其他层面的注释信息来自不同的数据库, 我本人并不关注这些,所以就把原文粘贴过来:
DNaseI HS data, histone modification profiles generated by ENCODE/Broad Institute, and combined chromatin state segmentation by ChromHMM and Segway are available on the UCSC genome browser.
figure1C 的全基因组组蛋白修饰和 ChIP-seq peak 概览图看起来很高大上,有兴趣可以了解一下: Circos visualization of the date(Krzywinski et al., 2009).
keypoint:sum of RBP ChIP-seq signals in each 2Mb interval in the human genome,不过sum是否仅仅是简单的加和,我不是很确定。
promoter 分类
在表观修饰层面:
两种表观修饰marker:H3K4me3(与转录激活相关),H3K27me3(与转录抑制相关,谈论 H3K27ac激活转录)
根据这两种表观修饰的 ChIP-seq peaks 与 TSS 上下游 2kb 区域 是否有至少 500bp overlap 的情况,将 promoter 分为了四种类型:- bivalent(两种 marker 都有)
- K4-only
- K27-only
- none
在CpG岛这个层面:
利用UCSC基因组浏览器中CpG岛的信息,根据 TSS 上下游 2kb 区域内有无 CpG岛,将 promoter 分为了 CpG promoter 和 non-CpG promoter在基因功能层面:
根据基因组注释信息,按照 promoter 所属基因的 biotype,将 promoter 分成了三类:protein-coding genes(蛋白质编码基因),small RMA genes,all other non-coding RNA genes
RBP-染色质互作的细胞类型保守性
为了说明保守性,也就是要使用在被研究的两种细胞类型中“处于同样地位”的基因中的情况。
这里对于“处于同样地位”的定义是:根据两种细胞的 RNA-seq 数据对基因表达量定量,会分别得到每个基因在这两种细胞中的表达量排序,同一个基因在两种细胞中排序百分比相差不超过5%,即认为是“处于同样地位”:
abs( Order(HepG2) - Order(K562) ) <=0.05
这些“处于同样地位”的基因,根据表达量,被进一步划分:
- non-expressed genes(RPKM = 0 in both cell lines)
- expressed genes(按照数量,被三等分成,低表达、中表达和高表达基因)
ChIP-seq peaks 结果解读
找到ChIP-seq peaks后,就是将其与其他信息整合起来,进行解读了。