广泛的染色质-RNA结合蛋白互作使得基于RNA的转录调控成为可能


Pervasive Chromatin-RNA Binding Protein Interactions Enable RNA-Based Regulation of Transcription

原文链接:

挑选RBP做大规模的 ChIP-seq

在 HepG2 和 K562 细胞中做 RBP 的 ChIP-seq。有两种细胞才能谈common 和 cell-type dependent。
RBP挑选原则:

  • 部分或完全定位在核内
  • 抗体要特异性和有效性足够强
  • RBP-binding domain 和 功能类型 要有代表性和多样性
  • 以前有报道RBP是会影响转录的(转录复合物的组分或者有研究表明该RBP确实对转录有影响)
  • 在两种细胞中都有表达

除了 RBP 的 ChIP-seq,还需要其他层面的支持,包括:

  • HepG2 和 K562 的 RNA-seq,用于表达量定量
  • pol II 的 ChIP-seq 数据,用于关联RBP与转录
    POLR2G(an RNAPII subunit with the documented ability to bind RNA)
    POLR2A(the largest subunit of RNAPII)
    二者的 pattern(figS1A) 高度一致,表达了ChIP-seq结果的高可信度。

ChIP-seq details

文章的发展,主要就是基于ChIP-seq的结果的,所以先把ChIP-seq的内容先简单描述一下。

ChIP-seq library 构建方法

因为 RBP 和染色质的结合没有 TF 那么强,所以,该文章对 ChIP-seq 的方法做了调整。

ChIP-seq data处理

identification and annotation of RBP ChIP-seq peaks (peak的鉴定和注释)

RBP ChIP-seq 数据处理使用的是 ENCODE 数据库中统一的转录因子 ChIP-seq 分析流程
挑选的可用的数据集,有如下标准:

  • 每个 replicate(每个RBP做了两个重复) 包含 10 million以上的 usable(or alignable but not PCR duplicates) reads
  • replicate 要通过 IDR(IDR,irreproducible discovery rate, 的用法,有时间,我还记得的话,再整理一下) 的 cutoff(set as 0.02) 过滤
  • 找到的 peaks 数量要超过 200 个(太少的话,可能 ChIP 的效果不太好)

其他层面的注释信息来自不同的数据库, 我本人并不关注这些,所以就把原文粘贴过来:
DNaseI HS data, histone modification profiles generated by ENCODE/Broad Institute, and combined chromatin state segmentation by ChromHMM and Segway are available on the UCSC genome browser.

figure1C 的全基因组组蛋白修饰和 ChIP-seq peak 概览图看起来很高大上,有兴趣可以了解一下: Circos visualization of the date(Krzywinski et al., 2009).

keypoint:sum of RBP ChIP-seq signals in each 2Mb interval in the human genome,不过sum是否仅仅是简单的加和,我不是很确定。

promoter 分类

  • 在表观修饰层面:
    两种表观修饰marker:H3K4me3(与转录激活相关),H3K27me3(与转录抑制相关,谈论 H3K27ac激活转录)
    根据这两种表观修饰的 ChIP-seq peaks 与 TSS 上下游 2kb 区域 是否有至少 500bp overlap 的情况,将 promoter 分为了四种类型:

    • bivalent(两种 marker 都有)
    • K4-only
    • K27-only
    • none
  • 在CpG岛这个层面:
    利用UCSC基因组浏览器中CpG岛的信息,根据 TSS 上下游 2kb 区域内有无 CpG岛,将 promoter 分为了 CpG promoter 和 non-CpG promoter

  • 在基因功能层面:
    根据基因组注释信息,按照 promoter 所属基因的 biotype,将 promoter 分成了三类:protein-coding genes(蛋白质编码基因),small RMA genes,all other non-coding RNA genes

RBP-染色质互作的细胞类型保守性

为了说明保守性,也就是要使用在被研究的两种细胞类型中“处于同样地位”的基因中的情况。
这里对于“处于同样地位”的定义是:根据两种细胞的 RNA-seq 数据对基因表达量定量,会分别得到每个基因在这两种细胞中的表达量排序,同一个基因在两种细胞中排序百分比相差不超过5%,即认为是“处于同样地位”:
abs( Order(HepG2) - Order(K562) ) <=0.05

这些“处于同样地位”的基因,根据表达量,被进一步划分:

  • non-expressed genes(RPKM = 0 in both cell lines)
  • expressed genes(按照数量,被三等分成,低表达、中表达和高表达基因)

ChIP-seq peaks 结果解读

找到ChIP-seq peaks后,就是将其与其他信息整合起来,进行解读了。


文章作者: 梁绍波
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 梁绍波 !
评论
  目录