TheChromatinAccessibilityLanscapeofPrimaryHumanCancers

人类原发性癌症的染色质可接近性景观

(Science,IF=41.)

(视频讲者:张健教授团队张月明)

注:本文与前天的ChIP-seq和ATAC-seq基础知识搭配学习更佳哦~

文章背景

虽然编码蛋白质的2%的人类基因组已经被广泛研究,但关于非编码基因组和癌症中的基因调控仍有许多需要了解。

TCGA和许多其他机构的研究已经证明了表观基因组对癌症发生和发展的重要性。

①通过全外显子组测序对癌症特异性编码突变进行分析,已经确定了编码染色质重塑酶和DNA甲基化修饰物的基因中显著的驱动突变。

②TCGA已经对10,多个样本进行了靶向的DNA甲基化分析,最近对39个TCGA肿瘤样本进行了全基因组亚硫酸氢盐测序(WGBS)。这一数据丰富的资源已经确定了癌症特异的差异甲基化区域,为癌症的表观遗传异质性提供了前所未有的视角。

③另外的工作通过使用组蛋白修饰和增强子RNA测序来鉴定与癌症相关的增强子变异位点。

虽然在培养的癌细胞中已经阐明了染色质调节的许多原理,但原发肿瘤的表观基因组学研究尤其有价值,它捕捉到了异型肿瘤和基质细胞相互作用的真实生态系统。

而本文着眼的角度是染色质的可接近性。在适当的细胞类型和细胞状态下,基因的开启和关闭是由转录因子(TF)蛋白作用于非编码基因组中的DNA调控元件而实现的。而只有松散的染色质即开放染色质才可以被TF结合。染色质转座酶可接近性测序分析(ATAC-seq)通过使用可以在可接近的染色质位点插入测序接头的转座酶来量化DNA可接近性。

主要内容

1.识别泛肿瘤染色质可接近性峰

2.DNA调控元件识别SNP与肿瘤易感性的新关联

3.使用ATAC-seq数据对样本进行分群

4.远端调控元件与DNA低甲基化

5.利用ATAC-seq数据重新定义肿瘤亚型

6.足迹分析确定肿瘤中的TF活性

7.DNA调控元件与基因的关联

8.肿瘤免疫应答相关DNA调控元件的鉴定

9.肿瘤相关非编码突变的鉴定

文章的主要内容

01

识别泛肿瘤染色质可接近性峰

文章使用的是来自TCGA的名患者的个肿瘤样本,一共23种原发性人类癌症。在个肿瘤样本中,作者从个样本中通过技术重复(来自同一肿瘤样本的不同细胞核),产生了个全基因组染色质可接近性图谱。

文中用到的23种原发性人类癌症

首先,需要对数据进行质控:

(1)确保ATAC-seq数据和患者是对应的:这里用到了TCGA的单核苷酸多态性(SNP)阵列的数据。下图中显示的是ATAC-seq衍生的基因型与SNP阵列衍生的基因型之间的基因型相关性。颜色代表样本与预期患者的相关性,此处几乎都为红色,说明相关性是相当高的。与下一个最接近的匹配的患者的相关性是通过与TCGA的SNP阵列的所有其他11,个患者相关联而得到的。纵轴中与其预期患者匹配程度与所有其他患者的样本相关性的差值均大于0(红线)。也就是ATAC-seq数据与预期的患者的相关性最高。

确保ATAC-seq数据和患者是对应的

(2)ATAC-seq数据是否符合预期的特征

在一个代表性的样本(TCGA-A2-A0T4)的转录起始点附近富集的ATAC-seq可接近性。很明显通过了背景信号富集的最低阈值。

转录起始点附近富集的ATAC-seq可接近性

大多数样本表现出具有明显核小体周期性的特征片段大小分布。

特征性片段大小分布

在验证得到的ATAC-seq的数据是可靠的之后,通过这组个高质量的肿瘤样本,一共确定了,个泛肿瘤染色质可接近性峰。每种癌症类型平均具有,个峰(范围为56,到,)。

识别到的泛肿瘤染色质可接近性峰

将得到的泛癌和癌症类型特异性峰集定义的区域与Roadmap表观基因组项目脱氧核糖核酸酶I超敏位点测序(DNase-seq)研究定义的结果进行了比较,发现癌症类型特异性峰集与各种Roadmap组织类型峰集之间的平均重叠有34.4%重叠。总体而言,在这项研究中确定的泛癌峰中,大约65%与之前观察到的调控元件重叠,这突显了我们的结果与已发表的数据集的一致性,以及在这项研究中还观察到大量额外的可能的调控元件(35%)。

02

DNA调控元件识别SNP与肿瘤易感性的新关联

全基因组关联研究(GWAS)已经确定了许多癌症易感性的遗传风险基因座。这些SNPs中的许多存在于已知DNA调控元件的非编码基因组中。

在MYC基因座中,我们确定了染色质可接近性的已知位点,包括已经有功能验证的GWAS癌症易感性SNPs周围的峰(rs和rs)。

SNPrs与结肠腺癌和前列腺癌(PRAD)的易感性增加相关,这与这些癌症类型中存在染色质局部可接近性一致。然而,SNPrs以前没有与乳腺癌或任何鳞状肿瘤类型相关,而在我们的ATAC-seq数据中,这些肿瘤类型在这个调控元件上也有很强的染色质可接近性。

同样,SNPrs与KIRC相关,并且在我们的数据中,在肾癌类型以及乳腺癌和甲状腺癌的样本中显示出很强的可接近性,这表明这些SNP在以前未被认识的癌症背景下具有潜在的作用。

03

使用ATAC-seq数据对样本进行分群

文中首先对远端元件和启动子元件执行了Pearson相关性层次聚类。作者发现,远端元件显示出与癌症类型相关的更高的特异性,而启动子元件的可接近性对癌症类型的特异性较低,并显示出与全局基因表达类似的相关模式,如RNA-seq测量的那样。

如下图分别是所有基因的ATAC-seq远端元件(左)、ATAC-seq启动子(中)和RNA-seq的Pearson相关性热图(右)。热图的行和列都是患者。图中显示的就是患者之间的远端调控元件ATAC-seq结果的相关性。

接下来,作者使用用所有癌症类型的,个变异最大的峰的前50个进行无监督t-SNE分析,确定了18个不同的亚群,可以观察到这些亚群都具有很明显的癌症类型特异性(每个点代表来自一个样本,颜色表示癌症类型)。

作者发现这个基于ATAC-seq的聚类与已发表的使用TCGAmRNA-seq,microRNA(miRNA)-seq,DNA甲基化,反相蛋白质阵列(RPPA)和DNA拷贝数数据得到的多组学分类方案具有很高的一致性。如下图所示是ATAC-seq的分类和多组学分类方案的样本重叠的比例,比例越大,颜色越深。横坐标和纵坐标上的癌症类型是按顺序一一对应的,可以看到重叠比例大的主要分布在对角线上。

作者还将这种聚类方案与其他基于TCGA的聚类方案进行比较,观察到我们的ATAC-seq聚类方案与mRNA和癌症类型的一致性最强。这与染色质可接近性与转录输出的联系以及ATAC-seq具有很强的肿瘤类型特异性的观察结果是一致的。下面显示的热图表示的是方案之间的差异性,数字越小,颜色越深,表示差异越小。

04

远端调控元件与DNA低甲基化

为了识别对应于每个亚群唯一的染色质可接近性模式。作者使用了一种叫做“distalbinarization”的方法,确定了仅在单个亚群或一小组亚群中可接近的远端调控元件。在,个泛肿瘤远端元件中,,个被发现在单个亚群或一组亚群(最多四个亚群)中是高度可接近的。如下图所示,列是,个识别到的远端调控元件,行是18个亚群的样本。

这些亚群特异性的峰还富集了转录因子(TF)的基序,这些基序是已知对癌症和组织识别很重要的基因。这些转录因子包括前列腺癌中的雄激素受体(AR),非基底乳腺癌中的forkheadboxA1(FOXA1),以及黑色素瘤中的黑素生成相关转录因子(MITF)。

因为甲基化的DNA一般是不会被转录因子结合的,所以作者又探索了这些峰和甲基化的关系。下图表示的是与无峰的区域和有峰的区域的甲基化程度。可以看出DNA甲基化程度与调控元件上染色质可接近性呈负相关,缺乏染色质可接近性的区域更频繁地被甲基化。

特别是,亚群特异性的峰在相关的癌症类型中是低甲基化的,而他们在其他癌症类型中经常发生甲基化。

因此,结合前面的结果,在每种癌症类型中,少数TF在顺式调控中占据主导地位。这些TF通常是各自癌症或组织类型的已知关键驱动因素,TF的结合与癌症中相应DNA元件的DNA低甲基化有关,并可能是导致这些低甲基化的原因。

05

利用ATAC-seq数据重新定义肿瘤亚型

鉴于染色质可接近性的丰富性,作者又探索了ATAC-seq数据重新定义癌症分子亚型的能力。这项分析仅限于有足够患者的癌症类型:BRCA(N=74),PRAD(N=26)和KIRP(N=34)。以KIRP为例,使用Gapstatistic算法确定了三个不同的亚组,前两个亚组分离很明显。

这些亚组中最小的一个包含四名患者,他们在由远端调控元件的ATAC-seq可接近性上表现出非常明显的差异(红色标识)。

在红色标记的亚组对应的一组调控元件中,我们在MECOM基因附近发现了42个ATAC-seq峰。

MECOM基因的表达与这42个ATAC-seq峰的平均ATAC-seq可接近性高度相关[相关系数(r)=0.79]。

并且根据其DNA拷贝数阵列数据,这些MECOM峰的高染色质可接近性与拷贝数扩增无关。

接下来,作者还发现在所有在TCGA上可得到的KIRP数据中,MECOM过表达与总生存率较低有关,危险比为5.2(95%可信区间=2.4~11.0)。

这种相关性比淋巴结状况或患者年龄更重要,并且与癌症分期无关,表明这些发现具有潜在的预后作用。

重要的是,MECOM的过表达不能用之前发现的任何KIRP亚群来解释,包括具有CpG岛甲基化表型或延胡索酸水合酶编码基因突变的亚群,这些亚群也被证明是导致较差的总体存活率的原因。这些结果表明,KIRP中的MECOM激活确定了一个以前未被认识到的具有不良结果的患者亚组,说明了ATAC-seq数据具有定义肿瘤亚型的能力。

06

足迹分析确定肿瘤中的TF活性

TF与DNA的结合保护蛋白质-DNA结合位点不发生转座,而一个或多个核小体的移位或耗尽在紧邻的侧翼序列中创造了高度的DNA可接近性。这些现象统称为TF足迹。也就形成了左图中“中间低,两头高”的峰,而且左右两边离TF最近的峰最高。

为了表征TF足迹,作者采用了一种最近的方法,该方法量化了“侧翼可接近性”(一种衡量TF基序邻近DNA的可接近性的指标)和“足迹深度”(一种衡量保护基序位点免受转位影响的相对指标)。

主要涉及到两个指标,“侧翼可接近性”是用侧翼的峰高/背景值,足迹深度是用足迹的峰高/侧翼的峰高。所以可以得出,如果一个转录因子和DNA的结合越好,侧翼可接近性是增加的,而足迹深度是减少的。

使用文中的方法和使用另一种方法(ChromVAR)得到的TF列表,是高度重叠的,说明这个方法结果的可靠性。

图中根据转录因子的RNA表达与其基序的足迹深度和侧翼可及性的相关性对TF进行分类。颜色表示深度(红色)、侧翼(蓝色)或两者(紫色)是否与TF的表达显著相关,灰色则代表不相关(FDR在阈值0.1以下)。

上图中展示了4种TF结合模式:

(1)和DNA稳定结合的TF将具有与其基因表达显著相关的足迹深度(低)和侧翼可接近性(高)[紫点],例如TP63或NKX2-1。

(2)其表达足以导致基序位点周围染色质开放,但不能保护基序位点不受转座影响的因子,预计只会在基因表达和侧翼可接近性(高)之间显示出显著的相关性(蓝点)。这种相关模式可能是由诸如快速TF关闭或低结合率之类的影响引起的。

(3)少数TF的表达只与足迹深度显著相关(红点)。

(4)潜在的负调控因子,其表达与侧翼可接近性的获得和足迹深度的降低呈负相关,例如CUX1。这是与DNA结合并导致相邻序列压缩的抑制性TF。

07

DNA调控元件与基因的关联

作者实施了一项基于所有样本(N=,具有匹配的RNA-seq和ATAC-seq数据)的ATAC-seq可接近性和基因表达相关性的分析。由于启动子捕获Hi-C数据表明,75%的基于三维(3D)启动子的相互作用发生在kbp的距离内,因此我们将此分析的长度范围限制在kbp,以避免虚假预测。

作者根据以下三条来过滤可能的联系:

(i)其相关性由DNA拷贝数扩增强烈驱动的联系(“CNA”);

(ii)具有广泛和高度局部相关性的区域(“diffuse”)

(iii)涉及与任何基因启动子重叠的ATAC-Seq峰的联系。

作者确定了远端ATAC-seq峰和基因之间的81,个关联。总体而言,预测个蛋白质编码基因都至少有一个峰-基因关联,占人类基因组中所有蛋白质编码基因的近一半,包括COSMIC中的癌症相关基因的48%

这项分析发现,只有24%的预测的联系出现在ATAC-seq峰和最近的基因之间,这表明大多数预测的相互作用跳过了一个或多个基因,仅从初级序列不可能预测,但是染色质可接近性分析做到了。

多个邻近的峰被预测与同一个基因有联系,这表明这些峰-基因的联系的亚群可能作为单个调节单位或增强子的一部分发挥作用。

为了验证预测的峰-基因的联系的调控相互作用,作者进行了CRISPR干扰(CRISPRi)实验,该实验使用了一个催化死亡的Cas9(dCas9)与一个Kruppel相关盒(KRAB)结构域的融合蛋白,该结构域可以介导局部异染色质的形成和非编码DNA调控元件的功能沉默。每个实验都使用三个向导RNA(gRNAs)来靶向一个峰。用定量聚合酶链反应(qPCR)检测这种干扰对关联的基因表达的影响。

CRISPR干扰(CRISPRi)实验原理图

与BCL相关的一个预测的远端调控元件2(kbp)的CRISPRi导致luminal-like乳腺癌MCF7细胞系中BCL2基因的表达显著降低,但在基底样MDA-MB-细胞系中没有,这与BCL2作为luminal特异性生存因子的作用是一致的。类似地,与Src癌基因(-49kbp)相关的远端调控元件的CRISPRi导致了MCF7细胞和MDA-MB-细胞中基因表达的显著降低。

08

肿瘤免疫应答相关DNA调控元件的鉴定

接下来,作者将ATAC的数据和热门的免疫浸润联系了起来。利用已发表的来自人类造血系统的ATAC-seq数据集和这里的从人类树突状细胞亚群产生的数据,确定了预计与免疫浸润高度相关的峰-基因关联。

鉴定的过程中使用到了两个指标,分别基于以下两个标准:①与我们的癌症队列相比,免疫细胞中更容易接近的峰可能来自与肿瘤组织相关的免疫细胞。②溶细胞活性评分:基于两个CD8T细胞特异性标志物:颗粒酶A和穿孔素1的对数平均基因表达。与溶细胞活性高度相关的关联的峰也可能与免疫浸润有关。

下图就是确定的预计与免疫浸润高度相关的峰-基因关联,包括与抗原提呈和T细胞反应相关的基因的关联。

作者同样进行了验证:这些预测与免疫相关的峰-基因关联的可接近性与免疫浸润计算的预测指标高度相关,与肿瘤纯度呈负相关。

一个值得注意的相关基因是程序性死亡配体1(PDL1),是癌症免疫治疗的重要靶点。PDL1与四个可能的远端调控元件相连,这些元件在不同的癌症类型中显示出不同的染色质可接近性。

这四个可能的PDL1调控元件中的每一个的CRISPRi都显著降低,但并没有消除被测试的乳腺癌细胞系(MCF7和MDA-MB-细胞)中PDL1mRNA的表达。这些结果支持PDL1的表达受多个远端调控元件的联合活性影响的模型。

09

肿瘤相关非编码突变的鉴定

ATAC-seq结合全基因组测序(WGS)还可用于识别驱动癌症启动和进展的调控突变。如果一个非编码体细胞突变导致TF结合位点的产生,这个突变可能导致顺式染色体中染色质可接近性的增加,并且与WGS相比,ATAC-seq中观察到的突变等位基因的频率也随之增加。

这项研究中的名患者中,有35名患者具有高深度WGS数据。这35名患者有,个体细胞突变,其中32,个落入注释的ATAC-seq峰。在这些突变中,有三个单独出现的端粒酶逆转录酶(TERT)基因启动子突变,已表明它们可以产生E26转换特异性(ETS)基序位点。

正如预期的那样,突变的TERT启动子可接近性的增加,TERT基因表达也增加(蓝点)。然而,TERT启动子突变并不是增加TERT基因表达的唯一途径,因为在没有可识别的TERT启动子突变的样本中也可以观察到高TERT表达。

与已有的报道一致,对这个TERT启动子突变位点的差异基序分析识别到与ETS基序结合的TF:ELF1或ELF2。

与来自TCGA的公开可获得的外显子组测序数据(其中TERT捕获探针没有延伸到启动子区域)相比,ATAC-seq提供了显著更高的TERT启动子位点的测序覆盖率,使得对TERT启动子突变的识别更加可靠。因为全外显子组测序是不包括启动子的,所以ATAC-seq的数据与其互为补充,而且可以获得更高的测序深度。

总结

?本文利用从TCGA收集的原发人类肿瘤的个组织样本中产生了ATAC-seq数据。

?这些ATAC-seq数据被用来对样本进行分群,识别出亚群特异性的远端调控元件,和DNA的甲基化相关联。

?此外,本文还定义了癌症的TF调节因子,并将这些调节因子的足迹与基因表达相关联,以确定可能的TF调节因子的类别。

?本文将ATAC-seq峰与可能的靶基因联系起来,并通过CRISPRi实验进行了验证(免疫浸润)。

?最后,将WGS和ATAC-seq结合起来,识别影响染色质可接近性的非编码突变。

点击↓链接可回顾往期文章

多组学文献精读专辑

编辑:张月明

校审:张健罗鹏



欢迎转载,转载请注明原文网址:http://www.pkcmw.com/zzywh/8170.html
------分隔线----------------------------