由ChatGPT DeepResearch生成
2002 – Chromosome Conformation Capture (3C)
首次出现年份 & 代表论文: 2002年,Job Dekker 等人在《Science》发文提出3C技术(Dekker et al., Science, 2002年, DOI: 10.1126/science.1067799) 。这标志着三维基因组学实验技术的开端。
实验原理 & 流程: 3C通过构象固定-酶切-亲和连接-定量检测来捕获特定两段DNA间的物理近距离接触。首先,用甲醛将细胞内染色质空间构象固定,然后用限制性内切酶消化基因组DNA。使相互靠近的DNA片段在低浓度下发生空间自连(ligation),形成跨片段的连接产物。最后,通过PCR等定量手段检测预先设定的一对基因位点是否形成连接。3C每次只能检测单一预设的位点对交互频率,需要事先知道候选互作区域(即“一对一”检测)。
创新点 vs 前代局限: 3C是第一个直接解析基因组三维构象的分子生物学方法。相较传统染色质免疫共沉淀或FISH显微技术,3C能够定量测定任意选定的两个基因座在细胞群体中的平均互作频率(以连接产物丰度衡量)。其创新在于将空间染色质接触转换为可扩增的DNA片段。然而,3C只能针对预先假定的位点对进行检测,一次实验通常需设计特异引物对特定互作进行PCR验证。这意味着3C通量低、范围有限,无法无偏探索新互作。此外,3C产物背景噪声较高,需要严格对照(Dekker-2006)来区分真实信号。
典型应用场景 & 研究发现: 3C在基因调控环研究中发挥了奠基作用。例如,3C最早揭示了β-珠蛋白基因与其远程增强子之间形成环状结构以调控基因表达。随后研究者利用3C证实了基因组中**“激活构象中心”**(active chromatin hub)的存在,即多个调控元件和启动子经由蛋白质介导聚集在一起实现协同调控。3C还被用于验证染色质拓扑结构,如发现Rett综合征相关蛋白MeCP2缺失会导致特定基因座间的长程环状相互作用丧失。总体而言,3C为后续大量衍生技术奠定了基础。
分辨率、样本量、成本、分析难度: 3C的空间分辨主要由限制酶切位点间距决定,一般为几kb范围(即只能判断两位点是否相距几个限制片段以内)。单次实验通常需约105–106个细胞的染色质作为起始材料。由于检测的是特定引物扩增产物,测序成本低(甚至无需高通量测序,仅定量PCR或胶电即可),但通量很低(每次只能验证一个假设互作)。分析难度相对较小,只需比较PCR产物丰度或测序reads数目判断互作有无;然而对照设计和重复实验必不可少,以排除随机碰撞产生的假阳性。
2005 – ChIP-Loop (又称6C)
首次出现年份 & 代表论文: 2005年,Horike等人在《Nature Genetics》发表论文,将染色质免疫共沉淀与3C相结合,发展出ChIP-Loop技术(Horike et al., Nat Genet, 2005年, DOI: 10.1038/ng1491)。由于将3C扩展为同时选定特定蛋白介导的互作,被戏称为“6C”。
实验原理 & 流程: ChIP-Loop是在3C流程中引入了抗体富集步骤。实验先进行与3C相同的交联、酶切,然后使用针对目标结合蛋白(如转录因子或结构蛋白)的抗体对消化后的染色质片段进行免疫共沉淀,将被该蛋白同时结合并相互邻近的DNA片段富集出来。随后仍在珠子上进行连接反应(确保只有被同一蛋白复合体拉近的片段可以连接),再解交联提取DNA,以PCR检测潜在的蛋白介导环。。通俗而言,ChIP-Loop等于“ChIP + 3C”,只检测那些通过特定蛋白聚合在一起的DNA序列。
创新点 vs 前代局限: 相较原始3C,ChIP-Loop通过抗体选择性富集,大大降低了背景噪声并提高了特异性。因为3C的非特异连接产物背景高,而ChIP步骤能保证只有被目标蛋白桥接的DNA片段进入分析,从而过滤掉无关随机碰撞。ChIP-Loop的革新在于能回答“特定蛋白是否介导A位点-B位点相互作用”,填补了3C无法区分直接/间接互作的空白。不过,其局限也在于需要高质量特异抗体和较大量起始细胞;此外,如果目标蛋白同一时间在基因组上绑定众多位点,ChIP-Loop可能会并行富集出复杂的混合片段,解释起来较困难。与此相对,一些研究者提出需结合独立ChIP实验验证每个互作位点是否确实富集目标蛋白,否则ChIP-Loop产物可能并非真正的蛋白介导互作。
典型应用场景 & 研究发现: ChIP-Loop最早被用于研究基因组印记调控。Horike等人利用MeCP2蛋白的ChIP-Loop实验,发现Rett综合征患者中DLX5基因域原本由MeCP2介导形成的沉默环状结构消失,导致基因失控表达。之后,研究者应用ChIP-Loop确认了CTCF介导许多基因座形成跨越长距离的环状构象(Ren et al., 2012)。总的来说,ChIP-Loop适合验证**“已知蛋白-已知位点”**的三者关系(如验证某蛋白是否把增强子和启动子拉在一起)。它为后来更大规模的蛋白锚定互作测序技术(如ChIA-PET等)提供了概念蓝本。
分辨率、样本量、成本、分析难度: ChIP-Loop的空间分辨率与3C相同(限制酶片段级别,一般千bp量级),但由于要求蛋白质富集,一般需要数百万以上细胞才能获得足够DNA产物。相对3C而言,ChIP-Loop增加了抗体和免疫共沉淀试剂的成本,但不需要高通量测序,仅PCR验证,因此整体成本仍较低。分析上主要关注PCR产物有无,但需要双重对照:既要有未加抗体的3C对照以评估背景连接,也要有目标蛋白ChIP信号的独立验证。总之,ChIP-Loop分析难度中等,重点在于实验设计和对照解释,是一种定性发现手段。
2006 – Circular Chromosome Conformation Capture (4C)
首次出现年份 & 代表论文: 4C技术于2006年由两个团队独立报道:Zhao等人在《Nature》首次描述4C方法以研究H19印记控制区(Zhao et al., Nature, 2006年, DOI: 10.1038/nature04802),几乎同期,Simonis等在《Nature Genetics》应用4C探究活性/非活性染色质域的核内组织(Simonis et al., Nat Genet, 2006年, DOI: 10.1038/ng1896)。4C因此又被称为**“3C-on-chip”**或“一对全基因组”(one-versus-all)方法。
实验原理 & 流程: 4C在3C基础上增加了二次酶切和环化扩增步骤。首先按3C流程固定、酶切、稀释连接,获得混合环状染色质片段。但不同于3C的是,4C随后对连接产物再次用频繁切割的小位点限制酶消化,使每个连接片段断成更小片段并暴露新的粘性末端。然后让这些小片段自行环化(因每个环至少带有一段已知序列,即原始感兴趣位点序列)。设计引物贴在已知位点序列上,采用逆向PCR扩增,可以扩增出环上与该位点相连的未知片段序列。最后将PCR产物进行高通量测序或杂交到微阵列,从而同时识别基因组中所有与目标位点相互作用的片段。简言之,4C实现了从“一个位点”出发搜索“全基因组所有接触者”的扫描。
创新点 vs 前代局限: 相比只能验证特定位点对的3C,4C的重大创新在于开放查询范围:研究者无需预先假定互作对象,4C会告诉你某一个“诱饵”位点都联系了基因组中哪些区域。这使得发现新长程调控元件、染色质域等成为可能。例如,Zhao等利用4C发现了H19基因调控区域跨染色体的大规模互作网络(Zhao-2006)。然而,4C也有局限:由于采用PCR扩增,实验对起始模板DNA量敏感且扩增偏好可能导致假阴性;并且4C产物背景噪声仍较高,需要重复实验和统计学方法滤除随机碰撞信号。此外,4C仍是“单位点视角”,一次实验只能分析一个诱饵位点,若需全基因组每个位点彼此关系则不切实际。
典型应用场景 & 研究发现: 4C被广泛用于发现未知的顺式调控元件。例如,Simonis等利用4C绘制了活跃和非活跃染色质域的互作图谱,揭示活跃基因富集区域形成特定聚集,而失活染色质相对隔离。Van de Werken等的4C研究确定了tRNA基因在核内可作为绝缘子,通过广泛长程接触隔离染色质区域。4C还在癌症研究中用于识别基因组构象改变:Zeitz等通过4C比较正常与乳腺癌细胞,发现肿瘤基因组交互图谱显著重组。总体而言,4C适合针对某关键基因或调控元件,探索其在细胞核内的“接触邻居”有哪些,为解析远程调控网络提供了无偏筛选手段。
分辨率、样本量、成本、分析难度: 4C的互作分辨率由第二次限制酶决定,可达到百bp至kb级(使用4-cutter酶消化)。典型实验需约10^6个细胞起始,以保证足够复杂的连接产物。4C需对扩增产物进行高通量测序或芯片杂交,因此成本相对3C显著提高,但同时可获得全基因组范围数据。数据分析难度较高:要从上百万reads中统计显著互作富集区域,并区分生物学互作与噪声。本质上4C得到的是“一维排列”的互作序列列表,需要借助参考基因组定位和背景建模来调用真实互作。鉴于PCR扩增偏好,通常需要生物学重复和严谨统计算法(如固定阈值、模拟背景)确保互作可信。因此,4C在获得高通量数据的同时,引入了更复杂的生信处理需求。
2006 – Chromosome Conformation Capture Carbon Copy (5C)
首次出现年份 & 代表论文: 2006年,Dekker实验室的Josée Dostie等在《Genome Research》发表了5C方法(Dostie et al., Genome Res, 2006年, DOI: 10.1101/gr.5571506)。随后2007年又有详细协议发表(Dostie & Dekker, Nat Protoc 2007)。5C因其创新性大幅提高了3C通量,被昵称为“3C Carbon Copy”。
实验原理 & 流程: 5C的核心思路是对3C产生的连接产物进行扩增子文库测序。实验先按照3C得到一批连接产物,但5C不会逐一PCR,而是设计成互补探针池覆盖感兴趣区域。具体而言,将3C样品中的连接DNA解链,加入成百上千条5C寡核苷酸探针:每对探针分别对应相邻限制酶片段的末端序列,并带有通用引物序列。若两片段在3C步骤中连接相邻,则对应探针会在其上杂交相邻并由DNA连接酶连成一条连续引物。然后使用通用引物对所有连接的探针对进行PCR扩增,即可同时扩增出大量不同片段的连接产物。这些产物再通过高通量测序解码,可获得选定基因组区域内成百上千位点两两间的互作矩阵。因此5C实现了“多对多”并行检测,可视为在限定区域内建立“迷你版Hi-C”。
创新点 vs 前代局限: 5C的创新在于引入了寡探针池,实现了大规模并行的3C产物检测,而非像4C那样只扩增单一点的邻居。它特别适合研究中等规模基因组域(几十kb–几Mb),在分辨率和范围上介于4C与Hi-C之间。例如,一次5C实验即可绘制出β-珠蛋白座位约1Mb范围内所有限制酶位点的互作网络。相对于4C只得到一维接触列表,5C直接产出二维接触矩阵,可发现如TAD边界等结构。但是,5C需为目标区域设计大量探针,实验准备复杂且成本较高;并且探针设计避免重复序列,因而无法全基因组无偏应用。因此5C本质上仍是针对特定基因组子集的方法。其互作探针连接效率也受片段长度等影响,定量上可能有偏差,需要适当归一化和对照。
典型应用场景 & 研究发现: 5C常用于高分辨率绘制关键基因簇或调控区的3D结构图谱。Dostie等最早利用5C解析了人β-珠蛋白基因座的全貌,相比3C发现了更多隐蔽的内部互作。5C还用于构建X染色体失活中心区域内互作网络,揭示XIST启动子与多个辅助调控元件之间的复杂环状联系。许多ENCODE项目也使用5C数据来验证Hi-C发现的拓扑结构,如小鼠发育过程中特定基因调控环的动态变化。5C提供的高密度接触矩阵使研究者能够首次基于实验数据绘制出接近连续的染色质折叠路径图,这在单基因座三维结构研究中具有里程碑意义。
分辨率、样本量、成本、分析难度: 5C的分辨率由探针设计间隔决定,通常可达限制酶片段级(≈3–6 kb)。为确保探针杂交和连接,需要相当高的DNA浓度,通常使用数百万细胞起始。成本方面,5C探针合成与大规模测序使实验费用显著高于3C/4C(一套探针池可能上百美元,加上几千万reads测序)。数据分析主要涉及将测序reads映射回探针对并构建互作矩阵,需要考虑探针效率校正和背景扣除,比4C复杂但比全基因组Hi-C简单(区域限定缩小了问题规模)。总体来说,5C在特定基因组区域提供了高分辨、高通量的3D结构图,但其代价是局限于已选定的区域且实验准备繁琐,需要较成熟的实验和生信条件才能成功实施。
2009 – Hi-C(全基因组3C)
首次出现年份 & 代表论文: 2009年,Erez Lieberman-Aiden等在《Science》发表了划时代的Hi-C技术(Lieberman-Aiden et al., Science, 2009年, DOI: 10.1126/science.1181369)。这是首个真正无偏扫描全基因组染色质高级结构的方法。同年,Fullwood等也发表了ChIA-PET用于全基因组蛋白介导互作捕获,但Hi-C侧重于不依赖特定蛋白的全局3D结构测绘。
实验原理 & 流程: Hi-C综合了3C和高通量测序,将所有基因组片段间的接触“一网打尽”。其流程:细胞固定、全基因组酶切后,在末端加上生物素标记,再进行稀释下的环内连接。连接完成后,使用核酸酶或剪切将染色质随机打断,富集含生物素的连接片段,并构建测序文库。每条测序read对实际上对应一个染色质接触:两端序列来自原基因组中相距较远的两个片段。通过全基因组测序,Hi-C可收集成亿对这样的交互read。最终生成一个N×N的矩阵,填入的是第i位点与第j位点间的read数,即接触频率。Hi-C因此实现了从“一对一/一对多”到**“多对多”**(全基因组对全基因组)的飞跃。
创新点 vs 前代局限: Hi-C的创新在于无偏且全局:不挑选特定位点,捕获所有互作对。这使得发现全新结构成为可能,例如A/B区室、TADs等在Hi-C数据中以模式出现。2009年首篇Hi-C论文就首次揭示了人基因组被划分为两个大型“区室”(A活跃/B抑制)(Lieberman-Aiden-2009)。然而,初代Hi-C也有不足:受限于测序深度和6bp酶消化,分辨率只能到几十kb级别;随机碰撞背景依然存在,需要后期归一化处理(如迭代平衡算法)去除高易感区域伪信号。此外,Hi-C获取的是大量平均信号,无法区分细胞异质性和三方/多方互作等更复杂信息。数据规模巨大也给计算分析带来挑战。
典型应用场景 & 研究发现: Hi-C彻底改变了3D基因组研究版图。2009年首篇Hi-C研究提出了基因组折叠的分形球体模型,认为基因组以无缠结方式包装,并发现染色体在核内有明确的区域化。里程碑式发现包括:2009年的Hi-C数据揭示了A/B区室概念;2012年前后多个团队通过更高分辨率Hi-C(如TAD区分在40kb尺度上)发现了拓扑关联域(TAD)——这是一种跨物种保守的基因组“折纸”单元,首次由Hi-C实验明确提出 (Dixon et al., 2012;Nora et al., 2012)。随后的Hi-C研究相继绘制了人和模式生物多种细胞类型的3D基因组图谱,例如老鼠X染色体失活的结构特点、哺乳动物发育过程中染色质重编程轨迹等。总之,Hi-C成为标准方法,其数据已用于关联基因表达、DNA复制时序、进化保守性等多个方面,为理解基因调控和疾病机制提供了全新视角 (Dekker & Heard, 2015)。
分辨率、样本量、成本、分析难度: Hi-C的分辨率取决于测序深度和酶切频率。2009年初始研究用4碰限制酶和约千万级reads,分辨率≈100kb。如今深入测序和酶改进可将分辨率推至1kb甚至更细(如2014年Rao等的in situ Hi-C达到1kb,需要超过50亿对reads)。Hi-C对样本需求高,一般至少数百万细胞起始,以获取足够交互事件数。成本方面,Hi-C实验需大规模高通量测序,是极昂贵的(几十到上百Gb数据),加上实验试剂,单个基因组的高分辨率图谱成本曾高达数万美元。分析难度也前所未有:需存储、处理几十亿read对,应用归一化算法(如矩阵平衡或迭代算法)消除实验偏差。同时可视化和统计学检测(如寻找环状结构算法HICCUPS)也要求较高计算资源和专业知识。简言之,Hi-C将3D基因组研究推向“大数据”时代,对实验和分析团队的投入要求都显著提高。
2009 – Chromatin Interaction Analysis by Paired-End Tag (ChIA-PET)
首次出现年份 & 代表论文: 2009年,Melissa J. Fullwood等在《Nature》发表了ChIA-PET技术,用于全基因组范围内分析特定DNA结合蛋白介导的染色质互作(Fullwood et al., Nature, 2009年, DOI: 10.1038/nature08497)。这是将3C理念与高通量测序和ChIP富集相结合的开创性方法。
实验原理 & 流程: ChIA-PET可视作ChIP-Loop与Hi-C的融合。其流程首先对细胞核染色质进行交联并酶切,然后使用针对目标蛋白(如转录因子、组蛋白标记)的抗体进行免疫共沉淀,富集出被该蛋白结合的一切染色质片段。接下来对这些富集的片段加上特定接头(带有识别“邮编”的接头序列),使得每个DNA片段两端各接上一个含特定标识的标签序列。然后让这些带接头的片段在稀释条件下自行连接,如果两个片段由目标蛋白复合体相邻,则它们各自末端的接头也会连接形成一条“PET”(paired-end tag)。通过高通量测序获取PET的两端序列,即可定位出基因组中发生互作的两个位点。每个PET有独特的接头标识,可用于区分连接方式和过滤二聚体等杂质。ChIA-PET因此能在全基因组范围内捕获某蛋白关联的成千上万互作。
创新点 vs 前代局限: ChIA-PET的创新在于实现了全基因组蛋白依赖互作图谱绘制。与Hi-C相比,ChIA-PET通过抗体选择显著降低背景并聚焦于生物学相关互作(如转录因子连接的增强子-启动子环)。它相当于同时进行无数次ChIP-Loop,再用PET标签和高通量测序解析。2009年Fullwood等利用ChIA-PET构建了雌激素受体α在乳腺癌细胞中的结合互作网络,发现ERα将其靶基因启动子和增强子以复杂的三维网络连接起来。然而,ChIA-PET也有局限和技术挑战:首先需要大量细胞(通常≥10^7)和高质量ChIP;其次实验流程长且步骤多,容易产生噪声(如接头自连、ChIP非特异DNA);接头引入和PET连接效率也影响数据质量。此外ChIA-PET测序数据解析复杂,需要根据接头序列成对匹配reads并去除假PET。因此,虽然ChIA-PET极大扩展了ChIP+3C的能力,但其实验复杂度和噪声控制要求高。
典型应用场景 & 研究发现: ChIA-PET最适合研究特定蛋白(尤其是转录因子或染色质结构蛋白)介导的调控环路。Fullwood等的开创性研究利用ERα ChIA-PET,在人乳腺癌细胞中发现了几千个ERα绑定的增强子-基因间互作,解释了激素受体调控的基因网络。随后,Ruan团队等将ChIA-PET应用于CTCF和RNA聚合酶II,揭示CTCF介导的架构环和Pol II驱动的共转录基因簇互动。近年来,ChIA-PET数据还被用于绘制超级增强子间的三维联系,以及结合RNA分析探讨染色质环与基因表达的关系。总之,ChIA-PET在解码蛋白质特异性3D基因组方面成果丰硕,例如解析了染色质绝缘子CTCF如何定义TAD边界,以及Mediator复合物如何将多个增强子与启动子整合成转录工厂等 (Melo et al., 2013)。这些洞见都是Hi-C无法直接提供的。
分辨率、样本量、成本、分析难度: ChIA-PET的分辨率取决于测序深度和限制酶切片段长度,一般为几kb。但因其专注特定蛋白,实际常关注更长距离的调控环。样本量需求大(常用数千万细胞起始)以保证ChIP和PET连接都有足够产物。成本非常高:需要进行ChIP、大量文库构建和深度测序(几亿reads)。数据分析难度也较Hi-C更大:须基于接头序列成对比对reads,过滤接头假连,再构建网络。因为仅关注蛋白富集片段,数据量虽小于Hi-C,但背景过滤和多聚体识别更复杂。随着算法发展,现在有专门的ChIA-PET分析软件(如ChIA-PET Tool, MACPET等)帮助处理这些问题。总体而言,ChIA-PET对资源和技术要求极高,但能产出极具生物学意义的蛋白特异性三维互动图谱,被誉为探索功能性环路的“利器”之一 (Fullwood et al., 2009)。
2011/2012 – Tethered Chromosome Conformation Capture (TCC)
首次出现年份 & 代表论文: 2011年底,Reza Kalhor等在线发表了TCC方法,并于2012年正式刊登在《Nature Biotechnology》(Kalhor et al., Nat Biotechnol, 2012年, DOI: 10.1038/nbt.2057)。TCC被称为“系留构象捕获”,旨在改进Hi-C的信噪比。
实验原理 & 流程: TCC与Hi-C初始步骤类似:细胞固定后酶切基因组DNA。不同之处在于,TCC将含生物素标记的酶切片段固定在固相载体上再行连接。具体来说,通过生物素-链霉亲和素将染色质片段“系留”到磁珠或固体表面,调整片段密度使之低于溶液中自由碰撞水平。然后在固相上进行环状连接反应,因为片段已被物理分隔,减少了原位外无关片段随机连接的机会。连接完成后释放DNA片段并测序,得到全基因组互作数据。通过固相系留,TCC期望显著降低背景噪声,尤其提升检测染色体间低频互作的灵敏度。
创新点 vs 前代局限: TCC的核心创新是将关键酶反应从溶液转移到固相,以空间隔离染色质片段来抑制随机碰撞干扰。Kalhor等报道显示,相比标准Hi-C,TCC捕获到更多染色体间长距互作信号,信噪比提高。这使得先前难以观察的跨染色体连接变得清晰,从而解析如染色体领域间的全局拓扑关系。然而,TCC也引入了新的繁琐步骤,例如生物素化和固相捕获,需要优化条件防止片段过度拥挤或非特异吸附。TCC并未从根本上突破Hi-C在分辨率和测序深度上的需求,所以成本和数据量与Hi-C相近。此外,固相可能带来其他偏好,例如邻近在固相表面的片段易连接,需在分析时矫正。总体而言,TCC的应用没有Hi-C广泛,可能因为其相对复杂且改进有限。但TCC的思路为后续一些改良(如Hi-C耗散连接、微流控限域连接等)提供了借鉴。
典型应用场景 & 研究发现: Kalhor等利用TCC获取的人细胞系基因组结构中,发现了高度互作的跨染色体“中心”(hubs):一些富含活跃基因的位点跨越染色体频繁相互接触。这些互作在传统Hi-C中因频率低难以检出,但TCC数据清楚揭示了此类“跨染色质活性中心”,提示转录活性驱动的染色体间聚集现象。此外,作者开发了基于TCC数据的结构模型方法,将总体互作频率转化为可能的3D构象族。TCC证明了即使在基因组整体层面,也存在功能相关位点之间远距离的显著协同定位。这一发现对理解跨染色体共调控(如核仁形成、染色体领地间相互定位)具有重要意义。TCC后来较少被单独使用,但其高信噪的数据有助于验证Hi-C发现,比如为人染色体分区和定位提供独立支持。
分辨率、样本量、成本、分析难度: TCC的有效分辨率与Hi-C相同(受限于测序深度和酶切,通常kb级到几十kb)。所需样本量和成本基本等同于Hi-C(数百万细胞、深度测序),因为仍需足够数据支撑全基因组分析。分析难度方面,由于背景低了,解释弱信号更有信心,但仍需标准Hi-C的归一化处理。TCC比Hi-C多出的挑战在于固相步骤可能引入体系偏差,分析时需要验证是否有系统性假互作。整体而言,对于常规目标(如TAD、loops),TCC与Hi-C结果相近,但对于稀有互作(如跨染色体热点),TCC能可靠检测而Hi-C可能漏检。因此在特定研究需强调低频信号时,TCC这样的固相改进法具备优势,不过其推广受限于操作复杂性和收益比。
2014 – In Situ Hi-C(原位染色质构象捕获)
首次出现年份 & 代表论文: 2014年,Rao等在《Cell》发表了著名的in situ Hi-C研究(Rao et al., Cell, 2014年, DOI: 10.1016/j.cell.2014.11.021)。这是对Hi-C方案的重要改良,使得人类基因组图谱分辨率首次达到kb级别,并发现了丰富的新结构特征。
实验原理 & 流程: In situ Hi-C与经典Hi-C最大的区别是将DNA片段连接反应改在细胞核内原位完成,而非提取纯化后在溶液中连接。具体流程:细胞经甲醛固定后,不经核裂解直接在染色质上进行酶切消化,然后加ATP等使黏性末端在染色质固有环境中连接。由于核膜尚未打破,染色体结构得到更好保持,连接效率显著提升。同时,该方法在连接后才裂解细胞并纯化DNA,加生物素标记及打断建库。Rao等还使用了**四碱基切割酶(MboI)**提高片段密度,并极深度测序。这些改进使得每对位点累积更多reads,从而在小至1kb尺度上亦有足够信号检测环状互作。
创新点 vs 前代局限: 原位Hi-C通过减少实验步骤中的染色质损失和随机碰撞,大幅提高了数据产出和质量。其创新点包括:1) 原位连接保留了染色质空间构象完整性,连接概率更真实地反映核内接触频率;2) 应用四切酶而非六切酶,使得限制酶切位点密度约提升8倍,理論分辨率随之提高;3) 超高测序深度(如Rao等对GM12878细胞测序达50亿对reads),使解析千bp量级结构(如单个增强子与启动子环)成为可能。这些改进直接带来了拓扑关联结构的新发现,例如Rao等观测到遍布基因组的约1万个显著环状互作位点(loops),且这些loops两端多存在CTCF结合位点呈趋同方向——这是对染色质环形成机理的重要线索。此外,他们发现了TAD内部进一步精细分的亚结构以及六种不同表观状态的亚区室,拓展了A/B区室概念。局限性方面,in situ Hi-C依然需要海量数据支撑,其成本和计算压力巨大;同时超高分辨率下噪声占比上升,需要严格统计学筛选互作信号。
典型应用场景 & 研究发现: 2014年Rao等的工作本身就是范例:他们利用原位Hi-C在GM12878等9种细胞绘制了kb分辨率3D图谱,首次直接捕获了许多基因启动子-增强子间的物理相互作用,并证明这些环的存在与基因激活显著相关。此研究奠定了此后将拓扑结构与基因调控功能挂钩的基础。此后,原位Hi-C成为标准,高分辨率图谱被应用于解释非编码疾病风险位点通过3D构象作用于远端基因(如在GWAS研究中利用Hi-C图谱寻找致病基因)。另外,原位Hi-C也用于对比不同细胞类型的结构差异,发现细胞分化过程中环和TAD总体保守,但增强子-启动子互作显著重塑。可以说,in situ Hi-C的出现将3D基因组研究推进到功能解析阶段,使研究者能够更精确地将基因表达调控与三维结构挂钩 (Rao et al., 2014)。
分辨率、样本量、成本、分析难度: In situ Hi-C将分辨率推进至1 kb甚至更细(取决于测序深度)。Rao等为了达到1kb,在单个细胞系上耗费了数千万个细胞和数千Gb测序数据,可见需要极大量细胞和测序。一般实验室版本根据需求折中,如要看Loops至少需要百万读数量级reads。成本极高:测序费用随分辨率指数级攀升。分析难度也加大:在kb尺度上,染色质接触频率极低,必须通过统计显著性方法从噪音中捡出真实信号(例如Rao等使用了循环假模型和FDR控制来调用loop)。此外数据集庞大(矩阵维度高达数百万×数百万),对内存和存储要求空前。总之,in situ Hi-C代表了高投入、高产出的前沿技术,虽然不易常规应用于所有实验,但其产生的高分辨率图谱无可替代地推动了领域发展。
2015 – DNase Hi-C(酶切改进的Hi-C)
首次出现年份 & 代表论文: 2015年初,Ma等在《Nature Methods》发表了DNase Hi-C技术(Ma et al., Nat Methods, 2015年, DOI: 10.1038/nmeth.3205)。这是将随机DNA酶切引入Hi-C,以克服限制酶的偏好性并提高分辨率的方法。同时作者结合捕获富集,命名为“Targeted DNase Hi-C”。
实验原理 & 流程: DNase Hi-C的流程大体沿用Hi-C框架,但在消化步骤用DNase I取代限制性内切酶。DNase I是一种非特异性核酸内切酶,可在染色质上产生近乎随机分布的切口。这样避免了限制酶剪切位点不均问题,理想情况下可将染色质剪成接近核小体大小的碎片。后续步骤包括添加接头、体外环化连接等,使得任意相邻碎片都有机会连接。Ma等还在DNase Hi-C基础上加入序列捕获:设计探针富集特定目标(如近千个长非编码RNA启动子)区域的互作片段。这使他们能以很高的局部分辨率绘制目标启动子的互作地图。总之,DNase Hi-C通过酶切随机化来实现更高覆盖和避免限制性位点空白区的问题。
创新点 vs 前代局限: DNase Hi-C的主要创新是打破限制酶约束,因此理论上可达到更高、甚至碱基对级别的分辨率(受限于DNase切割频率和测序深度)。同时,由于大部分基因组序列都能被DNase I攻击,解决了传统Hi-C中“酶切死区”(如无位点的大片段无法分析)的问题。Ma等报道DNase Hi-C获取的库复杂度和有效互作比均明显优于限制酶Hi-C。他们将此与捕获技术结合,实现了对特定感兴趣位点的超高精度3D图谱。然而,DNase Hi-C也有挑战:DNase I切割存在序列偏好(富AT区域较易切开),需通过实验优化和后期校正。此外,随机切割会生成大量极小片段,连接和测序时可能提升假阳性率或增加对数据处理的要求。Ma等在文中已构建了一套质控流程(如插入序列标签以验证切割充分性),但一般实验室重复时需要注意DNase消化程度的重现性。整体而言,DNase Hi-C在概念上带来了更全面和均匀的基因组覆盖,但其高度随机性也对实验和分析提出更高要求。
典型应用场景 & 研究发现: Ma等利用DNase Hi-C的捕获版,针对近千个lincRNA基因启动子构建了高分辨率互作图谱。他们发现这些长非编码RNA启动子既与超增强子形成强互作(促进其活化),也与富含H3K27me3的远端静默元件接触(可能作为静默调控)。这些复杂机制通过传统Hi-C难以观察,因为需要极高分辨率。DNase Hi-C为此提供了洞察,呈现了细胞类型特异的增强子组团调控lncRNA的图景。此外,Deng等应用DNase Hi-C绘制了失活X染色体的精细构造,发现其分为两个巨型区室,并呈现独特的长程静默结构。这些发现均体现DNase Hi-C在精细尺度和特殊区域研究中的价值。目前DNase Hi-C及其变体虽未完全取代限制酶Hi-C,但常用于需要高覆盖均一性的项目,例如测定染色质可及性与构象的关联(因为DNase切割偏好反映可及性)或探索限制酶偏好导致的假信号等。
分辨率、样本量、成本、分析难度: DNase Hi-C的潜在分辨率可高于传统Hi-C,因为DNase I可在核小体间隔约200 bp处切割染色质。实际上,Ma等通过目标区域捕获,达到了单个限制酶片段之内的分辨(即亚kb级)。样本量要求仍与Hi-C相仿(至少数百万细胞),因为随机切割增加了片段数,需要更多数据覆盖。成本则更高:大量小片段的测序降低了每条read贡献的跨片段信息量,需更深测序;另外捕获探针成本可观。分析难度也提升:相比限制酶,DNase切割产生reads更均匀,但背景建模复杂,因为不同区域切割概率差异需校正。此外,常规Hi-C分析软件假设固定位点,需调整适应连续坐标数据。Ma等开发了特定策略处理这些问题,包括融入DNase可及性信息来加权数据。因此,DNase Hi-C数据分析稍具挑战性,但在目标区域内能提供无与伦比的细节,为探索复杂调控网络提供了重要工具。
2015 – Micro-C(单核小体级别Hi-C)
首次出现年份 & 代表论文: 2015年,Tsung-Han Hsieh等在《Cell》杂志报告了Micro-C技术,用于在单核小体分辨率图谱染色质构象(Hsieh et al., Cell, 2015年, DOI: 10.1016/j.cell.2015.05.048)。这是首次实现小于核小体尺度(<200 bp)的3D图谱,在酵母中验证了其威力。
实验原理 & 流程: Micro-C的关键改进是用微coccal核酸酶(MNase)替代限制酶消化染色质。MNase能沿着染色质链在核小体之间切断连接区DNA,将染色质切成寡核小体或单核小体片段。这样每个片段基本恰好对应一个核小体。之后,Micro-C流程与Hi-C类似:使用DNA连接酶将空间临近的单核小体片段连接,再高通量测序检测。由于核小体间距离约为几十bp至几百bp,Micro-C从一开始切割就提供了极高的物理分辨率。此外,Hsieh等在改良版Micro-C XL中还采用长链交联剂和去染色质蛋白处理,以确保核小体间也能高效连接。通过这些步骤,Micro-C能得到在核小体尺度下的全基因组互作矩阵。
创新点 vs 前代局限: Micro-C的创新在于将分辨率推进到前所未有的水平,使得诸如染色质纤维折叠方式这样的微观结构也能在接触矩阵中观察到。Hsieh等在酵母中发现,Micro-C数据不仅重现了Hi-C报道的域结构,还揭示了酵母染色质存在许多长约1–5基因的小型自缔合结构(类似TAD,但更微小)。这些结构在传统Hi-C数据中由于酵母基因组小和分辨率限制而不明显。Micro-C为首揭示了酵母也有类似TAD的结构,且边界往往位于高转录启动子处。局限性方面,Micro-C由于MNase消化条件苛刻,容易导致欠切或过切,需要精细优化;而且在高等基因组中应用时,单核小体片段数量巨大,数据需求甚至超过Hi-C。此外,Micro-C检测的是相邻核小体之间的接触,很多随机碰撞可能也发生在这些短距离,需要可靠方法区分生物学意义信号 vs. 随机近邻。Hsieh等通过对照无交联样品的方法验证了Micro-C数据可信度,但在复杂基因组应用时仍需注意背景扣除。
典型应用场景 & 研究发现: Micro-C首先用于模式生物酵母,成功绘制出核小体分辨率的染色质折叠图谱。这使他们发现:酵母基因组虽然缺乏明显TADs,但存在大量**“小型自聚集域”,通常覆盖1-5个基因。这些微结构的边界富集于转录活跃基因启动子,暗示转录和染色质重塑因子(如RSC复合体)在形成域方面作用明显。进一步通过Micro-C在突变株中的分析,作者验证了RSC复合体、凝结蛋白、组蛋白修饰等对这些微结构形成的贡献。Micro-C XL(2016年)则改进了人和酵母细胞的信噪比,捕获到了着丝粒簇集**等高级特征。近年来,Micro-C也应用于哺乳动物细胞,生成高分辨率3D图谱以解析诸如核小体定位、CTCF结合微环等现象。例如,2020年的两篇研究(Krietenstein等;Hsieh等)通过Micro-C描绘了小鼠基因组1kb内的精细环路和隔离现象,直接观察到了CTCF位点与相邻核小体的定位关系等。这些发现都是传统Hi-C难以企及的。
分辨率、样本量、成本、分析难度: Micro-C的分辨率达单个核小体(~200 bp)级别,这几乎是染色质折叠的基本单位尺度。如此高分辨率需要海量数据支撑:在酵母中每百万reads就可覆盖相当比例基因组,但在人类基因组,若要达到核小体分辨,估计需数十亿对reads,样本量和测序成本随之暴增。Hsieh等在酵母的研究用到了上亿细胞等量级的起始材料(酵母易培养),在哺乳动物中则需要在细胞数与扩增策略上权衡。成本上,Micro-C一次实验不比Hi-C复杂很多,但为了挖掘高分辨本质,需要显著更多测序(成本远超常规Hi-C)。分析难度亦高:传统Hi-C分析在几十kb–Mb范围寻找结构,而Micro-C要处理几百bp格点的大矩阵,噪声相对占比更高,必须借助平滑、降噪算法和高阶统计才能辨识趋势。例如,为寻找微结构,需计算相邻核小体间相互作用的富集度曲线而非简单肉眼看矩阵。整体来说,Micro-C将3D基因组学推进到了染色质纤维尺度,为的是回答许多此前未解的问题,但也伴随着更高的资源与技术要求。
2015 – Capture-C & 派生方法 (Capture-HiC, Capture-C放大版)
首次出现年份 & 代表论文: 2014–2015年间,Peter Fraser和Jim Hughes团队发展了一系列3C捕获技术。先是2014年Hughes等在《Nature Genetics》推出了Capture-C,用寡核苷酸探针富集3C产物(Hughes et al., Nat Genet, 2014年, DOI: 10.1038/ng.2871)。随后2015年,Schoenfelder等发表了Promoter-Capture Hi-C将探针扩展至全基因组所有启动子(Mifsud et al., Nat Genet, 2015年, DOI: 10.1038/ng.3286)。这些方法均以“捕获”著称,包括后续的增强版如Tiled-C、Tri-C、Low-C等。
实验原理 & 流程: Capture-C的原理是在3C/Hi-C文库制备后,增加一个探针捕获杂交步骤。以最基本的Capture-C为例:研究者针对特定感兴趣区域(如某基因的多个限制片段)设计序列捕获探针。将探针与测序文库杂交并富集,可显著提高这些区域连接产物在文库中的比例。然后对富集后的文库进行高通量测序,相当于在感兴趣区域内执行一次“放大版”的4C/5C,获取其与全基因组的互作。但不同于4C需PCR,Capture-C利用捕获,可同时针对许多位点并行进行。Promoter-Capture Hi-C则设计了针对几乎所有基因启动子的探针池(人类约2万个启动子)。将它应用于Hi-C文库,捕获所有启动子的互作reads,从而在全基因组范围描绘启动子-增强子连接图谱。类似地,Tiled-C使用一系列平铺探针捕获连续基因组片段(实现区域性Hi-C提高分辨率),Tri-C捕获连有两个以上片段的多路互作等等。这些均基于“先构建复杂3C文库,再用探针拉出目标互作”。
创新点 vs 前代局限: Capture-C系列的创新在于显著提升信号针对性和检测通量。与5C需合成引物并PCR不同,捕获探针可以商业化制备且覆盖范围大,例如Promoter-Capture一次就筛遍全基因组启动子。这使得如Mifsud等能够在单实验中定位上百万条启动子-远端元件互作。这比常规Hi-C高效许多(后者大部分reads浪费在构象信息少的片段上),也比4C/5C灵活(探针池可灵活增减目标)。然而,捕获也有局限:首先它只能看到被捕获端的互作,对未设计探针的区域互作会被忽略,因此仍属“半全局”方法。其次捕获效率各异,定量分析时需校正不同探针的pull-down效率。再次,大探针池捕获如Promoter CHi-C会引入探针间非特异杂交背景,需严格洗脱和生信过滤(例如过滤掉启动子-启动子之间由于探针错配形成的假信号)。总的来说,捕获系列方法极大地拓展了3C技术在基因组学中的应用范围,但也需要针对探针设计和偏倚进行充分控制。
典型应用场景 & 研究发现: Promoter-Capture Hi-C是捕获系列最有影响力的方法之一。2015年Mifsud等利用其在两种人血细胞中发现了超过160万个启动子-远端片段互作。他们惊人地发现,活跃基因的启动子倾向于互作增强子,而不活跃基因的启动子则常与带抑制修饰的元件相连,提示存在长距离静默元件。此外,他们证明许多疾病相关SNP位于这些远端互作元件上,暗示非编码突变可通过3D路径影响基因表达。Capture-C也常用于验证特定位点的环状结构,例如Hughes等最初通过Capture-C精细描绘了α珠蛋白基因座的复杂调控环,该座位之前已知有多增强子协同调控,Capture-C证实所有这些增强子在3D上聚合于基因启动子形成增强子簇 (Davies et al., 2016)。Tiled-C则在一些超大调控区域(如HOX基因簇)中应用,获得高于常规Hi-C数倍的局部分辨率,发现内部环路精细结构。Tri-C作为新颖的发展,可捕获三者以上的多元件互作,目前已观测到如免疫基因座内**“增强子–增强子–启动子”三元环存在 (Schofield et al., 2016)。总体上,捕获类技术极大促进了将3D基因组学应用于功能基因组**,尤其是对疾病变异注释、细胞类型特异调控网络等方向贡献突出。
分辨率、样本量、成本、分析难度: Capture-C/CHi-C的分辨率本质上取决于底层Hi-C文库质量,与Hi-C相同甚至略低(因为捕获探针通常针对限制酶片段,不会提高碎片密度)。但通过探针富集,实际可用信号增多,使在同等测序下可以看清更低频互作,相当于提高了有效分辨率。样本量一般需要与构建高质量Hi-C文库相当(百万细胞级),有时由于探针步骤损失DNA,需要更多起始量。成本方面,捕获探针合成是额外开销(一个项目探针池从几百到上千条不等),但由于极大减少无用测序,整体成本效益常优于全基因组Hi-C。例如Promoter CHi-C测序几十亿reads即可得到丰富启动子互作信息,若用Hi-C可能需要更高读数才能捞出那些互作。分析难度相对较高:既要面临Hi-C矩阵归一化问题,又要处理捕获带来的偏倚,需要专门的分析流程(如CHiCAGO算法)来判断显著互作。CHiCAGO通过建立随机背景模型,有效地从捕获数据中挑出可信互作,被广泛用于Promoter CHi-C数据分析。总之,捕获技术在投入一定分析成本的前提下,实现了以更低测序量获取目标区域高分辨3D信息的优势,是目前3D基因组研究和应用(如非编码疾病位点功能预测)的重要工具。
2016 – HiChIP / PLAC-seq(蛋白锚定的简化3C)
首次出现年份 & 代表论文: 2016年,Maxwell R. Mumbach等在《Nature Methods》发表HiChIP技术(Mumbach et al., Nat Methods, 2016年, DOI: 10.1038/nmeth.3999)。几乎同时,Ren实验室的Fang等公布了类似理念的PLAC-seq(Fang et al., Cell Res, 2016年, DOI: 10.1038/cr.2016.137)。二者原理相近,均结合ChIP和Hi-C思想,流程更简化,所需细胞量远低于ChIA-PET,因此常并称。
实验原理 & 流程: HiChIP可理解为“ChIP-seq + 3C”二合一。其实验流程:先进行与Hi-C类似的细胞固定和染色质酶切/连接,但使用较低的交联稀释量以保留更多连接产物。连接后不立即提取DNA,而是直接对染色质进行目标蛋白的免疫共沉淀(ChIP)。这样,只有结合目标蛋白的染色质环被富集下来。接着对富集下来的DNA采用Tn5转座酶一步构建测序文库(这步是HiChIP相对于ChIA-PET显著简化的地方)。最终测序得到reads对,与ChIA-PET类似,每对代表一个目标蛋白介导的互作。PLAC-seq(Proximity Ligation-Assisted ChIP-seq)流程几乎相同,只是使用in situ Hi-C的方式进行交联和连接,然后ChIP、文库构建。总之,HiChIP/PLAC减少了ChIA-PET中繁琐的接头连接和PET过滤步骤,用转座酶建库显著提高了有效数据产出。
创新点 vs 前代局限: HiChIP/PLAC的最大优势是大幅降低起始细胞量和实验复杂度。Mumbach等报告HiChIP相较ChIA-PET将有用reads比例提高了十倍以上,而所需细胞仅几十万即可(ChIA-PET常需上千万)。这使许多ChIA-PET无法触及的稀有细胞或样品成为可能研究对象。转座酶一步文库构建也替代了接头连接,减少了假阳性来源。另外,HiChIP调用互作时背景更清洁,因为未富集的噪声已在ChIP步骤被洗掉。局限性方面,由于转座酶对片段长度有偏好,HiChIP可能对距离很远的互作灵敏度略低于ChIA-PET(后者接头PCR不受片长限制);再者,HiChIP捕获到的是pairwise互作,不能像ChIA-PET那样一下发现多片段共同作用的“复合互作”(例如三个片段互联这种在ChIA-PET中可见为多标签PET,但HiChIP的文库标准化处理后看不出多者同复合)。此外,HiChIP仍需要依赖抗体pull-down的效率和特异性,其优化程度决定数据质量。整体看,HiChIP/PLAC做出了务实的折衷,大幅提高了可操作性,因此自发明后迅速被领域采用,用于各种组蛋白修饰和结构蛋白介导环的解析。
典型应用场景 & 研究发现: HiChIP最常用于组蛋白标记的环路研究。如原论文中,作者对H3K27ac和CTCF分别进行HiChIP,在10万细胞水平绘制出了高可信的增强子-启动子和CTCF环路图谱。他们发现HiChIP捕获的H3K27ac环与基因表达高度相关,可用来预测超级增强子的靶基因。同样,PLAC-seq首次以很小细胞量(50k)实现了全基因组Pol II和CTCF环路检测。HiChIP也被广泛应用于免疫细胞等难以获取大量样本的体系,来研究刺激条件下增强子-基因互作动态。2018年Chi等利用HiChIP研究干细胞分化中Brd4介导的环路,发现Brd4抑制会导致关键增强子与启动子脱离,从而基因下调,这是以前ChIA-PET难以做的时间序列实验。总之,HiChIP为许多受限样本和时间过程的3D基因组研究打开了大门。例如,在肿瘤研究中对少量患者细胞施行HiChIP以定位致癌驱动的异常环路;在神经科学中对有限数量神经元执行HiChIP以解析记忆形成相关的染色质结构变化等。可以预见,HiChIP/PLAC由于其实用性,将长期作为ChIA-PET的有效替代方案。
分辨率、样本量、成本、分析难度: HiChIP/PLAC的分辨率与底层3C文库一致(一般限制酶切,几十kb为主,但深测序下可达几kb)。与ChIA-PET相比,HiChIP所需细胞量显著减少(通常**<106**甚至104级别),这也是其卖点之一。成本较ChIA-PET降低,因为跳过了很多分子操作步骤且有效reads比例高,意味着达成相同信噪的测序量更少。Mumbach等指出,在相同reads下HiChIP可检测更多loops,或者反过来说,达到相同行覆盖,HiChIP所需测序量仅为ChIA-PET的一小部分。不过仍需一定测序深度(通常每个样本几十到上亿reads),成本不及Capture-C之类低。分析方面,HiChIP数据格式与Hi-C相似(成对reads位点),只不过仅有目标蛋白相关的子集,因此一般采用类似Hi-C的管线,然后额外应用环路检测算法(如MAPS)特别针对HiChIP优化。背景估计上,由于ChIP已富集信号,随机背景更低,但仍需模型以划定显著互作。总体上,HiChIP数据量小于Hi-C而显著高于ChIP-seq,分析难度处于两者之间:既要考虑3D互作统计,又比Hi-C省去了全基因组平衡步骤,非常值得投入尝试。
2018 – Trac-looping(转座酶结合测序)
首次出现年份 & 代表论文: 2018年,Lai等在《Nature Methods》发表了Trac-looping技术(Lai et al., Nat Methods, 2018年, DOI: 10.1038/s41592-018-0107-y)。Trac-looping全称为转座酶介导的染色质环分析,旨在同时获取染色质可及性和互作信息,且不采用黏性末端连接。
实验原理 & 流程: Trac-looping的思路是使用Tn5转座酶作为探针来捕获染色质相互作用。基本流程:固定细胞后,用限制酶轻度切开染色质,然后加入携带特定接头序列的Tn5转座酶。在染色质开放区域(如增强子和启动子)Tn5可高效插入DNA,同时会将插入位点附近的两个DNA片段用接头连接起来。这些插入接头在测序中就表现为标记一个片段属于“可及区”,并记录了插入时相邻的另一片段序列。Trac-looping产生的测序reads,一部分为短距离PET(反映开放染色质区域,类似ATAC-seq信号),一部分为长距离PET(两个开放区在远程发生交互)。因此Trac-looping一次实验即可同时获得染色质可及性图谱和这些可及区之间的3D互作。由于不需要DNA连接步骤,该方法避免了随机环化背景,并天然聚焦于调控活跃区域的互作。
创新点 vs 前代局限: Trac-looping首创性地将3D基因组测序与开放染色质profiling融合在一起。这意味着只捕获那些可能功能相关的互作(因为区域本身开放,多为调控元件),极大提高了互作数据的功能富集度。Lai等显示Trac-looping能高效检测增强子-启动子互作,并同时获得每个增强子的开放程度。对比如Hi-C无差别地捕获所有区域互作,Trac-looping减少了无关信号冗余。不过,该方法也有局限:仅强开放区有机会插入Tn5,因此闭合染色质间的互作将探测不到;另一方面,如果两个开放区邻近(<1 kb),Trac-looping可能频繁插入它们中间而产生假长距(其实近距)的reads,但作者通过区分PET长度部分克服了这一点。Trac-looping需要一定数量细胞(报告使用50–100 million),因为转座插入效率有限且要保证足够多跨片段reads。该技术问世后应用较有限,部分原因是实验流程和数据格式相对复杂,且随着ATAC-HiC等其他方法出现,Trac-looping并未成主流。但其思想影响深远——将结构和表观整合。
典型应用场景 & 研究发现: Trac-looping特别适合研究转录因子分工和协作。Lai等将Trac-looping用于小鼠T细胞受体基因座,捕获了众多转录因子结合的增强子形成的互作网络。他们能够分析这些增强子在3D空间的“共现”,解码不同转录因子如何在同一复合物中出现的频率,由此提出了基因调控中不同因子分工协作的新模型。此外,他们验证Trac-looping捕获的增强子-启动子接触确实对应更高的基因表达。另一个应用是对比不同细胞类型Trac-looping数据,能观察到开放区互作网络的重组(如活化和未活化T细胞比较)。Trac-looping所得短距PET还能单独当作ATAC-seq数据用,确定可及性谱。因此,该技术为多组学联合打开了新局面,提供同时考虑2D和3D信息的手段。虽然Trac-looping本身未被广泛应用,但它启发了后续一些单细胞测序整合的方法(如在单细胞中同时测Chromatin和RNA的MUSIC方法等,概念上都是希望一次实验获取多重信息)。
分辨率、样本量、成本、分析难度: Trac-looping的3D互作分辨率由限制酶切和转座插入决定,一般在核小体级到kb级。其优势是reads主要集中在开放区间互作上,相当于对功能区3D图谱的分辨率更高。要求起始细胞量较大(论文用50–100百万),主要因为开放区仅占基因组极小部分且Tn5插入效率有限。成本包括转座试剂、大量测序(因为要覆盖全基因组开放区组合,至少也是Hi-C量级reads,但其中相当比例为短距可及性reads)。分析难度偏高:Trac-looping数据同时包含一维开放性信息和二维互作信息,需要分别处理再综合。要区分短距PET(定义可及区)和长距PET(定义互作)并去除假信号,然后利用已有ATAC-seq/Hi-C管道融合分析。此外,由于只覆盖开放区,传统Hi-C矩阵可视化方法不完全适用,研究者更多以网络图或统计指标呈现结果。综合来说,Trac-looping在资源投入和分析复杂度上与Hi-C接近,但收获的信息更具针对性,为特定科学问题(如转录因子网络)提供了解决方案。
2017 – 单细胞Hi-C / sci-Hi-C / Dip-C
首次出现年份 & 代表论文: 单细胞测序版Hi-C的概念在2013–2015年已由Nagano等提出(Nagano et al., Nat Protoc, 2015年, DOI: 10.1038/nprot.2015.127),但真正大规模成果发布是在2017年。Ramani等在2017年开发了“Combinatorial Single-cell Hi-C (sci-Hi-C)”并于2019年发表方法细节[pubmed.ncbi.nlm.nih.gov](https://pubmed.ncbi.nlm.nih.gov/26540590/#:~:text=* Sci,large number of single cells)[pubmed.ncbi.nlm.nih.gov](https://pubmed.ncbi.nlm.nih.gov/26540590/#:~:text=in large number of single,cells)(Ramani et al., Methods, 2020年),同年Tan等在《Science》发表了单细胞二倍体Dip-C方法(Tan et al., Science, 2018年, DOI: 10.1126/science.aat5641)。这些都是将Hi-C扩展到单细胞水平的里程碑工作。
实验原理 & 流程: 单细胞Hi-C的核心挑战是如何在单细胞DNA极少量的情况下构建互作文库。Nagano等最早的方法是:将每个细胞单独包裹,完成3C连接后再逐个提取DNA扩增。而sci-Hi-C采用组合索引策略:不物理分隔单细胞,而是将大批细胞一起完成交联和连接,然后进行两轮以细胞为单位的条形码标签,这样每个细胞的片段都有独特组合标签,可在测序后分组[pubmed.ncbi.nlm.nih.gov](https://pubmed.ncbi.nlm.nih.gov/26540590/#:~:text=* Sci,large number of single cells)[pubmed.ncbi.nlm.nih.gov](https://pubmed.ncbi.nlm.nih.gov/26540590/#:~:text=in large number of single,cells)。例如,第一轮把细胞混样片段随机分到96孔各加标签A,第二轮再混合分到另一96孔加标签B,那么任意片段的(A,B)标签组合就对应原来的某个单细胞[pubmed.ncbi.nlm.nih.gov](https://pubmed.ncbi.nlm.nih.gov/26540590/#:~:text=* Sci,large number of single cells)。Dip-C则专注于单细胞二倍体全基因组构象:它在单细胞Hi-C基础上增加了SNP分型信息,以在单细胞3D结构中区分父母来源染色体。Tan等通过单细胞扩增+深度测序+算法重建,获得了单个二倍体细胞的三维染色体结构,高达20 kb分辨。总体来说,单细胞Hi-C类方法需解决极低起始量,通常通过扩增(Nagano方法PCR扩增,Ramani组合扩增,Tan则用多重置换)来获取足够reads。
创新点 vs 前代局限: 单细胞Hi-C最显著的突破是提供了细胞异质性和构象随机性的直接观测。以往Hi-C是群体平均,单细胞方法揭示了细胞之间3D结构可以显著不同。例如,Nagano等2013年就发现单细胞中染色质接触高度稀疏,但总体仍维持TAD框架,只是边界在不同细胞略变动。Dip-C则展示了每个单细胞具体染色体折叠的三维模型,这是平均图谱无法给出的。当然,单细胞Hi-C有明显局限:每个细胞仅贡献数千有效reads,接触矩阵极其稀疏。因此在单细胞上很难看到完整的TAD或环结构,大多需要统计上聚集多细胞结果或结合机器学习进行降维聚类。此外,扩增容易引入偏倚甚至虚假连接(如扩增过程杂交导致的库交叉),需要慎重对照。组合索引策略虽然可平行处理成千细胞,但标签错配、doublet问题也需算法纠正。单细胞数据噪声高、覆盖低,分析时常采用降噪模型、联系群体数据指导等手段。简言之,创新极大,但技术难度也极高,研究者必须接受单细胞Hi-C只能重建局部特征或统计规律,而非每个细胞精细完整的3D图。
典型应用场景 & 研究发现: 单细胞Hi-C已经用于许多探索细胞核三维结构动力学的问题。Stevens等2017年在单细胞水平研究了X染色体失活过程,发现两条X在细胞间结构差异巨大,但平均起来符合群体Hi-C特征。这说明单细胞结构多样性在平均中被掩盖。单细胞方法也用于研究有丝分裂后重编程:Nagano等2017年发现,细胞在分裂后染色质逐渐恢复TAD和区室,但存在细胞特异变异(同一阶段细胞TAD边界位置略不同),提出区室形成可能有随机性因素。Dip-C的应用例子包括构建早期胚胎每个细胞的3D基因组,以理解细胞命运决定与3D结构的关系;或构建癌症细胞群中不同亚克隆的构象,探究3D基因组与克隆演化。Sci-Hi-C在2019年被用于对上千个单细胞做无监督聚类,结果可以根据3D结构把细胞正确分类为不同细胞类型。这证明了3D结构本身是细胞类型特异的“指纹”,这在群体Hi-C不易看出。因此,单细胞Hi-C提供了新的维度去刻画细胞身份、多样性和动态变化,对于发育生物学、神经科学和肿瘤异质性研究等都意义重大。
分辨率、样本量、成本, 分析难度: 单细胞Hi-C的分辨率受限于单细胞扩增效率和测序深度。一般而言,一个细胞哪怕测序千万reads,可覆盖到几十kb特征已经不易,多数分析集中在区室级(数Mb)或TAD级(几十kb)信号。提升分辨率需合并信息或增加reads,但后者受到单细胞DNA量少的限制。样本量方面,为获得具有统计代表性的结论,单细胞实验常需测序几十到数百细胞,每细胞少则几万、多则上百万reads,故总数据量巨大且成本高昂。Ramani等的sci-Hi-C一次实验可产出上千细胞数据,但计算处理也相当庞大。分析难度无疑是最大的:面对高度稀疏矩阵,传统聚类、降维、3D模型重建等都需要特殊处理(如使用接触特征向量进行细胞聚类)。Dip-C等需要将reads映射并利用杂合SNP拆分父源,需要结合外部全基因组测序信息并应用复杂算法(如断点-优化迭代重构3D结构)。因此,单细胞Hi-C是计算和统计的前沿领域,需要结合数据降噪算法(例如基于高斯过程或随机游走的补全方法)来可靠提取生物学信号。目前已有一些专门工具(比如 scHiCCluster, dip-c软件包等)来帮助分析。综合而言,单细胞3D基因组技术投入大但回报丰富,随着测序成本降低和算法进步,预期将越来越多地用于解答群体方法无法触及的问题。
2017 – SPRITE / GAM / 无连接多重互作技术
首次出现年份 & 代表论文: 2017年末,Bickmore团队的Beagrie等在《Nature》发表了无连接的GAM方法(Beagrie et al., Nature, 2017年, DOI: 10.1038/nature21411)。紧随其后2018年,Guttman团队的Quinodoz等在《Cell》发表了SPRITE技术(Quinodoz et al., Cell, 2018年)。两者理念相似:不依赖DNA连接来捕获染色质空间近邻。2019年则出现了Oxford团队开发的PORE-C,将长读长测序用于多重互作检测 (Deshpande et al., Nat Biotechnol, 2022年, DOI: 10.1038/s41587-022-01482-x)。
实验原理 & 流程: GAM(基因组构架测绘)通过依次切片细胞核获取互作:将固定细胞核用超薄冰冻切片,每片包含随机截获的一组染色质片段。测序每片DNA后,若某两个位点总是出现在同一片段集合中,说明它们在细胞核中邻近。成百上千片组合统计,即可推断接触频率。SPRITE(标签扩增识别多元交互)则利用迭代分组-标记:将细胞核裂解后所有DNA先随机分为几池加上序列标签,然后合并再随机分组再加标签……经历多轮,这样原先彼此挨近的DNA分子会多次被分到同组并共享一串共同标签。测序后具有相同标签集合的reads即来源于同一空间复合体。PORE-C则基本复用Hi-C实验流程但不切开连接产物,直接用Oxford Nanopore长读测序读取整个连接“串珠”(concatemer),这样一条读长即可覆盖多个相互连接的片段。此读长若包含A、B、C序列,则表示这三个位点在原细胞核中曾同时接触。简而言之,这些无连接方法从不同角度解决了多重互作的探测:GAM从物理切片共分布,SPRITE从统计标签共现,PORE-C从测序读长共载,提供了超出Hi-C“成对”信息的更高阶相互作用数据。
创新点 vs 前代局限: 无连接方法的最大创新是可以捕获同时发生的多元互作,而Hi-C类需要通过成对近似无法轻易辨别三者以上相互作用。例如,SPRITE发现了X染色体失活中心处Xist RNA将多个区段拉在一起形成RNA介导的互作簇。Hi-C只能看到成对接触增强,但SPRITE直接看到一条RNA与几十个位点共处同一复合体。GAM也发现了许多三元以上共现片段,特别是转录活跃区倾向于形成多重互作团簇。这些都是对传统双基互作模型的重要补充。不过,局限性也明显:GAM需要制备大量薄切片,实验繁复且每片只给出存在/不存在的信息,信号稀疏且依赖统计模型(如SLICE)推断。SPRITE虽然一次测序即可见多元组,但标签重复分组过程有一定随机噪声,长标签序列匹配分析复杂,需要较大数据量确保可靠共现统计。PORE-C读长目前平均几kb,只能串联有限片段,而且Nanopore测序错误率和偏好需纠正,另外组装这些串珠reads也需特殊算法。总体而言,无连接方法数据产出相对低(例如GAM一套实验仅几百片数据;SPRITE为确保共现需深测序;PORE-C早期产出率低于Hi-C)。因此其分辨率和可靠性相对Hi-C还需提升。
典型应用场景 & 研究发现: 里程碑式发现:2018年SPRITE论文揭示了核仁和着丝粒等处存在跨染色体“大范围互作hub”。这些互作在Hi-C中也表现为染色质A/B区室,但SPRITE实证了很多染色质区域实际以多分子复合形式同处核架构,如多个染色体的异染色质区段可集中于核仁周围。GAM则观测到三元互作的普遍性:许多增强子不只是和一个启动子相互作用,而可能同时联系两个甚至更多基因形成“增强子网”。GAM分析还提出了协同隔离现象,即若A与B、B与C都互作,则A与C互作概率也增高,这说明TAD内部元件往往共同隔离于TAD外(Beagrie et al., 2017)。PORE-C在2020-2022的研究中用于解析单等位构象:Paulsen等借助高通量PORE-C(HiPore-C),发现单倍型染色质拓扑在细胞类型间有独特模式,尤其是TAD内部的结构随机性和跨区室的偶发互作。综上,这些无连接方法提供了全新视角,丰富了我们对染色质高阶组织的认知,例如核域间相互排列、同时多位点协作调控等,使3D基因组模型从简单“环”拓展为复杂“网络”。
分辨率、样本量、成本、分析难度: 无连接多重互作技术各异:GAM的分辨率由切片厚度决定(一般核截面),有效分辨率约0.1–1 Mb,但可通过模型缩小。它需要上千细胞核切片,但综合统计要求切片数N远大于互作元素数k才能有显著性(Beagrie等用了≈472片),因此样本需求较大。SPRITE以混池标签策略换取多体信号,需要大量reads支持(Quinodoz等分析了几亿reads),样本用量中等(百万级细胞),但标签和多轮分组材料成本和测序成本都高。PORE-C目前产出效率低,要想覆盖全基因组需要多重文库和PromethION深测序,其单read能给出高精度多点关系,但要拼出全貌仍需海量reads。计算上,GAM涉及求解高维联合概率,Beagrie使用了SLICE数学模型,理解和实现门槛高。SPRITE需要聚类具有同一标签序列的reads簇,数据处理自定义步骤多,且输出并非传统矩阵,后续可与Hi-C对比但不易直接采用现有软件,需要专门分析(作者使用自写脚本分析nascent RNA和DNA共同定位)。PORE-C分析需从长读中分割出接头连接点,再将多个片段定位并建立多重接触表,已有一些工具在开发(如MapPore-C)。在可视化上,多重互作也难以用简单热图呈现,需要网络图或高级统计展示。总之,这些方法目前更多作为验证和探索性手段存在,分析复杂度较高但信息量独特,期待未来2-3年改进算法降低使用门槛并提高数据产出,让多重互作图谱与Hi-C一起成为3D基因组教科书的一部分。
2023+ – 新兴方法与未来展望
2023–2025年新方法举例: ChIA-Drop: 2019年Zheng等开发了ChIA-Drop,将染色质复合体用微液滴条形码标记,实现单分子多片段的互作检测。scNanoHi-C: 2023年Tang等报道了scNanoHi-C,将单细胞Hi-C与纳米孔测序结合,单个细胞即可产出高阶结构串,并同时检测结构变异和DNA甲基化(Li et al., Nat Methods, 2023年)。MUSIC: 2024年Zhong等发表MUSIC技术,实现了单细胞内同时捕获多重DNA-DNA互作与RNA表达,即一方面类似SPRITE获取DNA和RNA的多元同现,另一方面同时测定该细胞基因表达,用于年老大脑中解析染色质结构与转录变化的关系(Wen et al., Nature, 2024年)。这些新方法表明,未来技术正朝着多模态、单细胞、多级分辨方向发展。
单细胞路线的挑战与突破: 单细胞3D基因组技术虽然已经成功应用,但挑战仍然突出,包括:1) 数据稀疏:大部分单细胞互作矩阵为空,需要借助机器学习或多细胞联合解析算法补足。2) 扩增偏倚:单细胞扩增易导致部分基因组过度代表、部分缺失,对定量分析不利。3) 成本高:单细胞测序需要极高深度才能覆盖足够接触事件,而且一次实验通常需要数百细胞数据做统计,费用昂贵。然而,诸多突破正在发生:例如,将单细胞Hi-C与图像技术结合,可验证和补充测序发现;开发新型噪声下降算法(如基于共现概率矩阵分解),把信号从噪声中提取。特别的,多组学单细胞测序(如MUSIC)可以让我们同时了解结构和功能,从而以更高鲁棒性诠释单细胞3D基因组数据。可以预见,随着测序技术改进和生信算法革新,单细胞3D基因组将在发育、生物钟、神经活动等领域带来突破,克服目前覆盖和精度局限。
无连接方案的优缺点及适用情形: 无连接技术(SPRITE, GAM, PORE-C等)的优点是能够捕获多way互作和细胞核全局联系,不受酶切和连接偏差影响。它们适用于研究如跨染色体结构(SPRITE发现的跨染色质hub)、大范围多元团簇(GAM发现的增强子三元组)、以及同时结合RNA(SPRITE/MUSIC用于RNA-DNA共架构)的情况。这些是Hi-C类难以涉足的。然而无连接也有弱点:分辨率普遍较低、数据稀疏、需要大量统计片段或reads;因此对于局部精细环路研究并不高效。例如,GAM很难辨别相邻基因的环,而Hi-C在这方面长处明显。适用情形上,若关注核级别组织如染色质缠绕、核域排列,无连接方法可提供全局视角;若关注具体基因调控环,Hi-C类仍是首选。目前实际研究中,经常是两类技术互补使用,以求既见森林又见树木。
未来2-3年内趋势预测: 可以预见,未来3D基因组学将沿以下方向继续演进:
- 多模态整合: 像MUSIC这样同时获取3D结构和转录/表观信息的技术将兴起。这将实现“一次实验,多种数据”,更好关联结构与功能。例如单细胞层面同时测3D互作与ATAC-seq、RNA-seq,甚至蛋白组,使我们能够直接看出某结构改变对基因表达的即时影响。
- 更高分辨率和准确度: 尽管目前Micro-C、原位Hi-C已达核小体/kb级,但未来或能实现碱基对级别构象图谱,例如通过CRISPR/Cas9针对连接产物的富集测序或更高精度的长读长PORE-C升级版。算法改进(如深度学习去噪)也会让我们从较少数据中提取更高分辨细节(参阅HiC2MicroC扩展算法,可将普通Hi-C虚拟提升近Micro-C分辨率)。
- 更低起始和原位测序: 或许很快会出现可以对活细胞原位解析3D结构的方法,比如将测序过程移动到细胞核内(结合成像,如染色质原位测序)。另一方面,样本量要求会不断降低,将3D基因组技术推进到临床活检等应用成为可能。
- 人工智能与3D基因组学融合: 随着数据大量累积,机器学习将用于预测3D结构。Google DeepMind的AlphaFold成功预测蛋白三维结构类比下,可能出现能够根据一维序列和修饰精准预测染色质三维构象的模型。早期已有尝试(如Akita深度卷积网络用于从DNA序列预测Hi-C矩阵)取得一定效果,这将在未来变得更强大,并与实验数据相互验证促进。
综上,3D基因组学技术自3C发端,在2002–2025短短二十余年间迭代出丰富的“C”家族。从一对位点的定性检测,发展到全基因组高分辨图谱,再到单细胞多组学整合,每一步技术革新都伴随着重要生物学发现。可以预见,在未来数年,技术改进将继续拓展我们的视野——或许不久我们就能实时观察单活细胞内染色质动态构象,并解码其与细胞功能的因果联系。这将把基因组学带入一个真正四维(3D空间 + 时间)解析的新纪元。