文章内容由Grok4生成,我负责检查、编辑和发表。
Hi-C(High-throughput Chromosome Conformation Capture)是一种用于研究染色质3D结构的组学技术,它生成的接触矩阵数据可以揭示基因组的拓扑结构、调控机制和疾病相关变化。Hi-C数据分析通常涉及从原始读段到高级解读的完整管道,不限于特定工具(如HiCExplorer、Juicer、HiC-Pro、TADbit、Fit-Hi-C 或 HiC-bench)。分析类型可以分为基础处理、高级结构识别、比较分析和整合应用等。下面我按类别总结常见分析类型,包括描述、目的和示例工具/方法。列表基于多种来源的综合,如Hi-C管道指南和基准研究。
1. 预处理和质量控制(Preprocessing and Quality Control)
- 描述:从原始测序读段开始,包括过滤低质量读段、去除PCR重复、比对到参考基因组、构建接触矩阵(contact matrix,通常以bin大小如5kb划分)。
- 目的:确保数据可靠,移除技术偏差(如酶切位点偏差)。包括检查cis/trans交互比率、距离依赖交互频率衰减曲线。
- 示例工具/方法:HiC-Pro(端到端处理)、cooler(矩阵格式化)、HiC-bench(对齐和过滤)。常见步骤:使用Bowtie2或BWA比对,生成.cool或.hic格式矩阵。
2. 矩阵校正和归一化(Matrix Correction and Normalization)
- 描述:校正系统偏差(如GC含量、mappability),包括显式(explicit,如Knight-Ruiz (KR))和隐式(implicit,如ICE)方法。归一化使矩阵可比,如总互动数标准化。
- 目的:去除噪声,提高下游分析准确性。包括诊断绘图(如MAD score)。
- 示例工具/方法:HiCExplorer的hicCorrectMatrix、Juicer的KR normalization、cooltools。
3. 可视化和探索性分析(Visualization and Exploratory Analysis)
- 描述:生成热图(heatmap)、圆图(circos plot)、距离 vs 计数曲线、虚拟4C(从特定视点查看互动)。
- 目的:直观检查数据模式,如交互频率随距离衰减。
- 示例工具/方法:Juicebox(交互式热图)、HiCExplorer的hicPlotMatrix、WashU Epigenome Browser。
4. A/B 隔室分析(A/B Compartment Analysis)
- 描述:使用主成分分析(PCA)识别开放(A,活跃转录)和封闭(B,抑制)染色质隔室。计算PC1值作为隔室分数。
- 目的:揭示染色质大尺度分区,与基因表达相关。
- 示例工具/方法:HiCExplorer的hicPCA、cooltools的compartment调用、HOMER。
5. 拓扑相关域(TAD)识别(Topologically Associating Domains Identification)
- 描述:检测TAD边界和域,使用insulation score或方向性指数(directionality index)。
- 目的:识别局部互动密集区域,理解基因调控边界。
- 示例工具/方法:Arrowhead (Juicer)、HiCExplorer的hicFindTADs、TADbit。
6. 染色质环检测(Chromatin Loop Detection)
- 描述:识别远距离互动峰,如增强子-启动子环,使用峰调用算法(如负二项分布或Wilcoxon测试)。
- 目的:揭示调控环,与转录因子如CTCF相关。
- 示例工具/方法:HiCCUPS (Juicer)、HiCExplorer的hicDetectLoops、Fit-Hi-C。
7. 差异Hi-C分析(Differential Hi-C Analysis)
- 描述:比较多个样本的矩阵差异,如log2比率、显著差异互动,使用统计测试(如负二项或t-test)。
- 目的:识别条件特异结构变化(如疾病 vs 正常)。
- 示例工具/方法:HiCompare、diffHiC、multiHiCcompare(基准了10种工具)。
8. 聚合和区域特异分析(Aggregation and Region-Specific Analysis)
- 描述:在特定特征(如CTCF位点)周围聚合互动,生成平均图;或网络分析(interaction network)。
- 目的:研究模式如TAD边界富集。
- 示例工具/方法:HiCExplorer的hicAggregateContacts、GraphPad或网络工具。
9. 3D基因组建模(3D Genome Modeling)
- 描述:从接触矩阵推断染色质3D结构,使用分子动力学或优化算法。
- 目的:模拟空间构象。
- 示例工具/方法:TADbit的建模模块、miniMDS、Chrom3D。
10. 单细胞Hi-C分析(Single-Cell Hi-C Analysis)
- 描述:处理稀疏单细胞数据,包括 imputation、聚类、轨迹分析。
- 目的:揭示细胞异质性。
- 示例工具/方法:scHiCExplorer、SnapHiC、Higashi。
11. 高级和整合分析(Advanced and Integrative Analysis)
- 描述:应用机器学习/AI(如聚类、预测)、图论(网络建模)、时空分析;整合多组学数据(如ChIP-seq、RNA-seq、ATAC-seq)。
- 目的:揭示调控网络、癌症相关变化。
- 示例工具/方法:DeepHiC(AI增强)、网络分析工具、ENCODE管道。
这些分析通常形成管道,从预处理到高级解读。选择取决于分辨率、样本类型和计算资源。对于癌症等应用,Hi-C常与多组学整合。