细胞

首页 » 常识 » 预防 » 机器学习揭示基因组在单个细胞中的表达差异
TUhjnbcbe - 2023/11/27 22:53:00
怎样防治白癜风 http://pf.39.net/bdfyy/dbfzl/150601/4632474.html

编辑

萝卜皮

在单个人类细胞的微观视界内,蛋白质和DNA的复杂折叠和排列决定了每个细胞的命运:哪些基因被表达,哪些基因被抑制,这决定了细胞是保持健康还是发生病变;宏观角度则反映了一个人的健康状况。单细胞Hi-C(scHi-C)技术可以识别三维(3D)染色质组织的细胞间差异性,但测量相互作用的稀疏性会带来分析挑战。

卡内基梅隆大学的研究人员提出了一种基于超图表示学习框架的算法——Higashi,可以合并单个细胞之间的潜在相关性,以增强接触图的整体插补。Higashi优于现有的scHi-C数据嵌入和插补方法,并且能够识别单个细胞中的多尺度3D基因组特征,例如区室化和TAD样域边界,从而可以精确描绘其细胞间差异性。

此外,与两种模式的单独分析相比,Higashi可以将在同一单元格中联合分析的表观基因组信号合并到超图表示学习框架中,从而改进单核甲基3C数据的嵌入。在来自人类前额叶皮层的scHi-C数据集中,Higashi确定了3D基因组特征与细胞类型特异性基因调控之间的联系。Higashi还可以扩展到分析单细胞多路染色质相互作用和其他多模式单细胞组学数据。

该研究以「Multiscaleandintegrativesingle-cellHi-CanalysiswithHigashi」为题,于年10月11日发布在《NatureBiotechnology》杂志。

先简单说一下

用于探测细胞核内3D基因组组织的Hi-C等全基因组映射方法的快速发展,揭示了多尺度高阶染色质结构,包括A/B区室、更精细的核区室化、拓扑关联域(TAD)和染色质环。这些不同尺度的3D基因组特征与重要的基因组功能相互关联,例如基因转录和DNA复制;但3D基因组结构的变化及其在单细胞中的功能意义仍不清楚。

新兴的scHi-C技术已经可以分析单个细胞中3D染色质结构的基因组图谱,以及染色体构象与其他表观基因组特征的联合分析。这些令人兴奋的scHi-C检测有可能在广泛的生物环境中以单细胞分辨率全面揭示基本的基因组结构和功能联系。

然而,能够充分利用稀疏scHi-C数据来分析3D基因组特征的细胞间变异性的计算方法非常缺乏。为了解决scHi-C数据的稀疏性,已经开发了用于嵌入数据集和接触图插补的方法。然而,当前最先进的基于「重启随机游走」的插补方法,例如scHiCluster,对于更可靠的单细胞3D基因组分析还有很大的改进空间。

当前的插补方法还需要在内存中具有接触图大小的密集矩阵上进行存储和计算,这在高分辨率分析scHi-C数据时是不切实际的。目前还不清楚如何可靠地比较跨单个细胞的TAD样域边界和A/B区室,以分析它们的细胞间变异性和功能连接。因此,需要新的算法来填补这些空白。

研究人员提出的Higashi是一种使用超图表示学习框架、进行多尺度和集成单细胞Hi-C分析的新计算方法。使用由Higashi生成的嵌入和估算的scHi-C接触图,确定了A/B区室分数和TAD样域边界的细胞间差异性;这在揭示细胞功能方面很重要。应用于最近的人类前额叶皮层scHi-C数据集证明了Higashi在复杂组织中揭示细胞类型特异性3D基因组特征的独特能力。作为迄今为止最系统的一种新方法,Higashi能够改进对scHi-C数据的分析,有可能为3D基因组结构的动态及其在不同生物过程中的功能影响提供新的思路。

具体做了些什么

Higashi概要

Higashi的关键算法设计是将scHi-C数据转换为超图。这种转换保留了来自scHi-C接触图的单细胞分辨率和3D基因组特征。具体来说,嵌入scHi-C数据的过程现在等同于学习超图的节点嵌入,而输入scHi-C接触图就变成了预测超图中缺失的超边。Higashi使用了该团队最近开发的Hyper-SAGNN架构,这是一个通用的超图表示学习框架,专门针对scHi-C分析(方法)进行了大量的新开发。

图示:用于scHi-C分析的Higashi框架概述。(来源:论文)

Higashi有五个主要组成部分:

将scHi-C数据集表示为超图,其中每个细胞和每个基因组bin分别表示为细胞节点和基因组bin节点。单细胞接触图中的每个非零条目都被建模为连接相应细胞和该特定染色质相互作用的两个基因组位点的超边。这种形式主义集成了scHi-C的嵌入和数据插补;

基于构建的超图训练超图神经网络(NN);

从训练好的超图神经网络中提取单元节点的嵌入向量用于下游分析;

使用经过训练的超图NN来插补单细胞Hi-C接触图,并灵活地结合细胞之间的潜在相关性以增强整体插补,从而能够更详细和可靠地表征3D基因组特征;

通过几种新的计算策略,可靠地比较了跨单个细胞的A/B区室分数和TAD样域边界,以促进分析这些大规模3D基因组特征的细胞间变异性及其对基因转录的影响。

此外,研究人员开发了一个可视化工具,允许对嵌入向量和来自Higashi的估算接触图进行交互式导航,以促进发现。

Higashi嵌入反映了细胞类型和细胞状态

研究人员试图证明Higashi通过嵌入有效地从稀疏的scHi-C数据中捕获了3D基因组结构的可变性。首先在具有多种细胞类型或已知细胞状态信息的三个scHi-C数据集上测试了该方法,分辨率为1-Mb。训练后,Higashi嵌入被投影到二维空间,使用统一流形近似和投影(UMAP)进行可视化。研究人员发现Higashi嵌入表现出与底层细胞类型和细胞状态相对应的清晰模式。

图示:评估Higashi生成的嵌入。(来源:论文)

Higashi稳健地估算scHi-C接触图

除了用于细胞类型识别的scHi-C数据的降维之外,Higashi还可以估算稀疏的scHi-C接触图。在这里,研究人员试图通过多次评估来证明插补准确性。为了进行比较,研究人员包括了来自scHiCluster的推算结果。请注意,scHiCluster将每个scHi-C接触图表示为一个单独的图,而Higashi将整个scHi-C数据集表示为一个超图,允许在不同的细胞之间潜在地协调插补。

具体而言,在Higashi中,当对单元格i的接触图进行插补时,其嵌入空间中的k最近邻将通过利用它们的潜在相关性(方法)来对插补做出贡献。为了证明在Higashi中采用的这种设计的优势,研究人员概括了来自Higashi的估算结果,k为0和4(分别称为「Higashi(0)」和「Higashi(4)」)。对超参数k进行了敏感性分析,并表明Higashi对k的选择具有高度稳健性。

图示:基于多重STORM3D基因组成像数据模拟的scHi-C数据的不同插补方法的评估和可视化(来源:论文)

Higashi确定区室化变异性

研究人员探索了Higashi生成的增强型接触图如何促进单细胞分辨率的多尺度3D基因组分析。A/B区室反映了与基因组功能有明显联系的大规模染色体空间分离。迄今为止,使用scHi-C数据的系统A/B隔间注释几乎没有取得什么进展,主要是因为数据稀疏。在这里,研究人员应用Higashi以50-Kb的分辨率估算WTC-11scHi-C数据。该团队设计了一种计算连续隔室分数的方法,以便分数在整个细胞群中直接可比,并反映详细的细胞间差异。

图示:Higashi能够以单细胞分辨率详细描述3D基因组特征及其与基因转录的联系。(来源:论文)

Higashi揭示了单细胞TAD样结构域边界

最近基于染色质构象的多重STORM成像的工作证明了单细胞中TAD样结构的存在和细胞间变异性。然而,对于稀疏的scHi-C数据,TAD样域的识别仍然极具挑战性。研究人员开发了一种基于Higashi插补从单个细胞中识别TAD样域边界变异性的方法。分析是在WTC-11scHi-C数据集上进行的,分辨率为50-Kb。

图示:单细胞间类TAD域边界校准示意图。(来源:论文)

人类前额叶皮质单细胞3D基因组特征

为了证明Higashi分析复杂组织的单细胞3D基因组结构的能力,研究人员将其应用于上述来自人类前额叶皮层的sn-m3C-seq数据。研究人员展示了Higashi框架的结果,该框架仅通过sn-m3C-seq中的染色质构象信息以kb的分辨率进行训练,以评估其在分析scHi-C数据方面的独特优势。

研究人员发现Higashi嵌入(仅使用scHi-C)能够解决神经元亚型之间的差异(分离Pvalb、Sst、Vip、Ndnf、L2/3和L4-6),同时保持与非神经元细胞的清晰分离类型。这表明,与Higashi一起分析,单独的scHi-C具有足够的信息来区分复杂的神经元亚型。相比之下,scHiCluster无法使用scHi-C清楚地区分这些神经元亚型。

图示:Higashi利用来自人类前额叶皮质的scHi-C数据识别复杂的细胞类型和细胞类型特异性TAD样结构域边界。(来源:论文)

图示:基于来自人类PFC的sn-m3c-seq数据集的单细胞A/B区室分数的UMAP可视化。(来源:论文)

一个中肯的讨论

在这项工作中,研究人员开发了用于多尺度和综合scHi-C分析的Higashi。广泛评估证明了Higashi在嵌入和插补方面优于现有方法的优势。此外,通过改进scHi-C接触图的数据增强,研究人员在Higashi开发了方法来系统地分析可变多尺度3D基因组特征(A/B区室分数和TAD样域边界),揭示它们在基因转录中的影响。通过应用来自人类前额叶皮层的scHi-C数据集,Higashi能够识别复杂的细胞类型并揭示与细胞类型特异性基因调控有密切联系的细胞类型特异性TAD样域边界。

Higashi的关键算法创新是将scHi-C数据转化为超图,与现有方法相比具有独特的优势。首先,这种转换保留了scHi-C的单细胞精度和3D基因组特征。其次,将整个scHi-C数据集建模为超图,而不是将每个接触图建模为单独的图,允许跨细胞协调信息,通过利用细胞之间的潜在相关性来改善嵌入和插补。第三,虽然主要

1
查看完整版本: 机器学习揭示基因组在单个细胞中的表达差异