细胞

首页 » 常识 » 预防 » NatCommunCellar一个交
TUhjnbcbe - 2024/3/31 9:09:00

编译

姜晶

审稿

任宣百

本文介绍由美国卡内基梅隆大学的ZivBar-Joseph教授团队和加拿大麦吉尔大学健康中心的JunDing助理教授团队联合发表在NatureCommunications的研究成果。细胞分类为高通量单细胞数据的主要挑战,在许多情况下,这种分配需要重复使用外部和补充数据源。为了提高跨大型联盟、平台和模态统一分配细胞类型的能力,作者开发了一种软件工具Cellar,可为分配和数据集比较过程中涉及的所有不同步骤提供交互式支持。作者讨论了由Cellar实现的不同方法,以及如何将这些方法用于不同的数据类型,如何组合互补的数据类型以及如何分析和可视化空间数据。作者通过使用Cellar注释几个来自多组学单细胞测序和空间蛋白质组学研究的HuBMAP数据集来展示Cellar的优势。

1

简介

包括人类生物分子图谱计划(HuBMAP)在内的许多大型联盟专注于在单细胞水平上分析组织、器官和整个人体。这些联盟使用不同的技术来研究单细胞的分子组成,包括单细胞RNA测序、单细胞ATAC测序、单细胞空间转录组学和单细胞空间蛋白质组学。除了这些大型联盟之外,个别实验室还使用这些模态中的部分或全部生成数据。

在过去的几年里,已经开发了许多方法用于分配单细胞数据中的细胞类型。来自同一联盟的不同组或同一组,在处理多种类型的单细胞数据时,都依赖于不同的工具。这使得整合和比较来自这些组的数据变得困难,因为研究人员经常使用不同的分配技术、标记物,甚至细胞类型命名方式。

为了实现跨不同单细胞组学平台和模态的大规模协作、整合和比较,作者开发了Cellar,一种交互式和图形化的细胞类型分配Web服务器。Cellar实现一套全面方法,包括现有和新的方法,并涵盖了细胞类型分配过程中涉及的所有步骤。这些方法包括降维和表示、聚类、基于参考的比对、差异表达基因的识别、与功能和标记集的交叉、管理会话和导出结果的工具,以及同时分析和比较两个数据集的双重模态。由于细胞类型分配通常需要用户的领域知识作为输入,因此Cellar采用半自动解决方案,允许用户根据需要干预和修改每个处理步骤。为了实现这种交互式分析,Cellar提供了半监督聚类和空间单细胞图像中类表达的映射方法。图1概述了Cellar的工作流程。过去一年,HuBMAP的成员对Cellar进行了测试,并用于注释来自不同器官、平台和模态的多个单细胞数据集。

图1Cellar的工作流程

2

结果

scRNA-seq数据分析

作者用Cellar分析了11个HuBMAPseq数据集(10xgenomics),包含来自五种不同组织(肾脏、心脏、脾脏、胸腺、淋巴结)的个细胞。Cellar首先通过去除不可靠的细胞和低计数基因来进行质量控制。然后,Cellar对数据的低维表示进行聚类,并进一步降低维度以实现可视化。作者通过分析具有个细胞的脾脏数据集来演示这个pipeline。用PCA,然后使用UMAP进行降维,用Leiden算法进行聚类,总共获得16个类。对于每个类,Cellar识别了top差异基因。使用前个差异基因功能富集分析(GO、KEGG、MSigDB)将类0识别为B细胞。通过可视化两个已知B细胞标志物CD79A和TNFRSF13C的表达,进一步支持了这一分配。

除了无监督聚类,Cellar还实现了基于参考数据集的有监督分配方法。这些可以直接利用Cellar中双模态和其他方法。例如,这种分配形式可以与Cellar的半监督聚类选项结合使用,以在标签转移过程中纠正噪声。为了说明这种用途,作者应用了Cellar中提供的Scanpy的Ingest函数来整合两个专家注释的脾脏数据集(CellarIDs:HBMP2-spleen-2和HBMP3-spleen-CC3)。使用HBMP3-CC3作为groundtruth,并将标签从它转移到HBMP2-2。然后,将标签转移的结果与HBMP2-2的groundtruth注释进行比较,并观察到adjustedrandscore(ARI)为0.39。相比之下,在HBMP2-2上运行Leiden聚类会导致ARI得分低得多(0.27)。然后,通过使用Leiden的半监督适应来改进标签转移的结果,其中选择噪声最小的类作为约束,并且在算法的迭代过程中不允许改变。获得了更好的ARI得分(0.66),证明了标签转移和半监督聚类的好处。

scATAC-seq数据分析

虽然scRNA-Seq是目前使用最广的数据模态,但其他几种分子数据类型也正在单细胞水平上进行分析。为了说明Cellar对此类数据的适用性,作者使用它来注释scATAC-seq。Cellar可以通过两种不同的方式处理scATAC-seq数据:cell-by-gene和cell-by-cistopic。前者基于与所有基因附近区域相关的开放染色质可及性,而后者依赖于cisTopic,其使用LatentDirichletAllocation来模型化cis-regulatory主题。生成的cell-by-gene或cell-by-cistopic矩阵用于下游分析,例如可视化和聚类。作者使用Cellar对scATAC-seq数据集进行注释,该数据集使用cell-by-gene表示来分析外周血单核细胞(CellarID:PBMC10kCell-By-Gene)。

空间转录组学数据分析(CODEX)

除了测序分析,图像分析还可以在单细胞水平上提供基因或蛋白质表达的信息。提供类的表达和空间组织的并排视图,就可使用Cellar分析此类数据。为了说明这一点,作者分析了CO-DetectionbyindEXing(CODEX)空间蛋白质组学数据。使用了一个包含个细胞的淋巴结数据集,聚类结果显示在图2中,以及这些细胞的相应图块。鉴于此数据集中描述的蛋白质数量较少,并非所有类都可以分配到独特的类型,尽管根据Cellar中的差异基因分析已分配了几个。Cellar与聚类和空间图像中的细胞颜色相匹配,从而更容易识别特定的组织原则及其与所描述的细胞类型的关系。图2中的空间图显示B细胞紧密聚集在一起,并被T细胞和淋巴中的其他细胞类型包围。B细胞类还包含增殖细胞的子集。

图2Cellar中的CODEX数据分析

多模态联合分析

最后,作者使用Cellar来联合分析来自两种不同模态的数据。为此,作者使用了SNARE-seq肾脏数据集,该数据集分析了个细胞的转录组和染色质可及性。在这里,作者首先在染色质形态上运行cisTopic,并通过在推断的cis-regulatory主题上运行Leiden来确定类分配(图3a)。使用这些标签来可视化图3b中的表达数据。这可以使用Cellar的双模态轻松实现,该模态允许基于细胞ID的标签从一种模态转移到另一种模态。Cellar识别了差异基因,使用这些基因来绘制细胞类型。例如,类1是基于已知标记物(SLC5A12)和GO术语分析分配的。

图3Cellar中的SNARE-seq数据分析

3

总结与讨论

总而言之,Cellar是一款易于使用、交互式且全面的软件工具,用于在单细胞研究中分配细胞类型。Cellar使用Dash框架用Python编写,用于处理大型数据集的高效操作和数据结构。其中包括在内存映射模态下使用AnnotatedData对象,该模态允许通过使用很少的系统内存来分析大型数据集。Cellar支持多种类型的分子测序和成像数据,并实现了几种流行的可视化、聚类和分析方法。Cellar已被用于注释来自多个平台和组织的单细胞数据。这些带注释的数据集(主要来自HuBMAP)可以作为参考将标签传输到其他数据集。对于作者的HuBMAP注释数据集目前不支持的组织,Cellar提供了几个外部功能富集数据集,结合用户对特定标记物的知识,有助于分配决策。作者希望Cellar能够提高单细胞研究中细胞类型分配的准确性和易用性。

参考资料

Hasanaj,E.,Wang,J.,Sarathi,A.etal.Interactivesingle-celldataanalysisusingCellar.NatCommun13,().

1
查看完整版本: NatCommunCellar一个交