北京时间年8月8日晚23时,美国生物科技公司CalicoLifeSciences研究员袁瀚与DavidKelley在NatureMethods上发表了题为”scBasset:sequence-basedmodelingofsingle-cellATAC-sequsingconvolutionalneuralnetworks”的研究成果。
该论文介绍了一种新的基于深度卷积神经网络的对单细胞ATAC进行建模的方法——scBasset。scBasset在多个下游任务中展现了最先进的性能,包括细胞聚类,去噪,消除批次效应以及转录因子活动预测。
袁瀚为论文第一作者及通讯作者,DavidKelley为论文通讯作者。
SinglecellATAC-seq(scATAC)可以在单细胞水平上揭示表观基因组景观。这项技术已经成功的被应用于获得细胞类型,揭示细胞异质性的调控机制,绘制与疾病相关的调控元件,以及重建分化轨迹。然而由于数据高纬性和稀疏性的特点,scATAC的分析依然面临着大量挑战。已有的scATAC分析方法大致可以分为两种:利用DNA序列的模型,和不依赖DNA序列的模型。不依赖DNA序列的模型(例如PCA,VAE)利用peak-by-cellmatrix中具有生物学意义的协方差来对细胞进行有效的表示(embedding)。这些方法依赖于额外的工具才能建立染色质开放区域(chromatinaccessibility)与转录因子(transcriptionfactors,TFs)之间的联系。另一方面,利用DNA序列的scATAC分析方法(例如chromVAR,BROCKMAN)虽然具有更好的可解释性,但由于模型相对简单,在学习细胞表示及可视化时表现较差。
在这项最新研究中,袁瀚等提出scBasset,一个基于DNA序列的深度卷积神经网络(CNN),来对scATAC数据进行建模。在bulk数据中,CNN已经展示了预测表观遗传图谱的最先进性能,并已成功用于遗传变异效应预测和转录因子语法推断。这类CNN模型一般用DNA序列作为输入,通过一系列的卷积层(convolutionallayer)以及全连接层(denselayer)预测输入序列在不同细胞类型中的可及性(accessibility)。研究人员将模型视为一个特征学习(representationlearning)机器。scBasset模型通过一系列的卷基层学习到了一个低维的sequenceembedding。模型的最后一层是一个将这个embedding用于预测每个单细胞可及性的线性变换。这个线性变换矩阵包含着每个细胞的向量表示(图1)。我们可以把向量的每个潜在特征(latentfeature)理解为代表着基于DNA序列的调控因素,例如转录因子结合点位或核苷酸组成。而线性变换的权重决定了每个细胞在多大程度上依赖于这些因素。研究人员将这些单细胞向量作为细胞表示,用于下游任务,例如可视化和聚类。scBasset在多个下游任务中展现了最先进的性能,包括细胞聚类,去噪,消除批次效应(batcheffect)以及转录因子活动预测。
图1,scBasset的框架结构
scBasset可以学习细胞表示。研究人员将scBasset最后一层的线性变换矩阵作为单细胞的低维表示。在三个不同的数据集上(Buenrostro,10xmultiomePBMC,10xmultiomemousebrain),研究人员展示了基于scBasset的细胞表示相比于其他方法展现出了更优秀的聚类性能(图2)。
图2,scBasset细胞表示相比于其他方法展现出了更优秀的聚类性能
scBasset可以用于消除数据集中的批次效应。为了应对数据中的批次效应(batcheffect),研究人员对模型框架进行了微调。具体来说,研究人员在卷积层之后增加了第二个全连接层,用以预测批次效应对可及性的贡献。在新的模型(scBasset-BC)中,与批次效应相关的可及性信息会被新的全联接层学习,而原有的全连接层仅会学习到有生物学意义的信息。研究人员在两个不同的数据集上比较了scBasset-BC与其他方法对于批次效应的消除效果,看到scBasset-BC可以在批次混合以及保留细胞的特异性之间获得最好的平衡(图3)。
图3,scBasset可以用于消除数据集中的批次效应
scBasset可以在单细胞、单点位分辨率下预测转录因子活动。转录因子活动是染色质可及性的主要驱动力,而转录因子和DNA的结合具有序列特异性。因为scBasset可以从DNA序列预测染色质可及性,研究人员认为scBasset模型学习到了转录因子的序列特异性,从而可用以预测单细胞中转录因子的活动。为了预测单细胞中的转录因子活动,研究人员可以将一对DNA序列输入经过训练的scBasset模型。其中一段是合成的随机序列,另一段把第一段序列的中间部分换成了TFmotif。比较scBasset对两段序列在每个细胞当中预测的可及性的差值,研究人员可以估计对应的转录因子在每个细胞当中的活动。分析显示,相比于chromVAR,scBasset可以更好的预测转录因子活动。另外利用insilicosaturationmutagenesis(ISM)的方法,研究人员甚至可以预测每一个核苷酸在每个细胞中对可及性的影响,并将他们与转录因子活动对应(图4)。
图4,scBasset可以在单细胞、单点位分辨率下预测转录因子活动
scBasset已经在github上开源共享(