Abstract: | 单细胞测序使得破译生物体内细胞的类型和构成成为可能,其中,单细胞染色质开放性测序(single-cell chromatin accessibility sequencing, scCAS)使得人们能够从表观遗传学的角度进一步认识细胞个体。然而,scCAS数据分析面临着高维度、高噪声、极度稀疏、极度二值化等挑战。针对scCAS数据的细胞类型辨识问题,现有的方法主要基于非监督学习直接对数据进行建模,难以有效挖掘数据信息。为此,我们提出了弱监督、可解释的概率生成模型RA3。RA3利用已有的海量测序数据作为参考,有效地刻画细胞异质性,并成功应用于细胞发育轨迹推断和基序富集等下游分析。同时,我们开发了全基因组染色质开放性注释平台OpenAnnotate,不仅可以快速构建RA3所需的参考数据,而且已被成功应用于多项基因调控机制研究。此外,针对scCAS数据细胞类型注释中的监督学习问题,我们提出了基于贝叶斯神经网络的概率生成模型EpiAnno。EpiAnno充分利用已有的细胞图谱,准确注释细胞类型并识别细胞类型特异的基因组区域,提供良好的模型解释性,而且能够有效仿真scCAS数据 |