主流大型网站开发语言调查,建设网站三要,如何写网络营销策划方案,门户网站建设情况汇报背景#xff1a;患者来源组织中的单个细胞#xff0c;每个都处于不同的病理阶段#xff0c;因此这种细胞变异性阻碍了随后的差异基因表达分析。 结果#xff1a;为了克服这种异质性问题#xff0c;作者提出了一种新的深度学习方法#xff0c;scIDST#xff0c;该方法可以…背景患者来源组织中的单个细胞每个都处于不同的病理阶段因此这种细胞变异性阻碍了随后的差异基因表达分析。 结果为了克服这种异质性问题作者提出了一种新的深度学习方法scIDST该方法可以在弱监督框架下推断单个细胞的疾病进展水平。推断出的疾病细胞显示出疾病相关基因的显著差异表达这在患者和健康受试者之间的比较分析中无法检测到。此外作者证明了scIDST预训练模型适用于多个独立的数据资源有利于推断与某些疾病相关的细胞。
scIDST是弱监督学习但不是多实例学习
来自Inferring Disease Progressive Stages in Single-Cell Transcriptomics Using Weakly-Supervised Deep Learning Approach 目录 背景概述scIDST用法 背景概述
在过去的几年中单细胞技术迅速发展并被应用在测量患者来源的组织以更好地了解和对抗各种疾病。与健康供体数据的比较分析被广泛用于识别潜在的疾病相关细胞比如NG分析报告。患者来源的生物标本由不同病理阶段的细胞混合物组成同样含有健康细胞。这种异质性模糊了患者和健康受试者之间的差异表达进一步阻碍真正疾病相关基因表达模式的识别。
传统上患者来源的单细胞数据的细胞异质性可以被基于聚类的方法解析。为了确定疾病特异性细胞状态作者对来自帕金森病PD患者和健康的年轻和老年供者的中脑单细胞RNA-seq进行了聚类分析例如Seurat的基于图的聚类降维后难以识别出PD患者独有或主要的簇
因此为了准确从单细胞数据中发现与疾病相关的分子元素基于疾病进展水平对细胞进行分类是至关重要的。目前深度学习在推断单个细胞的疾病进展方面的应用有限。其中一个主要挑战可能是难以训练模型并从二元诊断信息例如患者1或健康供体0回归连续疾病进展水平。为了克服这些问题作者提出了一种新的方法scIDST通过弱监督深度学习推断单细胞转录组谱中单个细胞的疾病进展水平。弱监督模型利用从一小部分标记数据集并对大型不清晰数据集给出弱标签。作者证明弱监督深度学习模型成功地分离出疾病相关基因表达异常的细胞推断出不同数据源中的病变细胞。
scIDST用法 弱监督深度学习模型由三个主要步骤组成i)自编码器引导的降维ii)概率标签的生成以及iii)使用多层人工神经网络对患病细胞进行分类。采用Tensorflow python库v2.9.0和Keras Tuner API v1.1.2实现。以下是scIDST的技术说明
准备单细胞数据和二进制标签 作为输入scIDST需要counts矩阵和二进制数据标签。二进制数据标签由用户根据患者/供体信息手动创建例如PD患者为1健康受试者为0并保存为csv格式。标签是细胞水平的PD患者的细胞标签全部为1。
预训练自编码器用于降维 该算法首先由一个自编码器组成该编码器是一个人工神经网络用于将scRNA-seq数据压缩到较低的维度。自编码器能够捕获数据之间的非线性关系并且比其他降维方法例如PCA更适合大型复杂数据集。除解码器的输出层使用sigmoid函数外在自编码器的每一层上采用双曲正切激活函数。该模型在10个epoch的归一化特征条形码矩阵上进行训练使用优化器函数例如Adam最小化预测输出与输入之间的平方差和的平均值即均方误差损失函数。
分配标签概率 采用Reef/Snuba算法实现二元标签到概率标签的转换。简而言之Reef/Snuba系统首先从一小部分降维单细胞数据集和二元标签中生成多个启发式算法例如决策树。然后计算每个启发式模型的置信水平以修剪低质量的启发式。Reef/Snuba迭代执行这些步骤约50次最终提供具有高质量启发式的概率标签。在scIDST管道中10%的单细胞数据集被随机选择并用于开发启发式算法然后将概率标签分配给其他90%数据集中的单个细胞。此过程重复多次例如10次并将概率标签的平均值用于后续分类器模型的训练。
Reef/Snuba算法生成的标签是概率标签soft形式可以抗噪声像知识蒸馏一样从而削弱伪标签中的噪声影响。所以得到概率标签再训练分类器。因此体现弱监督学习的主要是Reef/Snuba算法生成的标签这一步。