图卷积网络集成多组学数据分类新算法——MOGONET
本文插图
导语
生物学中将研究同一类型数据称为某某组学 。 作为最典型的复杂系统 , 生物体的复杂性 , 使其发生的改变 , 会体现在多种类型的数据中 。 由此 , 通过整合多组学数据 , 可以更好地理解生物体的复杂性 。 最近一篇Nature Communications论文提出了新算法MOGONET 。 作为一种基于图网络、适用于多种组学数据的有监督算法 , MOGONET可以进行多组学数据集成 , 并找出对应的生物标志物 。
本文插图
论文题目:
MOGONET integrates multi-omics data using graph convolutional networks allowing patient classification and biomarker identification
论文地址:
https://www.nature.com/articles/s41467-021-23774-w
为何要使用多组学数据
组学技术的快速发展使得个体化医学能够利用具有前所未有细节的分子水平数据 。 例如mRNA 表达量、DNA 甲基化和 microRNA 表达量 , 可基于同一组样本中获得多组学(multi-omics)数据 。 然而每种组学技术只能捕捉到生物复杂性的一部分 , 唯有整合多种类型的组学数据 , 才可以为生物过程提供更全面的视角 。 在疾病研究中 , 集成多组学数据 , 可提高患者临床结果预测的准确性 。 因此 , 需要新的分析方法来有效地发掘多组学数据中的相互作用 , 利用好数据间的互补关系 。
以前 , 由于收集和注释数据的费用高昂 , 以及缺乏关于疾病亚型的知识 , 带标记的生物医学数据很少 。 因此 , 大多数现有的多组学整合方法侧重于无监督的方法 , 在没有额外的表型信息时 , 试图从已确定的样本群中提取生物学见解 。 然而 , 由于组学技术和个体化医学数据库的快速发展 , 使带有详细注释的组学数据集正以前所未有的数量和速度变得可用 。
之前对生物医学分类多组学数据进行有监督分类的方法分为基于特征连接的策略 , 和基于集成的策略 。 基于连接的方法通过直接将多组学的输入数据特征合并 , 来训练分类模型 , 从而集成了不同的组学数据;而基于集成的方法综合了不同分类器的预测结果 , 每个分类器都对同组学数据单独训练 。 然而 , 这些方法没有考虑不同组学数据之间的相关性 , 可能导致预测结果偏向于某些组学数据的影响 。
随着深度学习在各种任务中的不断推进 , 越来越多的多组学集成方法开始利用深度神经网络 , 但现有的方法都是基于全连通网络的 , 没有通过相似性网络有效地利用样本之间的相关性 。 此外 , 基于深度学习的方法往往在输入空间或学习特征空间集成不同的组学数据 , 但不同类型的组学数据也可在抽象程度较高的隐空间中呈现独特的特征 。 故而利用不同组学数据类型之间的相关性 , 可进一步提高模型性能 。
- 自媒体|微博CEO王高飞:践行社交媒体平台责任 积极发挥引领作用
- 高原|日经:日本政府将拨款52亿美元资助台积电等企业建厂
- 5G|小米Q3 781亿、华为巴西5G市场新突破、台积电生产iPhone15芯片
- 华为|自作孽不可活,台积电、三星为老美的骚操作买单,华为却笑出了声
- 半导体|套取台积电机密信息后,美国又拉拢马来西亚,欲加强行业透明度
- 游戏本|72万跑分+5065mAh+台积电6nm,跌至1699元,售价更亲民了
- |亚马孙雨林砍伐面积增加22%,改变了全球气候,逼得鸟类体型缩小
- 台积电|自相矛盾!让台积电、三星上交数据,自己却不让英特尔在我国建厂
- 苹果|电脑应该压缩体积和功耗了
- 小米科技|小米大整合!小米有品合并,积分商城关停