对于许多人来说,年“阿尔法狗”对阵世界围棋冠*李世石的世纪之战可能还历历在目。而现在,这家“阿尔法狗”背后的人工智能企业DeepMind正在又一次创造历史——
这次,他们不再局限于与人类在竞技体育上一争高下,而是直接将目光投向了目前科学领域最棘手的问题之一:预测蛋白质。
实际上,在此前,对于人类研发治疗阿尔茨海默症、糖尿病药物时,蛋白质折叠一直是个大问题,曾经也有科学家尝试用超级计算机折叠蛋白质,但是效果并不是很理想。
据《卫报》报道,就在12月2日,在墨西哥坎昆举行的一场国际会议上,DeepMind最新人工智能程序AlphaFold(阿尔法折叠)被确认,在根据基因序列预测出蛋白质的3D形状这项任务上击败了所有竞争者,最终预测准确率超过一半。
“AlphaFold是该公司首个证明,人工智能研究可以驱动和加速科学新发现的重要里程碑,”DeepMind方面表示。
▲此前,科学家发现了一种蛋白质是乳腺癌生长和扩散的关键驱动因素图据卫报
“蛋白质折叠界的奥运会”取得惊人成绩
实际上,早在年,DeepMind开发的程序AlphaGo击败世界围棋冠*李世石之后,开发团队就已经将目光投向了研究蛋白质折叠的领域。
尽管围棋之类的游戏已经被证明是一种对于AI程序功能的极好测试方式,但是对于研发团队来说,在这些项目上与人类一争高下显然不是他们的最终目的。
“与世界冠*下围棋的意义,从来不在于赢得比赛本身,最终目的是为了发展算法,解决像蛋白质折叠这样的问题。”DeepMind联合创始人兼首席执行官戴米斯·哈萨比斯(DemisHassabis)表示。
▲阿尔法狗与李世石的对弈图据美联社
而这一次,DeepMind让AlphaFold参加了结构预测(CASP)的关键比赛,这是一项每两年举办一次的,堪称“蛋白质折叠界的奥运会”,吸引了来自世界各地的研究团队。
这一比赛的目的是为了从他们的氨基酸列表来预测蛋白质的结构。此前,这些列表已经在比赛前几个月时间中,每隔几天发送给参赛的团队。在比赛最终结束前,这些蛋白质的结构已经通过费力又费钱的传统方法破解,但还没有公开,最终提交最准确预测的团队将获胜。
尽管这次是AlphaFold首次参赛,但是,它取得了惊人的成绩——
在发给比赛团队的43种蛋白质中,AlphaFold有25种预测最接近正确结果;而在同一类别中排名第二的选手,仅在43种蛋白质中,有3种结果预测的最接近正确结果。
与此前的“阿尔法狗”相同的是,AlphaFold构建的模型都依赖深度神经网络,这些经过训练的神经网络可以从基因序列中预测蛋白质的属性。
在构建的过程中,DeepMind在数千已知的蛋白质上训练了一个神经网络,直到它可以仅凭氨基酸预测蛋白质的3D结构。此后,给定一种新的蛋白质时,AlphaFold可以利用神经网络来预测氨基酸对之间的距离,以及连接它们的化学键之间的角度,最后调整初步结构以找到能效最高的排列。
根据DeepMind在官方博客中针对AlphaFold发布的科普性文章,他们这样解释道:“我们训练了一个神经网络,来预测蛋白质中每一对残基之间的距离分布,然后将这些概率打成一个分数,用这个分数来评估预测的蛋白质结构有多准确;我们还训练了一个单独的神经网络,用来估计建议预测结构和实际结构之间的差距。”
据悉,在项目之初,AlphaFold花了两周时间来预测其第一个蛋白质结构。但现在,这一工作在几小时内就可以完成。
▲一种用AI算法做出的动画,用于预测CASP13目标T的结构图据DeepMInd