导读:诺贝尔奖得主哈萨比斯爆料,虚拟细胞和超级智能的时代即将来临!并亲授逆袭科技巨头的AI创业秘籍
(来源:图灵人工智能)
您想知道的人工智能干货,第一时间送达
作者 | 蓝血创作组
来源 | 蓝血研究(lanxueyanjiu)
本文内容整理自德米斯·哈萨比斯(Demis Hassabis)在Y Combinator频道的专访。
德米斯·哈萨比斯拥有着科技界最具传奇色彩的职业生涯之一。他年少成名,曾是国际象棋神童,17岁便成为电子游戏设计师,随后获得神经科学博士学位,并一手创立了DeepMind。他的实验室不仅攻克了围棋难题,还通过AlphaFold破解了困扰人类已久的蛋白质结构预测问题,并慷慨地将其免费提供给全球每一位科学家。这项伟大的工作为他赢得了2024年的诺贝尔化学奖。如今,他执掌Google DeepMind,继续向着他少年时代就设定的终极目标全速迈进:实现AGI(通用人工智能)。
在本期《如何构建未来》(How to Build the Future)的特别直播节目中,他与Y Combinator总裁加里·谭(Garry Tan)展开深度对话。
Demis Hassabis 回顾了自己的职业生涯,并深入分析了 AGI、智能体、推理、记忆、科学发现等前沿议题。他认为当前的大模型范式(大规模预训练、RLHF、思维链)已构成 AGI 架构的核心基础,但依然缺失持续学习、长期推理以及高效记忆等关键能力。他强调,为实现真正的通用人工智能,智能体系统是必然路径,因为未来的 AI 必须能够主动完成复杂任务,而不是被动回答问题。
他谈到记忆问题仍未被解决,也批评当前依赖巨大上下文窗口的做法过于“暴力式”。强化学习仍被低估,许多来自 AlphaGo 的思路,如搜索、树结构推理,将在未来模型中重新焕发重要价值。他指出模型蒸馏正在快速提升,小模型的能力不存在明显天花板,未来在边缘设备本地运行强力模型将成为常态。
在推理方面,Hassabis 观察到当前模型存在“想太多”“陷入循环”以及缺乏自我监控的问题,这造成所谓“锯齿状智能”,即能解 IMO 题,却在简单逻辑上翻车。他认为这说明模型缺少深层自省机制。关于智能体,他认为目前所有智能体开发仍处在极早期,距离真正创造巨大价值还有几个月到一年的“临界点”。
在科学方面,他透露 DeepMind 正向“虚拟细胞”迈进,预计十年内能模拟完整细胞系统,并指出 AI 将成为科学史上的“终极工具”。他认为 AlphaFold 模式适用于所有拥有巨大组合搜索空间且目标函数明确的科学难题。未来 AI 将不仅验证假设,还将具备提出重大科学假设的能力,即通过所谓“爱因斯坦测试”。
对创业者,他建议选择结合深科技与 AI 的领域,尤其是那些涉及真实物理世界的硬核问题,因为这些领域能抵御基础模型迭代的冲击。他提醒年轻创业者思考 AGI 在旅程中途出现的影响,并构建即使在 AGI 时代仍有价值的系统。
访谈全文如下:
主持人加里: 德米斯·哈萨比斯(Demis Hassabis)拥有科技界最非凡的职业生涯之一。他年少时是国际象棋神童,17岁时设计了他的第一款热门电子游戏《主题公园》(Theme Park)。
随后,他重返校园,获得了认知神经科学博士学位,并在大脑如何运作记忆与想象力方面发表了基础性研究。2010年,他联合创立了DeepMind,使命只有一个:破解智能的奥秘。我认为他们自那时起就已经做到了。
他的实验室取得的成就,在当时大多数人看来还需要几十年才能实现。AlphaGo击败了围棋世界冠军;AlphaFold破解了蛋白质结构预测这一生物学界50年来的重大挑战,并将成果免费提供给全球科学家。这项工作使他获得了去年的诺贝尔化学奖。
如今,德米斯领导着Google DeepMind,正在打造Gemini,并朝着他青少年时期就设定的目标迈进:通用人工智能(AGI)。让我们欢迎德米斯·哈萨比斯。
你思考AGI的时间比几乎任何人都长。当你审视当前的范式,即大规模预训练、人类反馈强化学习(RLHF)、思维链(Chain of Thought)时,你认为AGI的最终架构中,我们已经掌握了多少?而目前最根本缺失的又是什么?
德米斯·哈萨比斯: 首先,感谢加里(Garry)精彩的介绍。很高兴来到这里,感谢你们的欢迎。这个空间非常棒,我应该常来。看到你们在这里工作,非常令人鼓舞。
你刚才提到的那些组件,我确信它们会成为AGI最终架构的一部分。它们已经取得了长足的进步,我们也已经证实了它们具备的诸多能力。我无法想象几年后我们会突然发现这其实是一条死胡同,这完全不合逻辑。
然而,在已知的有效方法之上,可能仍然缺失一两样东西。持续学习(Continual Learning)、长期推理和记忆的某些方面仍未解决,如何让系统在各方面保持更高的一致性也是一个挑战。我认为,这些都是实现AGI的必备要素。
也许现有的技术通过一些创新和渐进式的改进就能扩展并解决这些问题,但也可能还存在一两个尚未突破的重大理念。我不认为会超过一两个,而对于究竟是前者还是后者,我认为这两种可能性大约是五五开(50/50)。当然,在Google DeepMind,我们正同时致力于探索这两种可能性。
主持人加里: 我想,在研究一系列智能体系统(Agentic Systems)时,最让我感到不可思议的是,我们在多大程度上是在反复使用同一套固定的权重。因此,持续学习(Continual Learning)这个概念才如此引人入胜,因为目前我们只是在用“胶带”勉强拼凑,比如利用夜间的“梦境周期”之类的方法。
德米斯·哈萨比斯: “梦境周期”的运作方式确实很酷。我们过去是在巩固情景记忆(Episodic Memories)的背景下思考这个问题的。事实上,这就是我博士期间研究的内容:海马体如何运作,并将新知识优雅地整合到现有的知识库中。大脑在这一点上表现得非常出色,尤其是在睡眠(如快速眼动睡眠期)期间,通过重放重要的片段,让你能够从中学习。
事实上,我们最早的雅达利(Atari)程序DQN能够掌握游戏的方法之一,就是使用了经验回放(Experience Replay)。我们从神经科学中借鉴了这个概念,并将成功的轨迹多次重放。那还是2013年,处于人工智能的“黑暗时代”,但那是一个非常重要的里程碑。
我同意你的观点,我们目前通过简单地将所有内容塞入上下文窗口(Context Window),确实像是在用“胶带”东拼西凑。这感觉多少让人有些不满意,对吧?即使我们是在机器上工作,而不是在生物大脑上,即使我们可能拥有数千万个token的上下文窗口或记忆,但在查找并确定当前决策所需的相关特定信息时,仍有巨大的成本。
即使你有能力存储所有数据,这种成本也是不可忽视的。我认为在记忆这类领域,确实还有极大的创新空间。
主持人加里: 我是说,不可思议的是,感觉一百万个token的上下文窗口其实已经大于……我的意思是,老实说,它已经非常大了。
德米斯·哈萨比斯: 对大多数它应有的应用场景来说,这已经足够大了。如果你把上下文窗口看作工作记忆(Working Memory),人类大约只能记住几个数字,也许十几个,平均是七个。而我们现在拥有一百万甚至1000万个token规模的上下文窗口。
但问题在于,我们试图把所有东西都塞进去,包括那些不重要的、甚至是错误的信息。目前这种方法相当暴力(Brute Force),这感觉不太对劲。
真正的问题在于,如果你是一个正在处理实时视频的机器人(Android),却只是天真地记录所有token,那么一百万个token其实并不多,仅够存储约20分钟的画面。因此,如果你想要一个能理解你一两个月生活经历的系统,你必然需要更大的容量。
主持人加里: DeepMind历史上一直倾向于强化学习和搜索,如AlphaGo、AlphaZero和MuZero。这种哲学在多大程度上融入了你们今天构建Gemini的过程中?强化学习(RL)现在是否仍被低估了?
德米斯·哈萨比斯: 我认为它可能确实被低估了。它的热度总是起起伏伏。自DeepMind创立之初,我们就一直在研究智能体(Agents);实际上,这就是我们当时声称在做的方向。所以所有的Atari项目,尤其是AlphaGo,它们本质上都是智能体系统。我们的意思是,这些系统能够自主实现目标、做出主动决策并进行规划。
当然,我们最初是在游戏领域进行研究,这在技术上更具可行性;随后转向日益复杂的游戏,比如AlphaGo之后的《星际争霸》(StarCraft),即AlphaStar。基本上,我们挑战了现有的各类游戏。接下来的问题就变成了:你能否将这些模型泛化为世界模型(World Models)或语言模型,而不仅仅是简单或复杂游戏的模型?这正是过去几年我们一直在攻克的难题。
实际上,你可以认为我们今天所做的许多工作——所有带有思考模式(Thinking Modes)和思维链(Chain of Thought)推理的前沿模型——其实都是AlphaGo首创技术的回归。我确实认为,我们当时所做的工作与今天息息相关,我们正以更通用的方式在更大的规模上重新审视那些旧理念。
这包括蒙特卡洛树搜索(Monte Carlo Tree Search)以及增强我们当前强化学习(Reinforcement Learning)的其他方法。我认为,无论是来自AlphaGo还是AlphaZero的许多理念,对于当今的基础模型(Foundation Models)来说都非常重要。我相信,在未来几年的技术进步中,我们将看到更多这类理念大放异彩。
主持人加里: 有一个问题想请教:很显然,现在我们需要越来越大的模型来实现更高的智能,但我们也看到模型蒸馏技术(Distillation)卓有成效,小模型的运行速度要快得多。据我所知,你们拥有非常出色的 Flash 系列模型,性能可以达到前沿模型(Frontier Models)的 95%,而推理成本却只有其十分之一,是这样吗?
德米斯·哈萨比斯: 我认为我们的核心优势之一在于,尽管你必须构建庞大的模型才能突破前沿能力的上限,但我们最大的长处是能够非常迅速地将这些能力蒸馏并浓缩到较小的模型中。我们是模型蒸馏流程的发明者,拥有像 Jeff (Jeff Dean)、Oriol (Oriol Vinyals) 等顶尖专家,并且在该领域至今保持着世界领先地位。
我们也有迫切的需求去推进这项工作,因为我们服务着世界上规模最大的 AI 业务矩阵。这包括带有 AI 概览(AI Overviews)的搜索业务,以及 Gemini 应用。现在,Google 的每一个产品——比如地图、YouTube 等——都在日益深度整合 Gemini 或其相关技术。
我们的十几个产品覆盖了数十亿用户,这就要求这些服务必须以极快、高效、低成本且低延迟的方式交付。这为我们提供了强大的动力去极致优化 Flash 和“Flash-light”轻量级模型,使其极度高效,也希望这些模型能为各位日常的工作负载提供巨大的价值。
主持人加里: 我很好奇这些小模型的智能上限究竟在哪里。蒸馏过程是否存在某种物理极限?比如,一个 50B 或 400B 的模型,未来有可能达到当今顶级大模型的水平吗?
德米斯·哈萨比斯: 我们目前还没有触及任何形式的信息极限(Information Limit),或者至少目前没人知道极限是否已至。也许在未来的某个临界点,信息密度会达到一个我们无法突破的瓶颈,但目前我们并未将其视为前提假设。
我们的假设是:在我们的前沿模型发布半年甚至一年后,你就能看到这些强大的能力被蒸馏到极其小巧、甚至能在边缘设备直接运行(Edge-ready)的模型中。我们已经在 Gemma 模型中见证了这种有效性——希望大家用得顺手——尤其是 Gemma 2 模型,我认为它们在各自的参数量级下表现得异常强大。
这种进步高度依赖于不断演进的蒸馏技术,以及我们在极小模型上死磕效率的专注。所以,目前我并没有看到任何理论上的天花板,我们距离所谓的极限还相当遥远。
主持人加里: 这太不可思议了。当下我们看到的一个非常震撼的现象是,工程师的产出速度已经达到了六个月前的 500 到 1000 倍。正如 Steve Yegge 所言,坐在这个房间里的一些人,现在做的工作量大约是 2000 年代 Google 工程师的一千倍。
德米斯·哈萨比斯: 这确实非常令人振奋。我认为小模型有着广泛的应用前景。最直接的好处自然是成本,但更重要的是速度——如果你从事编程等任务,极快的推理速度能让你实现更高速的迭代。此外,特别是当你与系统进行人机协作时,市场对快速模型的需求极大;它们或许并未达到“前沿”级别(性能可能只有 90% 或 95%),但往往已经足够好用了。事实上,迭代速度的飞跃所带来的巨大收益,足以弥补那 10% 的性能折损。
另一个重要的趋势是在边缘侧运行这些模型。这不仅大幅提升了效率,更是出于对隐私和安全的考量。考虑到各种智能设备都在处理高度私密的信息,你当然希望数据能够保留在本地。
你也可以将其应用到机器人领域,比如家用机器人。我相信人们会需要非常高效且强大的本地模型,并且它们能与云端的庞大前沿模型进行端云协同(Orchestration)。只有在特定情况下,你才会把任务委托给云端,而所有的视听数据都在本地处理以确保隐私。我认为这将是一个非常理想的终极形态。
主持人加里: 回到上下文与记忆的话题,当前的 AI 模型是无状态的(Stateless)。试想一下,如果未来开发者使用的是一个具备持续学习(Continual Learning)能力的模型,那会是一种怎样的体验?对于如何去引导(Steer)这样的模型,你有什么想法吗?
德米斯·哈萨比斯: 这个话题非常有意思。在我看来,缺乏持续学习能力,正是当前阻碍智能体(Agents)独立完成复杂任务的主要瓶颈。 目前它们在执行任务的某些局部环节时非常得力,你甚至可以将它们拼接起来实现很酷的功能,但它们无法根据你所处的环境上下文做出自适应调整。这是它们想要实现“下达指令后无需干预(Fire and forget)”并自主解决问题时所缺失的关键一环。它们必须有能力学习并理解你将其置入的特定业务环境。所以,赋予 AI 持续学习的能力,是我们通向通用人工智能(AGI)必须跨越的鸿沟。
主持人加里: 我们目前在推理(Reasoning)能力上究竟走到了哪一步?现在的模型能够展现出令人惊艳的思维链(Chain of Thought),但它们在解决一些聪明的本科生绝不会犯错的问题时依然会翻车。具体来说,现在需要突破什么?你对未来的推理能力有什么期待?
德米斯·哈萨比斯: 我认为在思维范式(Thinking Paradigms)上,未来还有极其巨大的创新空间。目前的做法依然相当简单粗暴,本质上依靠的是算力堆砌(Brute Force)。我们可以设想一种前景广阔的路径:对思维链进行实时监控,甚至在思考的半途中进行系统干预。
我经常有一个直观的感受:不论是我们的系统还是竞争对手的系统,它们似乎经常“想太多”,本质上是陷入了死循环。比如,我有时候会和 Gemini 下国际象棋。有趣的是,目前所有领先的基础模型(Foundation Models)在博弈类游戏上表现都很差。去观察它们的思考轨迹(Thinking Traces)是一件极其酷的事情,因为这个过程非常透明。我能很快看出模型是否钻了牛角尖;它的推理过程在做什么、是否有效,完全是可被验证的。
我们观察到的现象是:有时模型评估了一步棋,意识到这是个严重的失误(Blunder),但它又找不到更好的出路。于是,它转了一圈后又退回去,硬着头皮走了那步错棋。在一个高精度的推理系统中,这种行为是绝对不该发生的。尽管或许只需要一两处微调就能解决,但这背后反映的差距依然巨大。
这就是为什么你会看到所谓的“锯齿状智能(Jagged Intelligence)”。一方面,模型能解开国际数学奥林匹克竞赛(IMO)的金牌级难题,这极其困难;但另一方面大家也都见过,如果你稍微换个方式提问,它依然会犯非常低级的基础数学或逻辑错误。对我而言,这说明模型在对其自身思维过程的自省(Introspection)能力上,依然缺失了关键的一环。
主持人加里: 智能体现在火得一塌糊涂。有人认为这全是炒作,但我个人觉得一切才刚刚拉开序幕,其潜力极其疯狂。对比外界铺天盖地的炒作,DeepMind 的内部研究结论是怎样的?智能体的真实能力目前究竟处于什么阶段?
德米斯·哈萨比斯: 我深有同感。我完全同意你的观点,我们才刚刚起步。要通往通用人工智能(AGI),就必须拥有一个能主动为你解决问题的系统。这一点我们一直都很明确,因此智能体(Agents)正是实现这一目标的必由之路。可以说,我们才刚刚踏上征程。
我们都在逐渐摸索最高效的工作方式,在这方面,你通过个人的实验走在了前列;相信在座的许多人也是如此。关键在于,你如何将它融入你的工作流(Workflow),让它不再仅仅是个“锦上添花”的玩意儿,而是真正开始承担基础性的重任。我的感觉是,目前大家都在进行各种尝试,但直到最近几个月,我们才算是找到了真正有价值的落地场景。这项技术可能也才刚刚发展到这个节点——它不再只是个玩具或演示demo,而是真正能为你的时间和效率创造实际价值。
我经常在想,我看到很多人一次性挂起几十个智能体,连续运行 40 个小时,但我还没看到有什么产出能配得上这么大的投入。不过我相信这一天终会到来。我们目前仍处于实验阶段。我们还没看到哪款登顶应用商店榜首的 3A 级大作是完全靠“意念编程(Vibe Coded)”做出来的。我写过代码,相信大家也都做过一些令人惊艳的小Demo——现在我半小时就能做出一个主题公园的原型,而这在我 17 岁那年要花上整整半年时间。这简直令人无比震撼。
我觉得,如果我花整整一个夏天去打磨,绝对能做出极其不可思议的东西,但它依然需要匠心、人类灵魂与品味的注入。你必须确保,无论你在构建什么,都把这些内核带入其中。感觉我们似乎还没完全达到那个临界点,否则,为什么我们还没看到哪个小屁孩做出一款销量 1000 万份的爆款游戏呢?按理说,以目前的投入力度,这应该是可以实现的。无论是流程还是工具,似乎总还欠缺了点什么。我不太确定,在座各位可能比我更清楚,因为我相信你们都在疯狂尝试。目前我还没看到这项技术彻底释放全部价值后我所期待的最终形态,但我认为,在未来 6 到 12 个月内,一定会水落石出。
主持人加里: 这在一定程度上取决于有多少工作能实现自动化。我的意思是,我不认为我们会最先看到完全自主的 AI。我们更可能最先看到的,是在座的各位实现了千倍(1000x)的效率跃升。
德米斯·哈萨比斯: 没错,这正是你应该最先看到的。随后,你们当中的许多人,比如某些游戏公司或其他类型的企业,会利用这些工具打造出畅销的应用或游戏。这是第一阶段。再往后,才会有更多的环节走向自动化。
主持人加里: 我的意思是,这其中有一部分原因是有人类参与其中,而目前人类还不愿承认这些全是智能体的功劳。
德米斯·哈萨比斯: 我想这可能引出了我们想要探讨的创造力问题。关于这一点,我经常举例,如果我们回顾一下曾做过的项目,比如 AlphaGo:大家都知道,在第二局中它走出了名垂青史的“第 37 手”(Move 37)。对我而言,我一直在等待这样一个时刻,以此作为启动像 AlphaFold 这类科学项目的契机。事实上,当年从首尔回来的第一天,我们就启动了 AlphaFold 项目,那已经是 10 年前的事了。这次活动结束后,我也将前往韩国庆祝 AlphaGo 十周年。
但仅仅想出“第 37 手”是不够的,那确实很酷且非常实用,但 AI 能发明围棋吗?这才是我的终极诉求:一个当你给出顶层描述后,就能为你发明出一款游戏的系统。比如,一款五分钟就能学会规则,却需要几辈子去精通的游戏;它在美学上极致优雅,同时又能让你在一个下午轻松对弈一局。
你可以想象,这就是我会提供的顶层描述,而我希望得到的产出——也就是系统反馈给我的东西——就是围棋。显然,现今的系统还做不到这一点。问题在于为什么做不到?我认为这里面仍然缺失了最关键的一环。
主持人加里: 也许在座的某个人就能把它做出来。
德米斯·哈萨比斯: 如果真是这样,那答案就是:其实什么都不缺,问题仅仅在于我们使用系统的方式。这可能就是真正的答案。也许我们现有的系统已经具备了这种潜力,只需要一位天赋异禀的创作者,由他来提供那种创造性的驱动力——这也正是项目的灵魂所在,同时他还要对工具了如指掌,几乎达到与工具“人剑合一”的境界。如果你像在座的许多人一样,没日没夜地钻研这些工具,并将这种极致的投入与深度的创造力结合起来,我完全可以想象,更不可思议的奇迹一定会被创造出来。
主持人加里: 让我们把话题转向开源,也就是真正开放的开源以及开放权重(Open Weights)。最近发布的 Gemma,你们打造了性能极强、开放且触手可及,甚至能真正在本地运行的模型。你认为这是否意味着 AI 将真正掌握在用户手中,而不再主要被束之高阁于云端?这会改变有能力使用这些模型进行构建的人群格局吗?
德米斯·哈萨比斯: 我们是开源和开放科学的坚定支持者。你一开始提到了 AlphaFold,我们已经将其完全免费公开;直到今天,我们所有的科学成果依然会发表在顶级期刊上。我们希望打造在同等参数规模下世界领先的模型,这也正是我们希望通过 Gemma 所实现的目标。我们非常坚定地走在这条道路上,也希望大家都能去尝试、去构建,并享受使用 Gemma 的乐趣。仅仅在两周半的时间里,它的下载量就达到了大约 4000 万次,这让我们感到无比振奋。
我也认为,在开源领域拥有一套西方技术栈(Western Stacks)是非常重要的。显而易见,中国的许多模型非常出色,目前在开源领域处于领先地位。我们相信,Gemma 在其同等体量下,在各方面都具有极强的竞争力。
从我们的视角来看,这里面牵涉到资源、人才和算力的问题。没有人拥有如此充足的闲置算力,能轻而易举地打造出两个参数拉满、属性截然不同的前沿模型——这难度极大。就目前而言,我们决定将我们的边缘端模型(Edge Models)——即我们计划部署在 Android 手机、智能眼镜和机器人上的模型——以开源的形式提供。因为一旦将模型部署在这些终端设备上,它们本身就很容易被破解和提取,既然如此,还不如索性彻底开源。
我们已经决定在所谓的“纳米级(Nano Size)”层面统一这种策略,这也完美契合我们的战略布局。我们希望有尽可能多的人基于它去构建应用,当然,我们自己也会在这条路上一路狂奔。
为什么要打造原生多模态的 Gemini
主持人加里: 在我们上台之前,我给你演示了我自己版本的“萨曼莎”(电影《Her》中的 AI 助手 Samantha)。说实话,在你面前做演示让我心里相当忐忑。但结果它完美运行了,这太神奇了。Gemini 是一开始就被设计为原生多模态(Multimodal)的,我花了很多时间深度体验了各种模型。不得不说,就上下文的深度、工具的使用,以及直接与模型进行语音交互的能力而言,它真的是无可匹敌的,绝对是当之无愧的最好,没有之一。
德米斯·哈萨比斯: 我认为这是 Gemini 系列中一个仍被略微低估的方面:我们从一开始就将其构建为多模态(Multimodal)模型。实际上,与单纯专注于文本相比,这让它在起步阶段更具挑战性,但我们相信,从长远来看我们将从中获益。
我们现在已经在世界模型(World Model)构建方面看到了这一点,例如我们在 Gemini 基础上构建的 Genie 模型。我认为这对于机器人技术至关重要。这就是为什么在座许多人可能已经体验过的 Gemini Robotics,也将基于多模态基础模型(Foundation Models)来构建。我们认为,Gemini 在多模态方面的强大能力,正是我们的核心竞争优势。
我们正越来越多地将它应用于 Waymo 等项目中。试想一下,如果数字助理能陪伴你进入现实世界——无论是在手机、智能眼镜还是其他设备上——它们都需要理解你周围的物理世界、直观物理(Intuitive Physics)以及你所处的物理环境。这正是我们系统的强项,我想这也是为什么你们在自己的应用中用得很顺手的原因。我们将继续深耕这一领域,我认为在处理这类问题上,我们拥有绝对领先的优势。
主持人加里: 推理(Inference)成本正在迅速下降。当推理几乎变得免费时,会有哪些新的可能?这又会如何改变你们团队实际的优化目标?
德米斯·哈萨比斯: 我不确定推理是否真的会完全免费。因为存在杰文斯悖论(Jevons Paradox)等因素,我认为我们最终会耗尽所有能弄到手的算力资源。
你可以想象数以百万计的智能体(Agents),或是智能体集群在任务上协同工作;你也可以想象单个或小群智能体在多个方向上同时思考,然后集成(Ensembling)这些结果。我们和在座的许多人一样,正在尝试所有这些方法,而这一切将吞噬掉所有新增的可用推理算力。
也许有一天,推理成本真的能趋近于零。当然,如果我们解决了可控核聚变、超导体问题,或者研发出完美的电池——我相信通过材料科学我们最终能做到——能源成本将几乎降为零。然而,芯片和其他物理组件的制造依然存在成本。
我认为,至少在未来几十年内,物理制造仍会是一个瓶颈。既然如此,推理端依然会存在算力分配的限制。你仍然需要高效地使用它。
主持人加里: 幸运的是,小模型正变得越来越聪明,这非常棒。现场有很多生物和生物科技领域的创始人,我已经看到了几位。AlphaFold 3 将我们的研究范围从蛋白质扩展到了更广泛的生物分子。我们距离模拟完整的细胞系统还有多远?或者说,这仍然是一个本质上更难、完全不在同一量级的科学难题?
德米斯·哈萨比斯: 在发布 AlphaFold 2 之后,我们从 DeepMind 剥离出的 Isomorphic Labs 进展异常顺利。它的目标远不止于 AlphaFold。大家知道,AlphaFold 只是药物发现(Drug Discovery)过程中的一环,而我们正在攻克相邻的生物化学和化学难题,试图设计出具备特定性质的理想化合物。很快,我们将在这个领域发布一些重磅消息,我认为这方面的进展非常顺利。
最终,我们的目标是构建一个完整的虚拟细胞(Virtual Cell)。我在很多科学演讲中都提到过这一点:建立一个功能完备的细胞模拟系统,你可以对其施加扰动(Perturb),且输出结果与真实实验数据足够接近,从而具备实用价值。这样你就可以跳过漫长的搜索步骤,生成大量合成数据(Synthetic Data)来训练其他模型,进而预测真实细胞的行为。我认为,距离实现完整的虚拟细胞大概还有 10 年的时间。
在 DeepMind 的科学团队,我们正率先从“虚拟细胞核”入手,因为它相对独立且自成一体。处理这类问题的诀窍在于:你能否精准切出复杂系统的一个切面?最终你当然希望能模拟整个人体,但你能否以恰当的细节颗粒度进行建模呢?你需要找到一个足够独立、能够建模并近似模拟其输入和输出的切片,然后全神贯注于这个系统。从这个角度来看,细胞核是一个非常有趣的突破口。
另一个瓶颈在于目前的数据还远远不够。我曾与许多从事电子显微镜和其他成像技术研究的顶尖科学家交流。如果我们能对活细胞进行成像而不将其破坏,那显然将颠覆整个游戏规则。因为这样一来,你就能把生物学难题转化为一个计算机视觉(Vision)问题,而这正是我们最擅长解决的。但就目前而言,我还不知道有哪种技术能在不破坏活体、动态细胞的前提下,提供纳米级的分辨率,让我们能观察到所有的内部相互作用。
在这个分辨率下确实可以拍摄静态图像,细节非常丰富且令人振奋,但这仍不足以将其转化为一个复杂的视觉问题。所以,这是其中一种潜在的解决路径:它可能是一个由硬件驱动、数据驱动的解决方案;或者,我们也可以为这些动态系统构建更强大的学习型模拟器(Learned Simulators),这是一种更偏向模型驱动的解决思路。
主持人加里: 你们一直在探索各种科学领域,不仅限于生物学,还包括材料科学、药物发现、气候建模以及数学。如果让你来预测,未来 5 年内哪个科学领域将发生最剧烈的变革,你的排行榜上会有哪些?
德米斯·哈萨比斯: 它们都非常令人兴奋。这正是我一直以来的核心热情所在,也是我 30 多年职业生涯中始终致力于 AI 事业的原因——我始终深信,AI 将成为科学研究的终极工具。它不仅能推动科学理解与发现、革新医学等领域,更能重塑我们对周围浩瀚宇宙的认知。
实际上,你刚才提到了我们最初确立使命宣言的方式——直到今天我们依然保持着这一初心——它分为两步:第一步是破解智能的奥秘(Solve Intelligence),即构建通用人工智能(AGI);第二步,是利用它来解决其他一切问题。后来我们稍微调整了表述,因为总有人问:“你们真的是指解决‘一切’问题吗?”没错,我们就是这个意思。我想现在人们已经开始理解这句话的真正分量了。具体而言,我的意思是用它来攻克科学领域中的其他“根节点(Root Node)”问题:那些一旦突破,就能直接开启整个全新研究分支或探索路径的基石性难题。
AlphaFold 就是我们宏大愿景的一个经典缩影。如今,全球有超过 300 万研究人员——几乎涵盖了所有生物学研究者——都在使用 AlphaFold。我的一些制药公司高管朋友告诉我,从现在起,几乎所有新药的研发过程中,都会在某个环节用到 AlphaFold。对此我们深感自豪,这也是我们希望 AI 能为这个世界带来的深远影响。
然而,我认为这一切仅仅是个开始。我想象不到有任何科学或工程领域是 AI 无法赋能的。至于你提到的那些领域,我认为我们目前正处于相当于当年“AlphaFold 1.0”的破局时刻:我们已经看到了极具潜力的初步成果,但尚未彻底攻克那些领域的终极挑战。即便如此,我认为在未来的几年内,无论是令人兴奋的材料科学还是数学,这些领域都会涌现出大量震撼的成果值得我们去探讨。
主持人加里: 在科学领域,这种感觉简直是普罗米修斯式的(Promethean,意指为人类盗来火种)。就像是,不可思议的超能力突然摆在了我们面前,你懂的。
德米斯·哈萨比斯: 确实如此。当然,正如普罗米修斯的寓言所警示的那样,我们在使用这些工具时必须非常谨慎,要清楚它的用途,也要防范同样的技术可能引发的滥用问题。
主持人加里: 在座的许多人都在尝试创业,将人工智能应用于科学领域。在您看来,一家真正推动技术前沿的初创公司,与一家仅仅在基础模型(Foundation Model)外包了一层 API 就自称为“科学AI(AI for Science)”的公司,两者的根本区别在哪里?
德米斯·哈萨比斯: 我有一点建议。我在设想,如果我今天坐在你们的位置上,身处 Y Combinator 观察行业大势,我会怎么做。首先,你必须预判并卡位 AI 技术的发展轨迹,这也是其中的难点之一。
但我认为,将 AI 的发展轨迹与其他深科技(Deep Tech)领域相结合,蕴含着巨大的空间。我认为这个“甜蜜点”——无论是材料学、医学,还是其他极具挑战的硬核科学领域——正是那些跨学科团队的用武之地,特别是当它们涉及到真实的物理世界(原子世界)时。至少在可预见的未来,这些领域没有捷径可走。这也意味着,它们能够抵御基础模型下一次版本更新所带来的直接冲击。如果你在寻找具备技术护城河(防御性)的创业领域,这绝对是其中之一。
我一直钟情于深科技,所以对这类创业项目有所偏爱。我认为,凡是真正持久且有价值的事物,绝非轻而易举,这也是我始终被深科技吸引的原因。显然,在 2010 年我们刚起步时,人工智能正是如此。当时的投资人告诉我:“大家都知道这根本行不通。” 甚至在学术界,它也被视为一门我们在 90 年代尝试过却以失败告终的极其边缘的学科。
然而,只要你对自己的想法抱有信仰与确信——清楚为什么这次会有所不同,或者你的背景赋予了你怎样独特的交叉优势——你就能走向成功。最理想的情况是,你既是机器学习领域的专家,又是你要赋能的那个应用领域的专家;或者,你能组建起一支兼具这两种专业知识的创始团队。我认为这里面不仅能产生巨大的社会影响力,更能创造极高的商业价值。
主持人加里: 这是一个极其重要的启示。这道理往往容易被遗忘:一旦你把事情做成了,一切似乎理所当然;但在你做成之前,全世界仿佛都在与你为敌。
德米斯·哈萨比斯: 确实如此。当初没人相信它,这也正是为什么你必须投身于自己真正热爱的事业。对我而言,无论发生什么,我都会死磕 AI。我在很小的时候就认定,这是我能想到的最具深远影响的事物。现在事实证明确实如此,但当初也有可能事与愿违,也许我们生不逢时,早了 50 年。同时,这也是我能想到最有趣的事业。所以,即使我们今天还蜗居在某个小车库里,即使这项技术依然不太行得通,我今天依然会继续研究 AI。我也许会重返学术界,或者尝试其他路径,但我总会找到一种方式,坚持把这条路走下去。
主持人加里: AlphaFold 就是你们单点突破并取得成功的一个绝佳案例。您认为,具备什么特质的科学领域才拥有孕育 AlphaFold 式突破的成熟时机?这背后是否存在某种规律,或者某种特定的目标函数(Objective Function)?
德米斯·哈萨比斯: 等哪天我能抽出五分钟空闲,我一定要把这个规律写下来。但我从我们做过的所有 Alpha 系列项目中(尤其是 AlphaGo 和 AlphaFold)汲取的最核心经验是:如果你面临的困境可以被定义为一个极其庞大的组合搜索空间(Combinatorial Search Space),那么我们现有的技术就是解题的绝佳武器。 从某种意义上说,这个空间越庞大越好,大到任何穷举法或特定算法都束手无策。围棋的落子步数是如此,蛋白质的不同折叠构型更是如此——其数量远远超过了宇宙中的原子总数。
要攻克这些难题,你需要一个清晰的目标函数(Objective Function)。你可以把它理解为实现蛋白质自由能的最小化,或者是在围棋博弈中获胜;你必须对目标函数给出极其清晰的定义,系统才能进行爬山算法(Hill Climbing)的迭代优化。此外,你还需要充足的数据,或者一个能够生成大量分布内合成数据(In-distribution Synthetic Data)的模拟器。只要满足这些条件,我认为利用当今的 AI 算法,你在寻找“大海捞针”般的终极解时,就能势如破竹。
药物研发在我看来也是相同的逻辑。世上一定存在某种能治愈特定疾病的化合物,那种没有任何副作用的完美解——只要物理定律允许它的存在,唯一的问题就在于,我们如何高效且以计算可解的方式找到它。我认为,我们在 AlphaGo 上首次向世人证明了,AI 系统能够在浩如烟海的搜索空间中精准锁定那根“神针”——在那个案例里,就是那步完美的落子。
主持人加里: 让我们把视角拔高一点(到元层面 Meta Level)。刚才我们谈到的是,人类利用这些方法创造了 AlphaFold;但在此之上还有一个元层面,那就是人类开始利用 AI 来探索可能的“假设空间”(Hypothesis Space)。我们距离拥有能够进行真正科学推理(Scientific Reasoning),而不仅仅是做数据模式匹配(Pattern Matching)的 AI 系统,究竟还有多远?
德米斯·哈萨比斯: 我认为我们已经非常接近了。我们正在研发这类通用系统,比如我们有一个名为 Co-Scientist 的系统,以及像 AlphaVolve 这样能够超越基础 Gemini 模型能力的算法。毫无疑问,所有前沿的 AI 实验室都在朝着这个方向探索。不过就我个人所见,目前还没有哪个人工智能系统做出了真正具有颠覆意义的重大科学发现。
但我相信这一天必将到来。这可能与我们之前探讨的“创造力”以及“突破已知边界”有关。显然,真正的科学发现绝不仅仅是模式匹配,因为未知领域根本没有任何既定的模式可供你匹配。它不仅仅是简单的数据外推(Extrapolation),而是需要某种类比推理(Analogical Reasoning)的能力。我认为目前的系统尚未完全掌握这种能力,或者说,我们还没有找到激发这种能力的正确使用方式。
在科学领域,我经常问一个问题:AI 系统能否自主提出一个真正深刻的假设,而不仅仅是验证一个假设?虽然能解决像黎曼猜想或千禧年大奖难题这样的旷世难题固然震撼——我们或许距离这一天也仅有几年之遥了——但我们的终极目标远比这艰难。我非常渴望看到 AI 攻克 P/NP 问题,但如果 AI 能够独立提出一套全新的“千禧年大奖难题”,并且让顶尖数学家们惊叹其深刻性、意义非凡,甚至愿意倾尽毕生心血去研究,那才更是真正的奇迹。我承认,我们现在还不知道该如何实现这一点,但我坚信这绝非魔法;AI 系统最终一定能做到,也许我们只是还缺少一两块关键的拼图。
我们可以通过我所谓的“爱因斯坦测试(Einstein Test)”来检验这种能力:如果我们将截至 1901 年的所有人类知识总和用来训练 AI 系统,它能否独立推导出爱因斯坦在 1905 年(爱因斯坦奇迹年)所发表的惊世骇俗的成果,包括狭义相对论?我们应当运行这项测试,并不断检验其可行性。一旦 AI 通过了这个测试,我认为,我们也就站在这类系统能够凭空创造出真正颠覆性创新的门槛上了。
主持人加里: 最后一个问题。在座有很多深耕技术领域的听众,他们渴望去打造一些极具规模的事业,甚至希望比肩你所创造的成就——要知道,你引领了全球最庞大的人工智能事业之一,并且多年来始终是该领域的先驱。为此,我想在座的每一位,都想从心底里向你以及 DeepMind 的伙伴们致以最深切的感谢。谢谢你。那么,关于在技术最前沿的探索,有什么是你如今深信不疑,却希望自己在 25 岁时就能明白的道理?
德米斯·哈萨比斯: 我想我们之前已经讨论过一部分:在某些方面,攻克艰深且硬核的问题,并不比解决浅显、简单的表面问题更困难。它们只是难在不同的维度;每一类问题都有各自的难点。但鉴于人生苦短,时间和精力都很有限,你不如将有限的生命力,倾注到那些真正能带来改变的事业中——去推动那些非你不可、因你而生的改变。 所以,我会从这个角度去思考。
至于工作的本质,我们提到了深科技(Deep Tech),而我非常热爱跨学科研究。我认为在未来几年内,这种方式会变得更加普遍,特别是在寻找各领域的结合点与内在联系方面。有了人工智能的辅助,做到这一点会更加容易。
然而,如果你对通用人工智能(AGI)的到来有自己的时间表——我的预期是在 2030 年左右——你就必须考虑到,如果今天开启一段深科技(Deep Tech)的探索之旅,通常面临的是一条长达 10 年的漫长路径。现在,你必须设想通用人工智能(AGI)在这段旅程中途降临的可能性。这未必是坏事,但你必须将其纳入考量。你能否利用好它?通用人工智能(AGI)系统会对你的工作产生什么影响?
这就回到了你之前提到的 AlphaFold 和通用人工智能(AGI)系统的话题。我预见未来会发生的一种情况是:Gemini、Claude 或其他通用系统,将会调用诸如 AlphaFold 这类的专业工具。我不认为我们会把所有东西都塞进一个巨大的“大脑”里,因为那会导致性能倒退(Regression)。如果我把所有的蛋白质数据都喂给 Gemini,这毫无意义;我们不需要用 Gemini 来做蛋白质折叠。回到你关于信息效率的观点,这很可能会对它的语言能力或其他功能产生负面影响。
我认为,更好的一种路径是:打造真正强大的通用工具调用模型,它们甚至可以去训练那些专用工具,但要将两者保持在独立的系统中。仔细思考这其中的深远影响,并构思你今天应该构建些什么,是一件非常有意思的事。这也同样适用于物理世界——比如你会建造什么样的工厂,或者开发什么样的金融系统。你需要认真对待这一点,去想象那个世界会是什么样子,然后去构建那些即使在你的旅程中途通用人工智能(AGI)到来时,依然能发挥巨大价值的东西。
主持人加里: 各位,让我们把掌声送给 Demis Hassabis。