独家对话智源研究院院长王仲远:中国AI发展不会被阻碍|钛媒体AGI
北京智源人工智能研究院院长 王仲远博士
2003年,王仲远考上了中国人民大学,在这所人文社会科学为主的高校里就读计算机系,从此爱上了这个学科,并在人工智能(AI)技术里面越走越深。
2007年,他在本科期间获得了国际顶级学术会议 SIGMOD 2007 Undergraduate Scholarship ,从而开启了王仲远的学术研究之路。
王仲远博士在 AI 学术领域深耕长达 15 年以上。从自然语言处理(NLP)到知识图谱、神经网络技术研究,从微软、Facebook(现Meta)到美团、快手,他不断深入扎根 AI 技术研究,从而让他非常相信,通用人工智能(AGI)是AI技术领域“圣杯”,也是所有AI科研人员所追寻的目标。
“AI 确实能够解决很多具体、单一任务,但对于AGI,在前几年,我依然觉得可能要四、五十年,也可能我们这一辈子都见不着了,不过,大模型和GPT的到来,让我看到了AGI不再遥远。”王仲远对钛媒体App表示。
“我意识到,AGI很可能在我们有生之年会到来,尤其AGI对我们的下一代产生重大影响,我究竟在这个过程中发挥哪些作用。”王仲远不断思考着他的未来。
他曾说,做研究,过程往往比结果更重要,做正确的事情,好结果自然会来。做学术研究跟创业一样,只有自己真正扎进去才会发现其中的奥秘。
因此,为了全身心研究 AI,王仲远做出了一个重要的决定:到智源研究院一起推进AGI研究。
2024年2月,北京智源人工智能研究院(BAAI,简称“智源研究院”)宣布,今年38岁的王仲远博士,担任智源研究院第二任院长,全面负责研究院各项工作。
同时这也意味着,智源研究院首次完成了院长的继任制度,黄铁军已于2023年6月任智源研究院理事长。
实际上,智源研究院是全球最早开展 AI 大模型的中国非营利性新型研究机构,于2018年12月在科技部和北京市委市政府的指导和支持下成立。微软总裁曾表示,有三家机构的 AI 技术处于绝对的前沿——OpenAI、谷歌和智源研究院。而该机构主办的“北京智源大会”,如今已经成为 AI 领域国际、权威与专业性的综合性行业盛会。
今年6月14日至15日召开2024北京智源大会前夕,王仲远博士与钛媒体进行了约1小时的独家对话。
王仲远对钛媒体App 表示,智源研究院从筹备建立,到当年“悟道”模型的研发,他在外部也一同见证经历并参与其中,这让他看到智源研究院对于 AI 技术前沿技术研究的全身心投入,这也是促使他加入智源的重要原因之一。
对于智源的未来发展,王仲远坦言,智源研究院定位和战略目标是始终引领 AI 前沿技术的发展,做未来3-5年的研究探索。同时,发挥第三方中立、非营利机构的优势做好公共技术支撑,解决当前产业的痛点。在研究方向上,会集中资源发展原生多模态世界模型以及具身智能,推动实现 AI 技术的下一次重大突破。
谈及最近的开源、闭源话题,王仲远指出,开源大模型不会越来越落后,而且,智源研究院会坚定支持开源开放,尤其开源技术促进了整个 AI 产业的蓬勃发展,但同时,他也希望开源项目能够得到合理使用,能够获得更大的收益和双向互通。
王仲远认为,当前美国政府对于中国 AI 技术发展加以限制,然而,美国只会延缓,但不会阻碍中国 AI 技术的长期发展,所以,《ENFORCE 法案》对于中国 AI 技术发展不会产生特别大的影响。
王仲远强调,过去几十年,中国 AI 人才储备、人才成长速度都已经有了很好的基础,即使未来美国真的禁止之后,也阻碍不了中国 AI 技术的发展,美国最终还要选择跟中国一起合作,尤其是到达 AGI 阶段,需要全球一起来联合管控 AI 带来的风险问题等。
“智源非常愿意去为中国的 AI 产业探索未来、可能的技术解决方案,我们可以试、我们可以去选择做前期的探索,有可能会失败,但这恰恰为中国科学探索贡献了自己的失败和经验,这是很好的科学研究。”王仲远表示。
以下是王仲远博士与钛媒体AGI之间的对话整理:
钛媒体AGI:今年2月,北京智源人工智能研究院宣布由你担任新任院长,那么,是什么原因促使你选择从快手、美团这样的企业离职,来到智源呢?
王仲远:今年2月1日起我正式上任,但是,我接触智源更早一些。从智源成立的第一天开始,当时我还在美团,其实就参与了智源的筹建工作。然后我在快手的时候,2022 年 10 月智源成立了第一个大模型百人团队,我当时推动了快手和智源的战略合作,并且一起参与了悟道大模型研发,包括“悟道”1.0、2.0系列模型,我都有参与。
那么,为什么我会加入智源?这跟我个人对于智源或者对于 AGI的追求有非常强的关联性。
从1943 年神经网络的诞生开始计算,人工智能技术应该有八十年的历史。我毕业之后就踏入了 AI 领域,从自然语言处理(NLP),到知识图谱、神经网络,已经做了 15 年以上的研究。知识图谱属于符号逻辑,而神经网络属于连接逻辑,一开始我就参与其中。
所有 AI 技术的研究者、工程师、从业者的最终目标,就是让机器有一天具备人类的智能,也就是所谓的通用人工智能(AGI),大家的目标都非常一致。
我们虽然做了好多人工智能,但都只能叫弱人工智能,也就是针对特定的场景、特定的任务,收集了特定的数据,训练了特定的模型,进行评估,然后能够去完成一些任务。
比如人脸识别能非常精准;AlphaGo能比人类世界围棋冠军下地更好,但是,AlphaGo依然解决不了医疗的问题,依然解决不了自动驾驶的问题,甚至都不能解决人脸识别的问题,需要针对不同的场景解决问题。因为,模型本身不具备通用性、泛化性,只能解决很多具体、单一任务。
在前几年,我依然觉得通用人工智能可能要四、五十年,可能我们有生之年无法见证。
然而,大模型技术来临,GPT 不断发布,而我作为 AI 方向的从业者,开始相信大模型带来的技术路线。因此,我在快手、美团期间也推动了从NLP到多模态大模型的开发,也确实看到了一些可能性。大模型能力被激发了,不仅能解语文题,还能解数学、物理、化学。
就我个人而言,ChatGPT已经具备了一定的理解和推理能力,从而让我认为这个世界要发生改变。
实际上,理解和推理能力是AGI非常核心、需要突破的关键点。以往,我做的很多研究,也是为了让机器能够理解人类的语言,像人类一样进行思考。一个是理解,一个是思考,这两个能力都被GPT在某种程度上突破了,有了重大的技术提升,因此,离AGI的目标越来越近了。
基于上述判断,我在思考GPT 这种大模型技术路线,确实有可能在四、五年内实现AGI。这也意味着,我们有生之年可能见到 AGI这一“圣杯”,这是所有 AI 从业人员一直追求的梦想。
还有一个很有意思的小故事。去年 3 月,我到孩子的小学分享了AI 技术,有一位小女孩就站起来问我说,“叔叔,如果 AI 什么都能做了,将来我们做什么?”
这个问题一直萦绕在脑海里,我第一次意识到,AGI 时代真的要来了。一方面我们希望推动 AI 技术尽快达到 AGI 水平,但另一面,我们这一代、下一代都会与 AI 共存,这对人类意味着什么?到底是一件好事,还是一件坏事?其中的风险是什么?我在这个过程中可以发挥哪些作用?
2024北京智源大会嘉宾介绍
智源本身是一个非营利性机构,聚焦 AI 前沿研究,能让我有机会全身心专注于 AI 这件事。同时,不管是悟道大模型系列的发布,还是智源大会所构建起来的良好生态,都推动和支撑了中国 AI 行业向前健康发展。这都对我触动很大,也是我加入智源非常重要的原因。
钛媒体AGI:快手最近内测了文生视频产品“可灵”,受到广泛关注和好评,被认为是“中国版 Sora”,您认为评价此次快手可灵的产品效果?智源则要往哪个方向发展?
王仲远:这(可灵)是我原来的团队研发的,当时还是我在快手的时候就在布局文生视频项目,团队同学非常优秀,我觉得这代表了当前产业界的最高水平、真实水平。
可灵是基于DiT(Diffusion Transformers)架构,这个架构被OpenAI的 Sora验证过了,这次智源大会也会请Sora负责人和DiT提出者。实际上,国内绝大部分的企业(大公司、创业公司)都选择DiT架构研发 AI 视频生成,因为它的效果确实很惊艳。但是我们认为它(DiT)不会是将来的终极路线。
智源研究院会选择另一条终极路线。
我们认为,未来技术形态一定是原生、统一的语言文字图片视频模型,真正的多模态进、多模态出的技术体系,而且要不断容纳更多模态数据做成统一框架。目前,我们正在做这方面的训练和探索。
智源作为一家科研机构,要更往前一步探索,不去复现行业路线,而是去做真正的下一代技术路线。在这个过程中,确实需要依赖大数据、大算力,模型训练周期也很长,最终还要进行效果评估,资源消耗很大,带有大量不确定性,这对于现在的科研而言还是非常有挑战。
通往 AGI 这条路径依然是资源消耗型,并且看起来还没到尽头,这既是好事也是坏事,好事是AGI确实有可能实现,坏事是资源消耗也带来了很多资源浪费。
钛媒体AGI:这轮智源的大模型发展模式,到底是像之前研究“悟道”时候那样形成“田忌赛马”,还是要统一整合团队研发模型?
王仲远:我认为还是资源集中。
现在大模型的发展,本质是一个算法系统工程。它不是简单的算法突破,也不是简单的工程,而是需要数据团队、系统团队、算法团队、评测团队等紧密配合、持续迭代,所以,大模型是非常庞大且复杂的系统级工程。
国内“百模大战”导致资源相对分散,并不能真正一个很好的技术路径,而真正的路径需要集中资源进行大模型训练。
一、两个科学家就能做出震惊世人的结果的难度越来越大,大模型是需要团队作战算法类的系统性工程。
例如,假设有2000张卡,两个团队PK,每个团队只能分1000张卡,这1000张卡训练的模型效果不如2000张卡,这是非常确定的,因为参数模型、算力、数据需求同步增加带来的效果非常有限,所以大模型需要一个算法架构师协同不同类型团队,服务一个共同的目标,才有可能做好。
钛媒体:智源不仅做悟道大模型,而且还公布了大模型评测体系。这种既做“运动员”又做“裁判”,我们如何理解智源研究院的定位“边界”?
王仲远:这是一个很好的问题,这其实也涉及到智源整个定位和战略目标升级:始终引领人工智能前沿技术的发展,做未来3-5年的研究探索,同时,发挥第三方中立、非营利机构的优势做好公共技术支撑,解决当前产业的痛点。
从智源悟道 1.0、2.0 MoE 模型,到去年 3.0,整体不仅参数量变大,而且趋向于实用化。而且智源也一直秉承开源开放的路线,过去一年开源模型下载量超过了4700万次,是非常令人惊艳的。这是我们对产业做出的贡献,同时我们也建立整个社区和生态。
那么,进入新的阶段,智源定位到底是什么?
首先,大语言模型已经有相对成熟路线,我们需要很好地支撑他们。智源作为一个非营利性第三方中立机构,没有利益诉求,这是天然的站位。倘若行业出现“劣币驱逐良币”的情况,不利于整个产业的发展。因此,我们会通过模型评估告诉行业哪些是实力强者,评估遵循一个基本原则,即科学、权威、公正、开放。
其次,数据对于大模型而言至关重要,所以智源也在牵头建设数据集。今年智源大会上会公布两个数据集:一是千万级高质量开源指令微调数据集, 二是开源中英文行业数据集。此外,我们还在牵头做版权机构谈数据使用,使得高质量数据进一步促进模型开源开放。
这都是智源正在做的对产业界的公共技术支撑。
再次,另外一方面,作为一家研究机构,我们要始终朝着未来 3-5 年的AI 发展方向努力,当大家都在“卷”语言模型的时候,我们会针对多模态大模型、具身智能大模型、生物计算大模型这些前沿方向进行探索。
其中,多模态是公认的重要技术路线,也是近两年火热的发展方向,多模态模型能够让 AI 感知这个世界,而这条技术路线等 AI 发展到这一天时,会形成数字智能体。
数字智能体一定会与硬件结合,进入物理世界,这就是“具身智能”。所以在我看来,“具身智能”是未来5-10年智源研究院会坚持探索的一个技术路线,这和整个产业方向上有比较明显的差异。
最后,当依然有技术路线可以研究和探索时,智源研究院会非常坚定的发展我们认为最有可能的技术路线,希望能把这条路走通,即使失败了,我觉得作为一个科学探索,依然非常有价值,这是一个研究机构应该做的事情。
所以,智源愿意去为中国的 AI 产业探索未来可能的技术解决方案,我们可以去选择,去做前期的探索,有可能会失败,但这恰恰为中国科学探索贡献了自己的失败和经验,这也是很好的科学研究。
钛媒体AGI:最近行业里面有一种说法“开源就是落后”,最近斯坦福大学也承认套壳了中国的大模型技术,那么你怎么看待开源、闭源带来的风险和战略优势?
王仲远:我个人谈谈开源、闭源的想法。
第一,我觉得开源确实极大地促进了过去几十年计算机领域的发展,大家论文都是公开的,而非只依靠专利。开源社区有很好的项目和生态,进而促进了整个产业发展。所以从某种意义上来说,开源对于 AI 技术的快速发展有重大的推动作用。当然,这也会带来很强烈的竞争和优胜劣汰。
我肯定支持开源,智源也在开源开放这件事情上做出了非常独特的贡献。
但是,我们希望探索更好的开源生态的机制。智源也做了很多无偿的贡献,这种单方面输出和贡献,很难持续实现开源生态的长期健康发展,我们需要更多的开源基金会支持开源开放的生态氛围,希望促进全球人工智能领域的共同发展。
第二,对于斯坦福大学套壳这件事,我们可以很清晰看到,国外的同行也在使用中国的开源项目,这本身就证明了中国开源项目做得足够的优秀。尽管整个事情在使用上出了问题,但我认为这不会对开源生态产生影响。整体上,开源还是促进了整个产业的发展,这是一个根本性的结论。但同时我们也希望开源项目能够得到合理使用。
钛媒体AGI:近期,美国众议院外交事务部委员通过了一项旨在严格管控 AI 技术出口的《ENFORCE 法案》,不仅限制了 AI 系统和大模型的出口,一旦法案通过,持有 H1b 签证的中国员工或留学生可能需要特殊许可才能在美从事 AI/ML 相关工作。那么,这种限制大模型出口对行业有怎样影响?
王仲远:我认为,这(美国)始终会延缓,但不会阻碍中国 AI 产业的发展,我个人认为不会产生特别大的影响。
有四方面原因:
1)国产大模型已经突破GPT-3.5、无限接近 GPT-4 的阶段,甚至在某些能力上已经超越GPT-4,中国的模型已经越过了很关键的门槛。过去一年,从整个国内算力搭建、模型算法、训练研究来看,大家的信心是越来越足,也使得模型达到了一个可用的、产业化的水平,这意味着未来可能形成一个正循环。当然,我们也要看到差距。
2)另一方面,AI 技术依然在不断突破和创新。中国有了现在的基础,即使未来美国真的禁止,也许会延缓,但阻碍不了中国 AI 技术的发展。这就意味着,美国最终还要选择跟中国一起合作,尤其是到达 AGI 阶段,需要全球一起来联合管控 AI 带来的风险问题等。
3) 事实上,GPT最新技术不开源,也没有论文,中国本身就是自己寻求技术突破,因此,即使法案通过,会有一些影响,但不是根本性的问题。
4) 谈到人才交流,这几十年,中国 AI 人才储备、人才成长速度都已经有了很好的基础。那么,中美关系带来的 AI 算力限制,人员、技术交流的障碍,会不会对我们有一些影响?肯定有影响,但是这种影响,始终只能是延缓,但阻碍不了中国 AI 产业发展。
钛媒体AGI:很多人都将Scaling Law(规律效应)奉为圭臬,但最近田渊栋等人提到对于Scaling Law的反对意见,或者认为Scaling Law路线不一定的非常精确,您如何看待?Scaling Law是否就是AI技术发展的唯一定律?
王仲远:首先我是相信Scaling Law 的。
Scaling Law并不是一个新的事物,而是整个 AI 技术发展都一直都存在得。每一波 AI 技术浪潮,本质上都来源于算力、数据和参数量的提升,所以Scaling Law将持续影响 AI 技术的发展历程。
但同时,我认为还有几点关键因素,第一、互联网的数据已经基本都被用完了,但很多的多模态数据、世界数据、行业数据依然非常多;第二、未来 AI 能否提升,取决于GPU 集群能耗是否能继续扩大、参数量扩大、模型能否迅速收敛,如果这些都具备,我们能看到无限逼近人类,乃至于超过人类的 AGI 时代。