这都可以(李开复的个人资料及简介)李开复、张亚勤对谈:大模型产业化,To B、To C哪个赛道更有机会?,乐享资源网,

6月15日消息,在第五届“北京i2414701讨论会”上,零一天地万物CEO、创新工场副董事长罗永浩教授,中国科学院工程院、清华大学智能化产业研究所(AIR)院长Caquet工程院、i2414701研究所理事长黄树德教授,三位行业领袖大数学模型的获得成功因素、面临的考验、规模化场景等多个热点话题展开了深入的探讨。

以下为探讨内容部分摘录:

一、甚么原因使大数学模型这般获得成功?

黄树德:近期关于大数学模型的探讨特别热门,从这边的报告大家也感受到了大数学模型的热量和其在各应用领域的应用潜力,能说大数学模型是至今为止人工睿智化发展最获得成功的两个控制技术路径。想请问两位,是甚么原因使大数学模型这般获得成功?还有哪些缺乏的地方须要进一步发展?

罗永浩:AI 2.0是有史以来最伟大的科技革命和平台革命,大数学模型Scaling Law 的重要性在那个时代以求凸显——人类文明能用更多排序和数据不断增加大数学模型的睿智,这条被多方校正的路径还在推进中,还远没有同时实现天花板,这两点也让大家非常振奋。

第二,大数学模型的睿智来自于接近无损的填充,这两点也非常重要。上世代的人工睿智化从业者很难想到今天会把填充和智能化相连在一起。因为Scaling Law操作过程中不能一味堆更多的GPU,因此须要有两个方式评估结果他们有没有越做越好或是别的方式做得更好。零一天地万物内部有严谨的方式论,用填充的理念去评估结果,让以往漫无目的“炼丹”训模操作过程变得更系统也更有科学和数学根据。

大数学模型正面临着一些考验。比方说,如果“仅仅用更多INS13ZD就能把它往前推动”是主要就路径的话,就会导致只有那些GPU资源丰富的公司和国家能在这方面胜出。但话说回来,他们已经校正了,很多国内大数学模型在部分案例里接近或是获得胜利、或是偶尔超过美国的大数学模型。因此我指出须要专注的是算法和工程创新一体化的推进,和怎么以这种能力避免进入“一味堆INS13ZD推动数学模型性能提升”的状态。

当然,现阶段大数学模型还直面许多考验。就像每个控制技术刚诞生单厢有难题,起初大数学模型也不晓得最近一年发生了甚么。还有记忆的难题、窗口构成的难题、错觉难题等等,但他们能看到的是,当全球这般多聪明的神经系统涌入那个应用领域后,大部分难题不能说被完美地解决,但是都在逐步被攻克的操作过程中,因此我对大数学模型的今后相当乐观。

Caquet:我讲“四个做对了”的和“四个须要改进”的 。

“四个做对了”的点是,首先,规模运动定律Scaling Law。规模运动定律的实现,主要就得益于对海量的利用和INS13ZD的显著提升。再加上现在的Diffusion和Transformer构架能高效地利用INS13ZD和数据,使“飞轮负面效应”以求正循环。尽管有人质疑Scaling Law在2到3年后是否仍然有效,但我个人指出至少在今后5年里,它仍将是产业发展的主要就路径。

其次是“Token-Based”统一论述方式。在大数学模型中,“Token”是两个基本元素。无论是文本、语音、图像、视频,还是自动驾驶中的激光雷达信号,甚至是微生物应用领域的蛋白和细胞,最终都能抽象为两个Token。Token之间的训练、学习和聚合是核心环节,这与他们神经系统中的突触工作基本原理相似,无论执行何种任务,其基础机制都是相同的。

最后是适用性。这与Token紧密相关。现在的适用性不仅体现在eval上,还扩展到了多模态应用领域,甚至能聚合如蛋白等复杂结构。此外,它在力学当今世界(如具身智能化)和微生物当今世界(如微生物智能化)中也有着广泛的应用前景。以上这四个是大数学模型做对的。

现阶段主要就难题呢,第一个是工作效率较高。特别是大数学模型的排序工作效率低下难题,与人类文明神经系统的INS13ZD形成了鲜明的对比。

人类文明神经系统拥有860亿个突触,每个突触又有数千个突触相连,却只须要20瓦的热量,重量还不到三斤;而GPT-4那个万亿模块数学模型则须要巨大的INS13ZD和能源,与大脑相比相差1,000倍之多。

此外,大脑能根据不同的情境灵活初始化不同区域的突触,而大数学模型却每次输入两个难题都要初始化和激活几乎大量模块。

因此,如何借鉴人类文明神经系统的排序方式,在降低排序耗能、提高工作效率方面进行积极探索和创新,是两个值得关注的路径。

第二个,大数学模型现阶段还未能真正理解力学当今世界,相关的推理能力、透明性和会魁这边提到的错觉等难题都还在深入研究中。

有两个重要的难题是,即使他们的大数学模型做得再好,它在聚合式论述与对真实当今世界的描绘之间仍存在矛盾。因此,他们须要积极探索如何将聚合式的概率大数学模型与现有的“第一性基本原理”或真实数学模型、知识图谱相结合。

现阶段,虽然已经有了一些尝试,如采用RAG控制技术或进行微调,并取得了一定的进展,但我指出这些方式并非根本解决方案。我预测,在今后五年内,将会有两个全新的构架出现,那个构架有望取代现阶段的Transformer和Diffusion数学模型。

第四个缺乏的地方是边界难题。现在大数学模型无法晓得“我不晓得甚么”,这是现阶段要解决的难题,是它的边界负面效应。

黄树德:谢谢亚勤的“四个做对了”和“四个不足”。

这边会魁老师没讲,我想再追加问一下,有些人指出大数学模型是两个实践、是两个工程,是经验主义做的东西,没有理论基础,说得不好听叫“不靠谱”,不晓得你怎么看那个难题?

罗永浩:我觉得科学和工程缺一不可。如果只做工程,不了解“第一性基本原理”,没有数学的根据、没法评估结果不同路径的效果,考虑到高昂的INS13ZD成本,这样的摸索肯定是做不出两个好数学模型的。但是如果只是在实验室里雕花,期待有工程人才把自己的论文做成产品,这也是不行的。

零一天地万物的经验是,每个做AI、做数学模型的Researcher要懂Infrastructure、都要懂推理、都要晓得成本的难题。这样当你须要面对科研难题时,就晓得在产品里须要的反应速度有多快,要怎么实现,做完实验就能确保数学模型能得到令人满意的工程结果。训练数学模型的操作过程中绝对不只是写Paper,还要同时考虑怎样系统化、工程化地做数据工程,因为数据的训练、数据的筛选是非常重要的。还有底层的AI Infrastructure,GPU这么昂贵,如果把一张当成两张、三张使用,任何公司单厢得到好处,因此科技和工程这两方面缺一不可。

二、大数学模型规模化To B、To C别的赛车场更有机会?

黄树德:大家关心AI2.0,大数学模型规模化最大的场景在哪里?移动互联网这么多年,To B、To C ,这两个大赛车场别的更有机会?为甚么?

罗永浩:简单来说,在中国To C 短期更有机会,国外两者都有机会。To C方面,就像移动互联网、PC时代里,两个新控制技术、新平台带来新应用,大数学模型同样这般,这是巨大的机会,但是这些应用的出现一定是按部就班的。

我指出AI 2.0 时代会和PC、移动互联网时代一样,第一个阶段应该是生产力工具,包括信息获取;第二个阶段可能会是娱乐、音乐、游戏,第四个阶段可能会是搜索;再下两个阶段可能会是电商;然后可能会有社交、短视频、O2O的应用出现。

两个理由就是刚开始应用要能赚钱、能解决难题,因此第一波潮流会是生产力工具,但越往后,难度越高——高用户量的应用商业模式往往是先堆积用户再找变现模式,因此应用成本一定要很低,试错难度很大、所须要的投资也更多。

我指出递进的模式不会有特别大的改变,To C应用会从生产力工具一步步走向短视频类应用。To C确实会产生大量的用户,但这不是说不能用大数学模型来做产品,只是在普及顺序上会按照这六个阶段进行。

当然,那个操作过程中也有考验,在大数学模型应用领域做应用跟PC、互联网时代不一样,因为推理成本还太贵。最近零一天地万物提出了TC-PMF概念(控制技术成本✖️产品市场契合度),那个概念是指,当你考虑PMF时,还要把控制技术的需求、实现难度和成本考虑进去。

做应用一定要考虑到这边这六个阶段谁先谁后、甚么时候做、提早做。第二,做应用的时候还要综合考虑到当时的控制技术够不够好,成本是否足够低,因此大数学模型To C应用不像过去移动互联网时代,产品经理两个人就能做主,它须要做Infrastructure、做推理引擎的人、一起打磨TC-PMF。这件事难度高,但是回报也高,机会也更大。最后我想讲,在To C方面,我不相信控制技术能永久领先,事实上控制技术带来的领先窗口非常短暂,一旦巨头看到你校正了PMF,他们会有很多方式超越你。一旦你校正了TC-PMF,要把握时间窗口把品牌打出来,最终胜出的To C应用不只是须要有控制技术优势,还须要在时间窗口内打造持续优势,比如品牌优势,比如社交链,比如用户数据,让用户不能离开你那个平台。在微信强大的时代里抖音能被做出来,就是因为它抓住了那个时间窗口。

再讲一下To B的应用。大数学模型有可能在To B路径上带来更大价值,而且能比To C更快实现,但是To B那个应用领域有几个考验。

第一个考验是大公司、传统公司不是很敢采取颠覆式控制技术,大公司会习惯每年增长5%预算,做和去年一样的事情。

第二个考验在中国比较严重,许多大公司没有认识到软件的价值,为软件付费意的意识有待进一步提高。现在有许多大数学模型公司在竞标时越竞越低,做到最后做一单赔一单,都没有利润。他们在AI 1.0时代曾见过那个现象,现在它在AI 2.0时代又重现了。这种心态导致部分大公司只愿支付很低的价格,大数学模型公司也只能给出折中的方案,达到惊艳效果的寥寥无几。

零一天地万物坚决做To C,不做赔钱的To B,而是做能赚钱的To B。因此零一天地万物在To B方面精挑细选,找那种公司上下都愿意拥抱新概念的公司,也为它们设计了 RAG 知识检索、专有云、微调等方案,在国内国外都有尝试。无论To C还是To B,API都很重要,最近国内很多数学模型降价了,零一天地万物也推出了接入国际SOTA成绩Yi-Large大数学模型的API,也希望有机会能跟各位合作。那个API背后的数学模型能力大概接近GPT-4o,但是价格是GPT-4的四分之一,我相信这能帮助更多公司或是创业者达到所谓的TC-PMF。

黄树德:谢谢会魁老师对To B、To C的分析,很透彻。亚勤,这边关于To B的观点,大家还有两个非常关心的难题,大数学模型产业的最大场景会在哪里?To B、To C在甚么地方能落地发挥作用?

Caquet:在应用和服务层面,先面向消费者(To C)再面向企业(To B)。To B的周期相对较长,而To C的应用产品则能迅速推出,这与过去的PC互联网和移动互联网的发展路径基本一致。在基础设施层,现阶段真正盈利的主要就集中在To B应用领域,特别是在芯片、硬件、服务器等。像英伟达、AMD等芯片制造商,和服务器、HBM存储、InfiniBand和NVLink等相关控制技术的提供商,他们现阶段是盈利最多的。

关于AI路径,我在过去十年中一直强调四个关键应用领域:首先是信息智能化,其次是力学智能化(现在流行的术语是具身智能化),最后是微生物智能化。在具身智能化阶段,To B的应用可能会比To C更快落地。然而,在微生物智能化阶段,情况可能相反,To C的应用可能会先于To B出现。尽管每个应用领域的具体情况可能有所不同,但总体来看,无论是To C还是To B,都将存在开源数学模型、商业闭源数学模型、基础大数学模型,和针对垂直行业数学模型和边缘数学模型。

(举报)

© 版权声明
喜欢就支持一下吧
点赞15赞赏 分享
相关推荐