红杉资本在2022年7月,发布了大语言模型洞察报告。一年后的今天回看这篇洞察报告,洞察地很准。
我们详细解读一下这份报告,从中提炼一些观点和知识,以提升我们对生成式AI的宏观洞见。
1.AI的四次大发展
AI历史上经历了四次大发展:
- 早期人工智能时代:AI的第一次大发展,1950年早期人工智能出现。
- 机器学习时代:AI的第二次大发展,1980年,机器学习逐步兴起,并蓬勃发展。
- 深度学习时代:AI的第三次大发展,2010年,深度学习的突破,驱动了AI的进一步发展。
- 大语言模型时代:AI的第四次大发展,2020年,大语言模型在生成式学习路线上大放异彩。
报告洞察的时间段就是从后深度学习时代,到大语言模型时代,阐述了大语言模型时代的四次浪潮。
另外,我们还可以发现一个有趣的现象:AI历次大发展的时间间隔逐步变小。
2.生成式AI的四次浪潮
Sure enough, as the models get bigger and bigger, they begin to deliver human-level, and then superhuman results.
果然,随着模型变得越来越大,它们开始提供人类的水平,然后是超人的结果。
上述是报告的第一个核心观点是:生成式AI越来越强大,在某些领域开始超越人类的水平。
2.1.生成式AI与分析式AI的边界
报告首先划定了生成式AI与分析式AI的边界:
- 分析式AI:Analytical AI,从早期人工智能时代到深度学习时代,人工智能更多地应用领域覆盖的是人类的分析能力。如:识别车牌、识别垃圾邮件、用户画像与智能推荐等等。人工智能在这个时代,主要是在分析已有的数据,进行回归与分类。
- 生成式AI:Generative AI,人工智能的应用领域开始覆盖人类的创造能力。如:GPT写诗、Midjourney绘画等。以前人工智能在这些方面无法与人类抗衡,但现在人工智能已经开始可以创造有意义并具备美感的作品了。在这个时代,人工智能不仅仅是分析已有的数据,而是在生成新的内容。
2.2.AGI第一波浪潮
在前深度学习时代(2015年之前),小模型是主流模型,是某个领域的专才,这些一个个的小模型都擅长做特定领域的人类分析工作。
但,对于生成内容的任务,小模型普遍都不擅长。
2.3.AGI第二波浪潮
2019年,谷歌发表的《Attention is All You Need》,向我们描述了一种用于NLP的新型神经网络架构Transformer,随后各大厂在这条赛道上展开了激烈竞争。
这个时期的大语言模型由于极其庞大、强依赖GPU等原因,大部分都没有公开可商用版本,或者都是内测版本,更没有可以落地的应用。
但,随着大语言模型越来越大,也出现了很多神奇的现象(如:涌现能力),在某些方面开始超越人类水平。
在《Compute Trends Across Three Eras of Machine Learning》论文中,详细展示了人工智能在手写识别、语音识别、图像识别、阅读、语言理解的领域中,超越人类基准水平的测试结果。
2.4.AGI第三波浪潮
在2022年之后,大语言模型开始进入更好、更快、更便宜的阶段。计算成本开始下降、新的技术出现(如:diffusion models、CoT、ToT等),都降低了训练和推理的成本。最大的进展不是大语言模型本身的进步,而是开源,很多学术界机构能够基于基础大语言模型去进一步训练和研究。
笔者认为特别是训练技术方面,成本下降很快,成本的下降带来了门槛的下降。几个月前我去搭建自己的本地GPT环境花了很长时间和费用,但上周LLama2发布后,搭建自己的本地大模型就非常便宜和容易。
此时,随之而来的应用开始出现(比如:chatGPT)。很多国人是这个时候才听说了大语言模型的概念,甚至很多人的知识结构还停留在机器学习时代。
2.4.AGI第四波浪潮
这是红杉资本对眼前和未来的预期:杀手级应用涌现。随着大语言模型继续变得更好、更快、更便宜,会出现越来越多的免费、开源的模型。应用层也会出现大爆发。红杉资本在本文中多次强调:"我们预计杀手级应用也将出现在生成式AI领域中,大家争相发力,前景让人期待"。
3.生成式AI的市场格局
The best Generative AI companies can generate a sustainable competitive advantage by executing relentlessly on the flywheel between user engagement/data and model performance.
最好的生成式人工智能公司可以通过在用户参与度、数据、模型能力之间不断地迭代,进而产生可持续的竞争优势。
上述是报告的第二个核心观点是:根据生成式AI的市场格局,在文本、代码、图像、语音、视频、3D等领域,需要应用、模型、数据的相互配合、共同成熟。
3.1.市场格局
- 文本方向:模型以GPT-3为代表,应用领域的机会点会出现在行销、销售、服务、写作、笔记等垂直领域。
- 代码方向:模型以GPT-3为代表,应用领域的机会点会出现在代码生成、文档生成、自然语言转代码、Web/App快速构建。
- 图像方向:模型以DallE、Stable Diffusion为代表,应用领域机会点在设计领域。
- 语音/视频/3D方向:目前这些方向不明。
3.2.市场机会窗
- 文本方向:关窗时间大约在2025年。
- 代码方向:关窗时间大约在2025年。
- 图像方向:关窗时间大约在2030年。
**看到这个时间窗,是不是有一种时不我待的危机感?**
4.对杀手级应用的预测
The best Generative AI companies can generate a sustainable competitive advantage by executing relentlessly on the flywheel between user engagement/data and model performance.
最好的生成式人工智能公司可以通过在用户参与度/数据和模型性能之间不断地执行飞轮来产生可持续的竞争优势。
上述是报告的第三个核心观点是:强调数据和模型的良性循环是杀手级应用的成功关键。
4.1.杀手级应用的形态
强大底座:杀手级应用一定依托一个强大的大模型。
插件化:这些杀手级应用会以插件的形式寄生于现有的软件中,比如:VSCode中集成Code Copilot、PhotoShop中集成某种自动生成图片的插件。
- PS:笔者刚开始不太认同这一点,难道就不能是一个新的应用软件吗?看到4.2才理解红杉资本的思路。
交互式体验:目前的GPT都是一次交互——比如:用户问一次,AI就生成一张图片。未来应该会出现多次交互——用户问一次,AI生成一个图片。用户再要求AI根据这个图片继续修正,直到做出用户满意的图片。
- PS:这一点很有道理。
4.2.如何成为杀手级应用?
红杉资本强调**用户参与度/数据(user engagement/data)与模型能力(model performance)**要形成良性循环:
- 良性循环:①获得极高的用户参与度→②获得更多用户数据以训练出更好的模型(如:提示词工程、Fine-tuning,将用户行为作为标记的训练数据等)→③优秀的模型吸引更多的用户并提升参与度。
- 聚焦垂直领域:杀手级应用不必做的大而全,而是聚焦某个垂直领域。
- 植入客户工作流程:第一步先将AI以插件的形式整合到用户的生产流程中,进而实现用户增长和产品分发。第二步再做出新的软件系统替代用户的老软件系统。
- PS:红杉资本给大伙儿指明了赚钱方法了,还不快去。。。
5.你我只知道图灵测试,它却知道三个世界
Generative AI is still very early. The platform layer is just getting good, and the application space has barely gotten going.
生成式人工智能仍处于早期阶段。平台层刚刚变得越来越好,而应用程序空间几乎没有发展起来。
这是红杉资本的最后一个观点,报告中的这一部分不太有更多干货了。笔者阅读这一部分的时候,思路情不自禁地跳跃到那个一直没有想通的哲学问题:**人类智能到底是什么?通用人工智能到底是什么?是什么驱动了人类智能和通用人工智能的发展?**
其实很多人只听说过图灵测试,并且误解了图灵测试。图灵测试是一种思想测试,这个测试的理论基础是什么?如果理论基础是错的,通过了图灵测试又能证明什么?笔者在《【chatGPT】学习笔记1-机器还需要多久才能像人一样思考》文中,试图用计算理论来解释人类智能、通用人工智能的关系与差异,但计算理论作为图灵测试的理论基础也不太充分。
最近阅读中文房间(Chinese Room)思想实验时,找到了Karl Raimund Popper的三个世界理论,这个理论似乎可以支撑图灵测试:
- 世界1:物质的世界(客观世界),如:物质、能量、有机物质or无机物质
- 世界2:心理的世界(主观世界),如:感觉、意识、心里状态的过程
- 世界3:思想的世界,或者叫知识的世界。
那么,三个世界理论的内在逻辑是什么呢?
- 宇宙的发展是从世界1,到世界2,到世界3的连续过程。
- 世界1和世界2存在直接相互作用,世界2和世界3存在直接相互作用,世界1和世界3的相互作用需要通过世界2为中介。
- 再通俗一点,人的意识(世界2)可以通过知识(世界3)创造新的物质(世界1)。
- 再通俗一点,现有知识(世界3)不足以解决客观问题(世界1),会抛出问题,驱动人的意识(世界2)发现、总结出新的知识(世界3),同时解决问题(世界1)。
- 再通俗一点,人工智能可以看作一个知识大合集,人工智能存在于(世界3)。
最后,提出三个世界的哲学价值是什么?
- 正因为知识(世界3)能够抛出问题,直接影响世界2,间接影响世界3,所以世界3的知识是可以自我发展的。
- 比如:是人类发现了数列这种知识,于是世界3就增加了数列这个新知识,因为世界3中有了数列,世界3还会增加新知识奇偶数。奇偶数并不是人类意识(世界2)的新发现,而是由于人类在世界3创造了数列这种新知识而产生的结果。
- 通俗一点说,世界3知识的起点可能是人类,但世界3知识的发展、终点不是人类可以决定的。
- 这就是三个世界的哲学价值!这就是哲学意义上的人工智能科学发展观!是不是可以自洽地解释通用人工智能是什么、通用人工智能会如何发展?
写到这里,有两点感慨:
- 很多时候,人类没有自己的独立思想和观点:可能没有(比如:他什么都不说)、可能只是重复(比如:他常常将图灵测试挂在嘴边,却不理解其中深意)、可能混乱(比如:他把图灵测试这种结果当做本质的起因)。
- AI是独立思想和观点本身:AI存在于世界3,AI是知识的合集,那么可不可以说AI就是知识、思想、观点本身呢?
所以,你我只知道图灵测试,它却知道三个世界。
所以,我们应该拥抱它,还是恐惧它,还是服从它。。。?
6.参考
红杉资本报告原文:https://www.sequoiacap.com/article/generative-ai-a-creative-new-world/
本文部分内容由ChatGPT生成