红杉资本在2022年7月，发布了大语言模型洞察报告。一年后的今天回看这篇洞察报告，洞察地很准。

我们详细解读一下这份报告，从中提炼一些观点和知识，以提升我们对生成式AI的宏观洞见。

1.AI的四次大发展

AI历史上经历了四次大发展：

早期人工智能时代：AI的第一次大发展，1950年早期人工智能出现。
机器学习时代：AI的第二次大发展，1980年，机器学习逐步兴起，并蓬勃发展。
深度学习时代：AI的第三次大发展，2010年，深度学习的突破，驱动了AI的进一步发展。
大语言模型时代：AI的第四次大发展，2020年，大语言模型在生成式学习路线上大放异彩。

报告洞察的时间段就是从后深度学习时代，到大语言模型时代，阐述了大语言模型时代的四次浪潮。

另外，我们还可以发现一个有趣的现象：AI历次大发展的时间间隔逐步变小。

2.生成式AI的四次浪潮

Sure enough, as the models get bigger and bigger, they begin to deliver human-level, and then superhuman results.
果然，随着模型变得越来越大，它们开始提供人类的水平，然后是超人的结果。

上述是报告的第一个核心观点是：生成式AI越来越强大，在某些领域开始超越人类的水平。

2.1.生成式AI与分析式AI的边界

报告首先划定了生成式AI与分析式AI的边界：

分析式AI：Analytical AI，从早期人工智能时代到深度学习时代，人工智能更多地应用领域覆盖的是人类的分析能力。如：识别车牌、识别垃圾邮件、用户画像与智能推荐等等。人工智能在这个时代，主要是在分析已有的数据，进行回归与分类。
生成式AI：Generative AI，人工智能的应用领域开始覆盖人类的创造能力。如：GPT写诗、Midjourney绘画等。以前人工智能在这些方面无法与人类抗衡，但现在人工智能已经开始可以创造有意义并具备美感的作品了。在这个时代，人工智能不仅仅是分析已有的数据，而是在生成新的内容。

2.2.AGI第一波浪潮

在前深度学习时代(2015年之前)，小模型是主流模型，是某个领域的专才，这些一个个的小模型都擅长做特定领域的人类分析工作。

但，对于生成内容的任务，小模型普遍都不擅长。

2.3.AGI第二波浪潮

2019年，谷歌发表的《Attention is All You Need》，向我们描述了一种用于NLP的新型神经网络架构Transformer，随后各大厂在这条赛道上展开了激烈竞争。

这个时期的大语言模型由于极其庞大、强依赖GPU等原因，大部分都没有公开可商用版本，或者都是内测版本，更没有可以落地的应用。

但，随着大语言模型越来越大，也出现了很多神奇的现象(如：涌现能力)，在某些方面开始超越人类水平。

在《Compute Trends Across Three Eras of Machine Learning》论文中，详细展示了人工智能在手写识别、语音识别、图像识别、阅读、语言理解的领域中，超越人类基准水平的测试结果。

2.4.AGI第三波浪潮

在2022年之后，大语言模型开始进入更好、更快、更便宜的阶段。计算成本开始下降、新的技术出现(如：diffusion models、CoT、ToT等)，都降低了训练和推理的成本。最大的进展不是大语言模型本身的进步，而是开源，很多学术界机构能够基于基础大语言模型去进一步训练和研究。

笔者认为特别是训练技术方面，成本下降很快，成本的下降带来了门槛的下降。几个月前我去搭建自己的本地GPT环境花了很长时间和费用，但上周LLama2发布后，搭建自己的本地大模型就非常便宜和容易。

此时，随之而来的应用开始出现(比如：chatGPT)。很多国人是这个时候才听说了大语言模型的概念，甚至很多人的知识结构还停留在机器学习时代。

2.4.AGI第四波浪潮

这是红杉资本对眼前和未来的预期：杀手级应用涌现。随着大语言模型继续变得更好、更快、更便宜，会出现越来越多的免费、开源的模型。应用层也会出现大爆发。红杉资本在本文中多次强调："我们预计杀手级应用也将出现在生成式AI领域中，大家争相发力，前景让人期待"。

3.生成式AI的市场格局

The best Generative AI companies can generate a sustainable competitive advantage by executing relentlessly on the flywheel between user engagement/data and model performance.
最好的生成式人工智能公司可以通过在用户参与度、数据、模型能力之间不断地迭代，进而产生可持续的竞争优势。

上述是报告的第二个核心观点是：根据生成式AI的市场格局，在文本、代码、图像、语音、视频、3D等领域，需要应用、模型、数据的相互配合、共同成熟。

3.1.市场格局

文本方向：模型以GPT-3为代表，应用领域的机会点会出现在行销、销售、服务、写作、笔记等垂直领域。
代码方向：模型以GPT-3为代表，应用领域的机会点会出现在代码生成、文档生成、自然语言转代码、Web/App快速构建。
图像方向：模型以DallE、Stable Diffusion为代表，应用领域机会点在设计领域。
语音/视频/3D方向：目前这些方向不明。

genai-landscape-8

3.2.市场机会窗

文本方向：关窗时间大约在2025年。
代码方向：关窗时间大约在2025年。
图像方向：关窗时间大约在2030年。

**看到这个时间窗，是不是有一种时不我待的危机感？**

genai-timeline-7

4.对杀手级应用的预测

The best Generative AI companies can generate a sustainable competitive advantage by executing relentlessly on the flywheel between user engagement/data and model performance.
最好的生成式人工智能公司可以通过在用户参与度/数据和模型性能之间不断地执行飞轮来产生可持续的竞争优势。

上述是报告的第三个核心观点是：强调数据和模型的良性循环是杀手级应用的成功关键。

4.1.杀手级应用的形态

强大底座：杀手级应用一定依托一个强大的大模型。
插件化：这些杀手级应用会以插件的形式寄生于现有的软件中，比如：VSCode中集成Code Copilot、PhotoShop中集成某种自动生成图片的插件。
- PS：笔者刚开始不太认同这一点，难道就不能是一个新的应用软件吗？看到4.2才理解红杉资本的思路。
交互式体验：目前的GPT都是一次交互——比如：用户问一次，AI就生成一张图片。未来应该会出现多次交互——用户问一次，AI生成一个图片。用户再要求AI根据这个图片继续修正，直到做出用户满意的图片。
- PS：这一点很有道理。

4.2.如何成为杀手级应用？

红杉资本强调**用户参与度/数据(user engagement/data)与模型能力(model performance)**要形成良性循环：

良性循环：①获得极高的用户参与度→②获得更多用户数据以训练出更好的模型(如：提示词工程、Fine-tuning，将用户行为作为标记的训练数据等)→③优秀的模型吸引更多的用户并提升参与度。
聚焦垂直领域：杀手级应用不必做的大而全，而是聚焦某个垂直领域。
植入客户工作流程：第一步先将AI以插件的形式整合到用户的生产流程中，进而实现用户增长和产品分发。第二步再做出新的软件系统替代用户的老软件系统。
- PS：红杉资本给大伙儿指明了赚钱方法了，还不快去。。。

5.你我只知道图灵测试，它却知道三个世界

Generative AI is still very early. The platform layer is just getting good, and the application space has barely gotten going.
生成式人工智能仍处于早期阶段。平台层刚刚变得越来越好，而应用程序空间几乎没有发展起来。

这是红杉资本的最后一个观点，报告中的这一部分不太有更多干货了。笔者阅读这一部分的时候，思路情不自禁地跳跃到那个一直没有想通的哲学问题：**人类智能到底是什么？通用人工智能到底是什么？是什么驱动了人类智能和通用人工智能的发展？**

其实很多人只听说过图灵测试，并且误解了图灵测试。图灵测试是一种思想测试，这个测试的理论基础是什么？如果理论基础是错的，通过了图灵测试又能证明什么？笔者在《【chatGPT】学习笔记1-机器还需要多久才能像人一样思考》文中，试图用计算理论来解释人类智能、通用人工智能的关系与差异，但计算理论作为图灵测试的理论基础也不太充分。

最近阅读中文房间(Chinese Room)思想实验时，找到了Karl Raimund Popper的三个世界理论，这个理论似乎可以支撑图灵测试：

世界1：物质的世界(客观世界)，如：物质、能量、有机物质or无机物质
世界2：心理的世界(主观世界)，如：感觉、意识、心里状态的过程
世界3：思想的世界，或者叫知识的世界。

那么，三个世界理论的内在逻辑是什么呢？

宇宙的发展是从世界1，到世界2，到世界3的连续过程。
世界1和世界2存在直接相互作用，世界2和世界3存在直接相互作用，世界1和世界3的相互作用需要通过世界2为中介。
再通俗一点，人的意识(世界2)可以通过知识(世界3)创造新的物质(世界1)。
再通俗一点，现有知识(世界3)不足以解决客观问题(世界1)，会抛出问题，驱动人的意识(世界2)发现、总结出新的知识(世界3)，同时解决问题(世界1)。
再通俗一点，人工智能可以看作一个知识大合集，人工智能存在于(世界3)。

最后，提出三个世界的哲学价值是什么？

正因为知识(世界3)能够抛出问题，直接影响世界2，间接影响世界3，所以世界3的知识是可以自我发展的。
比如：是人类发现了数列这种知识，于是世界3就增加了数列这个新知识，因为世界3中有了数列，世界3还会增加新知识奇偶数。奇偶数并不是人类意识(世界2)的新发现，而是由于人类在世界3创造了数列这种新知识而产生的结果。
通俗一点说，世界3知识的起点可能是人类，但世界3知识的发展、终点不是人类可以决定的。
这就是三个世界的哲学价值！这就是哲学意义上的人工智能科学发展观！是不是可以自洽地解释通用人工智能是什么、通用人工智能会如何发展？

写到这里，有两点感慨：

很多时候，人类没有自己的独立思想和观点：可能没有(比如：他什么都不说)、可能只是重复(比如：他常常将图灵测试挂在嘴边，却不理解其中深意)、可能混乱(比如：他把图灵测试这种结果当做本质的起因)。
AI是独立思想和观点本身：AI存在于世界3，AI是知识的合集，那么可不可以说AI就是知识、思想、观点本身呢？

所以，你我只知道图灵测试，它却知道三个世界。

所以，我们应该拥抱它，还是恐惧它，还是服从它。。。？

6.参考

红杉资本报告原文：https://www.sequoiacap.com/article/generative-ai-a-creative-new-world/

本文部分内容由ChatGPT生成

【chatGPT】学习笔记5-四次发展&三个世界

文章目录