好久好久没写技术专栏了，深夜时分的失眠，刚好给我一个思考和写作的机会。

很多行业都在谈AI+行业，很多大厂都在关注模型，虽然前者在应用层、后者在模型层，但在摸索和探索的过程中问出的很多问题却存在着隐含的关联，这种隐含关联很可能决定了这个企业在行业中的地位、这个大厂能否在AI时代跑出来。

我们就从Xiaomi的Mimo-V2-Pro聊起。

1.Xiaomo的Mimo-V2-Pro，发生了什么？

(1)关于事

在OpenRouter上，出现了一个神秘模型Hunter Alpha，甚至引起了OpenClaw的作者的关注。

随后，小米公布Hunter Alpha其实就是Xiaomi的MiMo-V2-Pro。发自内心的说，小米的营销能力很值得学习。

小米在MiMo-V2-Pro的官网发布了相关信息：

长程规划能力：在OpenClaw和Claude Code中，Mimo-V2-Pro展现了很强的能力，因此在无人干预的情况下可以完成复杂工作流、精准的工具调用。
成本：使用体感已经超越了Claude Sonnet 4.6，逼近Opus4.6，但这么牛逼，其价格却是Claude的1/5。

所以，小米的Mimo-V2-Pro官网副标题才说：Agent能力已经进入全球顶尖水平。

官网还有一段话，值得关注：MiMo-V2-Pro的评分已经位居全球第八，中国第二。小米的友商们惊不惊喜、意不意外？

(2)关于人

罗福莉，本身肯定很优秀，但是被戴上了“天才少女”这个光环以后，翻车压力会很大。

否则不会在她的知乎签名是：做难而正确的事情。请各自媒体不要再神话和消费个人。

至少有一个问题：当初军儿给罗福莉戴上这顶光环的时候很多人都在质疑她对于DeepSeek并没有太多实质性的作用，那么DeepSeek不起诉罗福莉就是承认她曾经是对DeepSeek很有价值的，尴尬。

2.Mimo-V2-Pro有哪些技术价值？

小米开源了Mimo-V2-Flash，并且附上了论文。论文地址：https://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf

从技术角度说，虽然不喜欢小米这家公司，但只要敢开源、敢放出来论文的搞AI的公司，我就必须无脑点赞。

至少证明这家AI公司有技术信心——比那种只会在内部自嗨，开源即翻车的公司强一万倍。这种公司必然出了劣币驱逐良币的问题。

Mimo有3个技术亮点：

亮点1：Hybrid Attention，通俗地理解，别的大模型回答问题时，每写一个字都要回头看前面写过的每个字，目的就是重写读一遍、想一遍前面我都写了些啥，想明白了才敢写下一个字。是不是很不make sense？这样速度肯定快不起来！Mimo怎么做呢？提出了个Hybrid Attention的理论，这个理论也很朴实——让大模型模仿和人类一样的看书习惯——人类看当前的段落时最多会往前翻一两页，想不起来整本书在说啥时才会翻前面所有看过的内容——Mimo将前者叫局部注意力or滑动窗口注意力(SWA)，Mimo把后者叫做全局注意力(GA)。Mimo采用了全局注意力和滑动窗口注意力1:5的混合方案，推理速度提升了6倍。

亮点2：Attention sink bias，也很朴实的思想——像人类在嘈杂的环境里一样，很多嘈杂的噪音会被人脑当做背景音，而更重要的声音才会被人脑仔细关注。

亮点3：Multi-Token Predicction，简称MTP，依然也很朴素的思想，通俗地说，就是别的大模型是一个字一个字的输出，而Mimo像人类一样——打个草稿，把要写的内容一次性写完，然后快速检查一下，没问题就输出，有问题就重写。

好，忘记这些技术术语和技术细节——Hybrid Attention、Attention sink bias、MTP，这些技术要解决什么问题？

我认为本质就一个字：快——让大模型推理速度更快。

让大模型变小，很多AI模型公司都有技术方案。但让大模型变快，Mimo很有技术创意。

再瞎猜一下——小米这家围绕智能硬件的公司，让大模型在手机里、汽车里就能跑，而且跑的贼快，是不是市场竞争力更强？这可能就是小米的杀招。

3.对AI的认知误区

写到这里，要说一下我看到的大厂、小厂对AI的认知误区，各位领导、各位老板，说的就是你们，请对号入座：

搞AI应用的：
- **误区：**基层团队，特别是大厂里面的团队喜欢搞平台，以为把Coze之类的工作流套个壳就能做好智能体，这种靠程序员写死的工作流和过去的RPA自动化系统有什么区别？
- **误区：**中层领导，Manus热门就说Manus如何好，OpenClaw热门就说OpenClaw如何牛，永远追热门，永远只能跟随。
- 误区：高层领导，大厂也好小厂也罢，面对新事物通常保守且谨慎，以前能赚到钱的商业模式还能继续挣钱，新技术还是关注但让别人先跑，等别人跑通了我们再通过加班的方式追赶差距——美名其曰我们犯错的成本太高。是的，在互联网时代、在大数据时代，这些方法没错，而且极其正确。但是在今天的AI时代，你让别人先跑一个月，等你想追的时候，发现连对手的尾灯都看不见了，因为今天的AI是质变，是更高维的科技。
搞AI模型的：
- 误区：看自媒体文章，最多还会看跑分，能静下心来看论文、看代码的几乎没有，然后要么作为点赞派发表观点、要么作为批判派发表批判。其实这就是技术幼稚病。每个能做大模型的团队，必然有自己的技术创新点，而且无论技术创新的大小都值得致敬。但，也有摆不上台面的技术手段——洗数据、蒸馏、做跑分数据，大家都懂。所以我不想去测评1个新出来的大模型，也觉得毫无必要。

所以，互联网时代曾经的大厂和小厂，最后能在AI时代能跑出来的必然是高层、中层、基层高度的思想统一和各司其职——高层负责找对的人、中层最好别要(南郭先生太多)、基层放手去干但别玩花活儿(Show Me Your AI， No PPT)。

4.观点1：错失了AI大模型时间窗的大厂，你应该感到高兴！

我的第一个观点：看到小米的Mimo小成功，一堆在2023~2024年错过了AI大模型时间窗的大厂，应该高兴！

因为，小米证明了，即使它错过了2023~2024，也有手段能够弯道超车。

无论这种手段是摆的上台面的(例如：前面提到的Hybrid Attention、Attention sink bias、MTP这些技术创新)，还是摆不上台面的(例如：蒸馏、洗数据、跑分等等)，只要能商业成功就值得佩服。PS：我没说Mimo蒸馏、跑分哈，我说的是有的AI模型厂商干了这些事儿，小米法务别找我哈，我只是小卡拉米。

5.观点2：小米在商业上做对了什么？

我觉得是商业定力+方向准确——如果真的如我在第2章的猜测，小米很可能在谋划在端侧可以运行的快模型。

你是一家公司的高管，你公司的优势是什么？如果要自研大模型，你是想做大语言模型？多模态模型？侧重于全能的AGI？侧重于Agent的规划？

在手机时代，小米说自己为发烧而生——在发布会上最喜欢讲同等价位性能最强。

在AI时代，它只是把同一套商业价值观搬到了新的战场：

试想一下，当未来真的万物皆Agent的时候，在小米手机上、小米车机上、小米眼镜上以及所有的智能家居里，那个小Mimo，跑得快、跑得稳、跑得便宜才是让友商们瑟瑟发抖的事！

6.观点3：小米在技术上做对了什么？

不是第2章提到的那些技术创新点，那都是表象，本质是：像人类一样！

无论是做Agent、还是做大模型，就问自己一个问题：我做的Agent像个人吗？我做的大模型像个人吗？

你就会发现，不像！

那就进一步追问自己：哪里不像？

于是，你就会想到人类可以自我学习、自我批判已达成自我进化，你用Coze拖个本质是工作流的智能体能像个人才怪！

于是，你就会想到人类写文章的时候会写一个字就回头看前面所有写过的字吗？

所以，这个时候你就不会再去被下个月的新技术名词给带走了、或者为之焦虑了。

你自己就会判断Manus是真智能体还是假智能体。

你就会发现OpenClaw有点自我进化的意思了，但还差很大很大的意思。

你就会发现Mimo全球第二是真是假。

Mimo的这些技术创新，我认为就是来自于这种工程思想——我的大模型像个人类吗？

7.观点4：小米在营销上做对了什么？

请仔细阅读Mimo的官网：https://mimo.xiaomi.com/mimo-v2-pro

这哪里是一个技术型的文章？这分明是一个教科书级的营销好文：

第一部分，简述了Mimo的模型架构，马上引出核心观点：从聊天到能干活儿、Mimo的能力和Claude都差不多了，紧接着来个定性——Mimo已经是全球第八、中国第二了。

第二部分，揭开谜底——最近在OpenRouter上霸榜的Hunter Alpha就是我小米的Mimo！

第三部分，讲价值——Mimo第一就是为Agent而生的——OpenClaw都用我，Mimo这么强但是成本还很低很低。。。

你就说这篇文章写的好不好？你再去看看DeepSeek的文案，妥妥一个工科男文风。

再一个就是开源，把论文发出来、把代码发出来，别的不说了，我不喜欢小米，但我依然要为Mimo点赞。

8.观点5：实测Mimo，信一半就好

最后，来实测Mimo，来验证一下Mimo官网说的使用体感直逼Claude。

我写了一个初级版本的通用Agent，支持你来给它安排任何任务，它具备长程规划能力。

我丢给它的问题是：伊朗战争对全球金融的影响是什么？对美元有什么影响？

我做了四个实验：

1、我把问题直接丢给DeepSeek

2、我把问题直接丢给Mimo

3、我把问题丢给我的Agent，但接入的是DeepSeek

4、我把问题丢给我的Agent，但接入的是Mimo

实验1：这是DeepSeek回答的，内容是没错，但像做出投资机构研报的水平还差十万八千里。

实验2：这是Mimo回答的，答案的逻辑性不强，分析深度停留在表面。

实验3：这是我的Agent接入DeepSeek输出的研报，看提纲更有条理，看内容数字详尽。

实验4：这是我的Agent接入Mimo输出的研报，看提纲也很有条理，看内容很浅缺少数字量化说服力。

从上面的4个实验看：

直接调用大模型，Mimo的使用体感并没有DeepSeek那么强，还需要提升。
通过具备长程规划能力的Agent来调用Mimo，只能说Mimo的愿景是为Agent而生，但我觉得现在还弱于DeepSeek。

另外，我也希望通过这个实验说明一个技术观点：

真正的Agent不是简单地调用大模型，而是更像人类的完成任务的工作模式、思维模式。你看我的Agent调用DeepSeek来完成任务，比把任务直接丢给DeepSeek要好很多。Agent开发的好，也是可以极大地提升大模型的能力。
别老吹牛做Agent平台了，Agent平台应该做，但是像个人的Agent才是Agent平台的核心。

8.总结

错失AI大模型时间窗的大厂，可以学习小米的思路。
Mimo在商业上，有清晰的战略定力，围绕小米的优势去实现大模型的能力。
Mimo在技术上，本质是去模仿人类，引发了不少不错的创新点。
Mimo在营销上，很值得学习。

晚安！各位小伙伴！

【chatGPT】学习笔记66-关于Xiaomi的MiMo-V2-Pro

文章目录