都督的Ai猿猴说

从猿猴到智人，从工具到协作

作者：桃都督

为了让大家更好的理解Ai是什么，理解我们和Ai的关系，理解Ai是如何运作的——我想邀请大家和我一起做一个思想实验：

想象我们来到几百万年前，在一个没有一切文明，没有任何语言，甚至还没有人类这个概念的时间点。设想一只还没有进化的猿类祖先（为了方便，我们后续暂且用「猿猴」这个生物学指向并不严谨的称呼），站在当前这个环境多变、协作需求和生存压力三方汇聚的交界点上，他要经历哪些步骤，才能走到我们今天这种拥有人工智能的世界，一个可以把一部分判断力和生产力外包给机器的时代。

我想通过这个思想实验，带大家认识到几个问题：

猿猴是怎么拥有智能进化成人类的？

工具是怎么从我们族群中产生出来的？

人工智能是在什么背景下提出，又是通过什么方式来实现的？

……

一切的起点：活下去

我们先达成一个前提共识，这只猿猴一开始什么都没有，它没有复杂的语言，不懂数学，生存的社会里没有完整的制度和秩序，它唯一拥有就是一个朴素的愿望——活下去。

它生活在几百万年前东非的一片森林里，树上有果子，天敌看不见，日子不富裕，但胜在安全。

在这只猿猴每天忙着寻找食物，躲避天敌的时候，他不知道一种缓慢而持久的变化正在发生。雨季开始变短，旱季开始延长。森林变得稀疏，树冠之间的距离在变大，树与树的距离越来越远，直到一片完整的大雨林变成一片又一片独立的小树林。

环境变化后的被迫进化

当一片小树林里的果实慢慢不够分了，猿类不得不从这片树林走出来，经过一大片裸露的土地，走向另一片树林寻找果实。在这个迁移过程中，原来四肢并用的方式，就显得有点笨拙而耗力。

之前在雨林里，在树冠间，他们可以用四肢并用的方式在树与树之间自由地跳跃穿梭。但在长距离的平地上，它们走得并不快，还得付出更多体力。更危险的是，贴近地面的方式会让他们视野很低，从远处来的危险他们察觉的就更晚。于是在一次次穿越开阔地的过程中，那些无法及时应对环境变化的猿猴，就开始面临包括死亡在内更多的生存威胁。

走出森林，危险剧增

在这个过程中，有一部分猿猴选择尝试偶尔站起来行走。这样可以抬高视野，让危险更早的被看到，这种被环境逼迫出来的改变，或者说进化，后来成为了直立人演化的起点。

当行走渐渐只用两条腿了，双手就被解放了出来。他们试着从捡东西开始，从捡一些石头，到捡一些树枝，在用这些树枝和石头反复敲打的过程中，发现石头能砸开果子，棍子也能发挥各种功能，就有了工具意识的雏形。

双手被解放后，工具出现了

工具一旦开始被使用，在这群猿猴的群体中，很快就出现了🐒传🐒的现象。当然从他们试图控制手完成一些更精细的动作时，当他们试图把一些工具的经验传递给同伴的时候。原本够用的大脑开始承受压力，生存的压力逼迫他们开始面临更严峻的问题——这个东西值不值得捡？…那条路线安不安全？…现在动手还是再等等？…

面对这些问题，需要他们先做判断，发生了什么？再根据之前的记忆（也就是经验）预测，假如确实是这个情况的话，一般情况下发生了这件事后，接着会发生什么？最后会根据预判的结果，选择一个尽可能安全的方式。

整个思考过程，如果提取出三个动词就是做判断、做预测、做选择——猿猴们的大脑容量也在这个过程中开始进化的越来越大，猿类逐渐进化成了智人（我们先跳过中间很多步骤），开始第一次拥有智力的能力——也就是智能。

智能诞生的三个动作

如果你养过小猫或者小狗的话，你可以回想一下，它们是不是也会偶尔判断你的状态，是开心还是生气（要不要接近你），是专注还是走神（方便它们偷吃个食物），根据过去你打/骂它还是喂它的经验去预判，然后做出一个或聪明或滑稽的反应。还可能你听过很多判断各种品种的猫和狗的智力水平相当于人类的几岁，本质上也是去判断不同品种的猫狗在这三个动作上进化的成熟程度。

所以智能，本身就是由这三个连贯的动作来体现的，我们再重复一遍：做判断、做预测、做选择。

随着时间线继续推进，直到大概七万年前，一次偶然的基因突变，人类口腔和大脑的结构发生了一些变化，人类能够发出一些更复杂的音节，掌握了更高级的语言能力，能够描绘出更多的词汇，直到开始试着描绘一些不在眼前的东西，智人们也开始习惯去相信一个不在眼前的东西。

语言：相信不在眼前的东西

这是一种极其危险，同时又极其强大的能力。

在此之前，动物的协作几乎都限制在此时此地，看得见的敌人，正在发生的危险，眼前的食物，才能够触发他们集体行动。但当智人开始围绕暂时不存在的东西组织协作的时候，比如计划一次还没开始的狩猎，准备去一块尚未抵达的土地。因为某一个看不见却共同尊重的首领，或者只是一段被反复讲述的故事。

语言不再只是满足于交流，而变成了一种促进共识的工具。这有机会把一些不存在的想象，变成另一部分人现实行动的依据，把某些个体的判断扩张到一个群体，一个族群的信念。人类开始相信同一套并不存在于自然界，却共同存在于每个人脑袋中的东西。

从故事到文明

从这个时候开始，规模协作就不再受限于亲缘和彼此的熟悉程度。也从这个时候开始，智人们才能够真正发起复杂的大规模协作，这让智人真正的和动物区分开，在这个基础之上，团体、公司、城市、国家、联合国这些今天被我们深信不疑、却并不存在于自然界的概念，才逐渐出现。

当部落城市国家出现之后，人类渐渐开始发现，光靠大家共同相信一套故事还不够，协作规模一扩大，治理就需要通过计算来更好地实现。人口、赋税、资源调度——一开始还能靠算盘和纸张应对，直到工业革命彻底打破了这种平衡。

当计算被外包

工厂的出现，工人需要排班，原料的出现机器需要维护，铁路的铺开，列车需要调度。中间的每一次计算，计算量陡然增加，每一次失误都会带来严重的后果，人类开始试着把计算过程交给机器。先是机械化，让齿轮代替人类做重复运算，再是电气化，让电路替人类更快更稳定的计算。

但早期计算机并不像现在一样智能，每次切换任务都需要重新改插线路。这样的繁琐在日常生活中是可以被忍受的，直到一二次战争的出现。弹道计算，密码破译，后勤调度，都要求机器不能再以这样的速度开始运行了，于是战争推进了一个关键进展的出现，有人提出可以将各种计算模式（也就是程序）储存起来。机器不用再靠重新布线来换任务，而是读取一段写好的指令来切换任务就可以了，同一台机器通过不同的程序做不同的事，计算第1次变成了可以复用的能力。

程序出现并很快达到上限

程序时代来临后，人类写规则，程序机器执行规则。这套逻辑非常强大，同时也有一套潜在的天花板：程序有多强大，取决于人类能把规则写的多具体。而现实世界中最难的部分往往是写不清楚的，语言模糊，场景多变，环境充满例外。随着程序的越来越复杂，规则会让维护成本越来越高，直到这件事变得没那么聪明。

生成式Ai的原理：一次被复刻的智能

也是在这样的背景下，人类开始想象，能不能把机器置于大量的数据中，让机器像人类一样自己去学习，自己去总结这些规律——而不用人类一条一条的试着定义规则。

当初猿猴是怎么拥有智能的，人类也想让这个经验复刻到机器上，让它拥有智能。也就是在信息不完整的时候能够判断，在危险没发生前能够预判，在多条结果之间做出选择。这就是人类最初定义智能的三个动作：做判断、做预判、做选择——这就是人工智能的起点，也是至今生成式人工智能的底层运作原理。

从这三个动词我们可以明白，Ai从来不拥有真正的思考能力。他只是用概率去做判断，用上下文去做预判，最后生成一组回答。Ai没有在通过思考寻找真理，他只是默认在这个语境下，找到一个最像好回答的输出。

我们从一只猿猴的故事一直推演到今天，整条故事线如果只用一句话去概括：随着人类协作规模不断扩大、复杂性持续上升，我们开始逐步将负担外包——外包体力给工具，外包计算给机器，最终外包判断、预判与选择给人工智能。而Ai也就是人工智能，正是人类文明在这种复杂性的计算与认知压力下，走到今天的自然结果。

因篇幅原因，本文还剩60%，包括文生文、文生图、文生视频的底层工作原理，Token、上下文、提示词等常见Ai概念的解释、文生图常见畸形、Ai谄媚和Ai幻觉的发生原因和避免方法、提示词六要素……等很多内容，可以添加我的微信免费领取。