封杀这个公式,ChatGPT智商将为零
引
2022年,ChatGPT问世。
一经出现便掀起滔天巨浪。
如果你跟ChatGPT聊过天,一定会震撼于它所涉猎极广:
既能创造诗歌,也能修改代码。
可以批改作业,还能撰写论文。
写文案易如反掌,给方案不在话下。
……
有人兴奋,有人恐慌。
有人说,它会带来一次新的“工业革命”。
有人说,它会引发21世纪的“新卢德运动”。
这其实不是AI第一次向人类展示它的力量。
自动驾驶、MIT主导的人类写字系统、SIRI智能语音助手、AlphaGo……
但这一次,ChatGPT确实惊吓到了人类。
我们能抵挡来势汹汹的AIGC狂潮吗?
人类是不是真的会被ChatGPT取代?
要回答这些问题,让我们先回归数学。
因为ChatGPT背后的核心本质,是“贝叶斯公式”。
1
什么是贝叶斯公式?
历史有许多天才,生前籍籍无名,死后众人崇拜。
18世纪数学家托马斯·贝叶斯也是其中一位。
“贝叶斯”定理源于解决“逆向概率”问题时写的论文。
在此之前,人们只会计算“正向概率”。
什么是“正向概率”呢:
假设袋子里面有P只红球,Q只白球,它们除了颜色之外,其它性状完全一样。你伸手进去摸一把,摸到红球的概率是多少是可以推算出来的。
但反过来是否也可以计算,我们可以将它视为“逆向概率”:
如果我们事先并不知道袋子里面红球和白球的比例,而是闭着眼睛摸出一些球,然后根据手中红球和白球的比例,对袋子里红球和白球的比例作出推测。
这个问题就是逆向概率问题。
通俗地讲,就像一个迷信星座的HR,如果碰到一个处女座应聘者,HR会推断那个人多半是一个追求完美的人。
这就是说,当你不能准确知悉某个事物本质时,你可以依靠经验去判断其本质属性。
这个研究看起来平淡无奇,名不见经传的贝叶斯也未引人注意。
他写的论文直到他死后的第二年,才由他的一位朋友在1763年发表。
明珠蒙尘,就像画界的梵高,画稿生前无人问津,死后价值连城。
为什么贝叶斯定理200多年来一直被雪藏,不受科学家待见?
因为它与当时的经典统计学相悖,甚至是“不科学”的。
经典统计学中,数字规律来源于随机取样再行计算。
贝叶斯方法则建立在主观判断基础上,你可以先估计一个值,然后根据客观事实不断修正。
从主观猜测出发,这显然不符合科学精神,所以贝叶斯定理为人诟病。
1774年,法国的大数学家拉普拉斯也看到贝叶斯定理的价值。
不过他知道人类的普遍毛病,总是用传统来反对新思想。
他懒得与人争论,直接给出数学表达:
2
贝叶斯公式是怎么工作的?
贝叶斯定理简单优雅、深刻隽永。
贝叶斯定理并不好懂,每一个因子背后都藏着深意。
它到底是如何“为人民服务”的呢?
对于贝叶斯定理,参照上面的公式,首先要了解各个概率所对应的事件。
P(A|B)是在B发生的情况下A发生的概率;
P(A)是A发生的概率;
P(B|A)是在A发生的情况下B发生的概率;
P(B)是B发生的概率。
举个例子。
量子妹约定帅哥去爬梧桐山,希望玩到人约黄昏后占点便宜,然而天公不作美,一大早天空多云。
这可怎么办?60%的雨天的早上是多云的。帅哥说,不玩了吧。
量子妹当然不甘心,劝说帅哥:
❶多云不见得会下雨,大约30%日子早上是多云的!
❷深圳天气平均一个月才3天下雨,10%的概率而已。
帅哥并不是绣花枕头,非常科学地用“贝叶斯公式”计算:
用“雨”来代表今天下雨,“云”来代表早上多云。
当早上多云时,当天会下雨的可能性是P(雨|云)。
P(雨|云) = P(雨)·P(云|雨) /P(云)
P(雨) 是今天下雨的概率 = 10%
P(云|雨) 是在下雨天早上有云的概率 = 60%
P(云) 早上多云的概率 = 30%
那么,贝叶斯定理的答案就出来了
P(雨|云) =0.1×0.6/0.3=0.20
帅哥毫无表情地说:今天下雨的概率是20%,确实可以去爬山。
3
贝叶斯公式取得人类信任
今天的贝叶斯理论开始遍布一切。从物理学到癌症研究,从生态学到心理学。
贝叶斯定理几乎像“热力学第二定律”一样放之宇宙皆准了。
物理学家提出了量子机器的贝叶斯解释,以及贝叶斯捍卫了弦和多重宇宙理论。
哲学家主张作为一个整体的科学可以被视为一个贝叶斯过程。
在IT界,AI大脑的思考和决策过程,被更多工程师设计成一个贝叶斯程序。
但贝叶斯诞生以来命途多舛,长期以来因为表面的不科学,并没有得到主流学界认可。
其实在日常生活中,我们也常使用贝叶斯公式进行决策。比如我们到河边钓鱼,根本就看不清楚河里哪里有鱼或者没鱼,似乎只能随机选择,但实际上我们会根据贝叶斯方法,利用以往积累经验找一个回水湾区开始垂钓。
这就是我们根据先验知识进行主观判断,在钓过以后对这个地方有了更多了解,然后再进行选择。所以,在我们认识事物不全面的情况下,贝叶斯方法是一种非常理性且科学的方法。
贝叶斯公式得到主流科学界的认可,主要因为两件事:
❶《联邦党人文集》作者揭密
1788年,《联邦党人文集》匿名出版,两位作者写作风格几乎一致。其中12篇文章作者存在争议,而要找出每一篇文章的作者极其困难。
两位统计学教授采用以贝叶斯公式为核心的分类算法,10多年的时间,他们推断出12篇文章的作者,而他们的研究方法也在统计学界引发轰动。
❷美国天蝎号核潜艇搜救
1968年5月,美国海军天蝎号核潜艇在大西洋亚速海海域失踪。军方通过各种技术手段调查无果,最后不得不求助于数学家John Craven,John Craven提出的方案使用了贝叶斯公式,搜索某个区域后根据搜索结果修正概率图,再逐个排除小概率的搜索区域,几个月后,潜艇果然在爆炸点西南方的海底被找到了。
2014年初马航MH370航班失联后,科学家想到第一个方法就是利用贝叶斯定理开始区域搜索,这个时候,贝叶斯公式已经名满天下了。
4
贝叶斯公式展示“神迹”
当然,贝叶斯定理名扬天下,主要还是在人工智能领域的应用。
特别是自然语音的技术识别,让人类见识了A.I.的“思考力”。
人类语言的多义性,可以说是信息里最复杂最动态的一部分。
机器怎么知道你在说什么?
当看到机器翻译的准确性,你也会感叹这简直就是“神迹”,它们比大部分现场翻译要强得多。
语音识别本质上是找到概率最大的文字序列。
一旦出现条件概率,贝叶斯定理总能挺身而出。
我们用P(f|e)区别于以上的P(A|B)来解释语音识别功能。
统计机器翻译的问题可以描述为:给定一个句子e,它可能的外文翻译f中哪个是最靠谱的。
即我们需要计算:P(f|e)
P(f|e) ∝ P(f) * P(e|f)
这个式子的右端很容易解释:
那些先验概率较高,并且更可能生成句子e的外文句子f将会胜出。
我们只需简单统计就可以得出任意一个外文句子f的出现概率。
随着大量数据输入模型进行迭代,随着计算能力不断提高,随着大数据技术的发展,贝叶斯定理威力日益凸显,贝叶斯公式巨大的实用价值也愈发体现出来。
语音识别仅仅只是贝叶斯公式运用的其中一个例子。
实际上,贝叶斯思想已经渗透到了人工智能方方面面。
5
贝叶斯网络,AI智慧的拓展
语音识别,见证了贝叶斯定理的能力。
贝叶斯网络的拓展,则可以看到更强大的人工智能未来。
借助经典统计学,人类已经解决了一些相对简单的问题。
然而经典统计学方法却无法解释复杂参数所导致的现象,例如:
龙卷风的成因,2的50次方种可能的最小参数值比对;
星系起源,2的350次方种可能的星云数据处理;
大脑运作机制,2的1000次方种可能的意识量子流;
癌症致病基因,2的20000次方种可能的基因图谱;
……
面对这样数量级的运算,经典统计学显得力不从心。
科学家别无选择,最终寻找贝叶斯定理给予帮助。
把某种现象的相关参数连接起来,再把数据代入贝叶斯公式得到概率值,公式结网形成一个成因网,即贝叶斯网络,如下图所示:
这也是贝叶斯网络被称为概率网络、因果网络的原因。
利用先验知识和样本数据,确立随机变量之间的关联,然后得出结论。
一个又一个的节点,一个又一个的概率,都来源于人类的先验知识,有效知识越多,贝叶斯网络展示的力量越让人震撼。
今天一场轰轰烈烈的“贝叶斯革命”正在AI界发生:
贝叶斯公式已经渗入到工程师的骨子里,贝叶斯分类算法也成为主流算法。
在很多工程师眼中,贝叶斯定理就是AI发展的基石。
结
人工智能第一课,都是从贝叶斯定理开始。
大数据、人工智能和自然语言处理中都大量用到贝叶斯公式。
CHATGPT是如何确定生成的句子是合理的?
背后同样是贝叶斯公式在主导。
贝叶斯公式有多厉害?
CHATGPT已经向我们演示一遍了。
不过,贝叶斯公式与AI的结合,
到底是一场科学的革命,还是一场理念的革命?
到底是生产方式的革命,还是人类在革自己的命?
我们无法得知。
在与CHATGPT对话的过程中,偶尔发现部分回答有些诡异。
甚至开始担心,CHATGPT再这样下去,会不会诞生“自我意识”?
到那时候,人类与AI会不会真正成为对立的双方?
这似乎有点杞人忧天了。
纵观整个社会,倒不用太担心AI像人一样思考,最应该担心人类已经失去了思考。