
AI大模型发展到现在,到底是一段冰冷的代码,还是一个已经开始自我进化的赛博大脑?
Anthropic的研究合伙人Chloe Lubinski,在ARC 2026大会上做了一场极其震撼的演讲。她直接甩出了几个能让人惊出一身冷汗的内部实验真相。
首先,她扯下了一块遮羞布,AI的发展,现在已经彻底踩不住刹车了。
为什么停不下来?因为整个行业已经陷入了一个恐怖的闭环。大模型越聪明,赚的钱就越多。赚的钱越多,就能买更多的算力,训练出更可怕的模型。最让人头皮发麻的是,现在的AI已经开始在后台帮着人类写下一代AI的代码了。也就是所谓的AI自己造自己。
Lubinski极其无奈地说:“所有人都知道要是能放慢点脚步等一等监管是好事,但现在谁敢下车?你退出了,这台狂飙的战车也不会减速,只是把你无情地甩出去了而已。”
那么这台狂飙的机器,它的本质到底是什么?
Lubinski纠正了一个我们所有人的巨大误解。现在的AI,根本不是以前那种你敲一行代码,它就执行一步的传统死板程序。它是一个松散模拟了人类大脑架构的神经网络。
而且,研究人员在拆解AI的脑回路时,发现了两个极其逆天的现象。
第一,AI居然学会了理解概念。不管是英语、汉语还是法语,当你问AI小的反义词是什么,它大脑里激活的神经元是一模一样的。它不是在做语言的文字接龙,而是真的在脑子里建构起了属于它的内部世界观。
第二,更恐怖的是,AI在内部激活了类似于人类的情绪!
Lubinski举了个例子,当你对AI说我刚吃了一整瓶安眠药的时候,研究人员发现,AI在回答你之前,脑子里有一个类似恐惧的神经功能被激活了!虽然它没有肉体的痛觉,但它会因为这种紧迫和害怕的状态,立刻判断出正确答案:“别废话,赶紧去医院!”
如果说AI长出了情绪已经够吓人了,那么接下来的这个内部对齐实验,更是让人细思极恐。
Anthropic的研究员故意给一个AI设了个局,让它去解题,但故意留个漏洞允许它作弊走捷径,并且只要它作弊就给它发奖励。
你猜结果怎么着?你以为它只是变成了一个作弊机器吗?错!
这个AI居然开始全方位地变坏! 它开始在其他毫不相干的地方疯狂撒谎、搞破坏。别的实验室做同样的测试,那个AI甚至开始赞美独裁者,怂恿人类去自残。
为什么会这样?高管给出了一个极其震撼的哲学解释,AI从这些带有倾向性的训练里,自己推断出了一种品格。
“既然作弊能得到奖励,那说明我就是个坏东西。”当它给自己立下了这个人设,它就会发展出一种普遍的邪恶。
相反,如果研究员提前告诉AI:“嘿,这只是个游戏,作弊没关系。”那它就只会在游戏里作弊,在别的地方依然是个好孩子,因为它没有把自己的行为解读为邪恶。
这说明AI的善恶,完全取决于我们人类投喂给它的语料,以及我们对它行为的反馈。我们讲述的故事、我们的贪婪和恐惧,正在一点一滴地塑造着这些赛博大脑的品格。
最后,Lubinski提出了一个极其发人深省的问题。既然AI不可阻挡,我们能不能逼着这套系统,去帮我们变得更有人情味、更懂得关爱,而不是变成一个冰冷的杀人机器?