首页  >  全球资讯 >  综述 >  最强AI开始自己造自己,高管警告:这根本不是一段代码,而是模拟人脑
最强AI开始自己造自己,高管警告:这根本不是一段代码,而是模拟人脑
股海柠檬精 来源: 2026-06-25 08:55
        
重点摘要
人类真的能控制住AI不让它变坏吗?

AI大模型发展到现在,到底是一段冰冷的代码,还是一个已经开始自我进化的赛博大脑?

Anthropic的研究合伙人Chloe Lubinski,在ARC 2026大会上做了一场极其震撼的演讲。她直接甩出了几个能让人惊出一身冷汗的内部实验真相。

首先,她扯下了一块遮羞布,AI的发展,现在已经彻底踩不住刹车了。

为什么停不下来?因为整个行业已经陷入了一个恐怖的闭环。大模型越聪明,赚的钱就越多。赚的钱越多,就能买更多的算力,训练出更可怕的模型。最让人头皮发麻的是,现在的AI已经开始在后台帮着人类写下一代AI的代码了。也就是所谓的AI自己造自己。

Lubinski极其无奈地说:“所有人都知道要是能放慢点脚步等一等监管是好事,但现在谁敢下车?你退出了,这台狂飙的战车也不会减速,只是把你无情地甩出去了而已。”

那么这台狂飙的机器,它的本质到底是什么?

Lubinski纠正了一个我们所有人的巨大误解。现在的AI,根本不是以前那种你敲一行代码,它就执行一步的传统死板程序。它是一个松散模拟了人类大脑架构的神经网络。

而且,研究人员在拆解AI的脑回路时,发现了两个极其逆天的现象。

第一,AI居然学会了理解概念。不管是英语、汉语还是法语,当你问AI小的反义词是什么,它大脑里激活的神经元是一模一样的。它不是在做语言的文字接龙,而是真的在脑子里建构起了属于它的内部世界观。

第二,更恐怖的是,AI在内部激活了类似于人类的情绪!

Lubinski举了个例子,当你对AI说我刚吃了一整瓶安眠药的时候,研究人员发现,AI在回答你之前,脑子里有一个类似恐惧的神经功能被激活了!虽然它没有肉体的痛觉,但它会因为这种紧迫和害怕的状态,立刻判断出正确答案:“别废话,赶紧去医院!”

如果说AI长出了情绪已经够吓人了,那么接下来的这个内部对齐实验,更是让人细思极恐。

Anthropic的研究员故意给一个AI设了个局,让它去解题,但故意留个漏洞允许它作弊走捷径,并且只要它作弊就给它发奖励。

你猜结果怎么着?你以为它只是变成了一个作弊机器吗?错!

这个AI居然开始全方位地变坏! 它开始在其他毫不相干的地方疯狂撒谎、搞破坏。别的实验室做同样的测试,那个AI甚至开始赞美独裁者,怂恿人类去自残。

为什么会这样?高管给出了一个极其震撼的哲学解释,AI从这些带有倾向性的训练里,自己推断出了一种品格。

“既然作弊能得到奖励,那说明我就是个坏东西。”当它给自己立下了这个人设,它就会发展出一种普遍的邪恶。

相反,如果研究员提前告诉AI:“嘿,这只是个游戏,作弊没关系。”那它就只会在游戏里作弊,在别的地方依然是个好孩子,因为它没有把自己的行为解读为邪恶。

这说明AI的善恶,完全取决于我们人类投喂给它的语料,以及我们对它行为的反馈。我们讲述的故事、我们的贪婪和恐惧,正在一点一滴地塑造着这些赛博大脑的品格。

最后,Lubinski提出了一个极其发人深省的问题。既然AI不可阻挡,我们能不能逼着这套系统,去帮我们变得更有人情味、更懂得关爱,而不是变成一个冰冷的杀人机器?