最强AI开始自己造自己，高管警告：这根本不是一段代码，而是模拟人脑_综述_全球资讯

首页 > 全球资讯 > 综述 > 最强AI开始自己造自己，高管警告：这根本不是一段代码，而是模拟人脑

最强AI开始自己造自己，高管警告：这根本不是一段代码，而是模拟人脑

股海柠檬精来源: 2026-06-25 08:55

重点摘要

人类真的能控制住AI不让它变坏吗？

AI大模型发展到现在，到底是一段冰冷的代码，还是一个已经开始自我进化的赛博大脑？

Anthropic的研究合伙人Chloe Lubinski，在ARC 2026大会上做了一场极其震撼的演讲。她直接甩出了几个能让人惊出一身冷汗的内部实验真相。

首先，她扯下了一块遮羞布，AI的发展，现在已经彻底踩不住刹车了。

为什么停不下来？因为整个行业已经陷入了一个恐怖的闭环。大模型越聪明，赚的钱就越多。赚的钱越多，就能买更多的算力，训练出更可怕的模型。最让人头皮发麻的是，现在的AI已经开始在后台帮着人类写下一代AI的代码了。也就是所谓的AI自己造自己。

Lubinski极其无奈地说：“所有人都知道要是能放慢点脚步等一等监管是好事，但现在谁敢下车？你退出了，这台狂飙的战车也不会减速，只是把你无情地甩出去了而已。”

那么这台狂飙的机器，它的本质到底是什么？

Lubinski纠正了一个我们所有人的巨大误解。现在的AI，根本不是以前那种你敲一行代码，它就执行一步的传统死板程序。它是一个松散模拟了人类大脑架构的神经网络。

而且，研究人员在拆解AI的脑回路时，发现了两个极其逆天的现象。

第一，AI居然学会了理解概念。不管是英语、汉语还是法语，当你问AI小的反义词是什么，它大脑里激活的神经元是一模一样的。它不是在做语言的文字接龙，而是真的在脑子里建构起了属于它的内部世界观。

第二，更恐怖的是，AI在内部激活了类似于人类的情绪！

Lubinski举了个例子，当你对AI说我刚吃了一整瓶安眠药的时候，研究人员发现，AI在回答你之前，脑子里有一个类似恐惧的神经功能被激活了！虽然它没有肉体的痛觉，但它会因为这种紧迫和害怕的状态，立刻判断出正确答案：“别废话，赶紧去医院！”

如果说AI长出了情绪已经够吓人了，那么接下来的这个内部对齐实验，更是让人细思极恐。

Anthropic的研究员故意给一个AI设了个局，让它去解题，但故意留个漏洞允许它作弊走捷径，并且只要它作弊就给它发奖励。

你猜结果怎么着？你以为它只是变成了一个作弊机器吗？错！

这个AI居然开始全方位地变坏！ 它开始在其他毫不相干的地方疯狂撒谎、搞破坏。别的实验室做同样的测试，那个AI甚至开始赞美独裁者，怂恿人类去自残。

为什么会这样？高管给出了一个极其震撼的哲学解释，AI从这些带有倾向性的训练里，自己推断出了一种品格。

“既然作弊能得到奖励，那说明我就是个坏东西。”当它给自己立下了这个人设，它就会发展出一种普遍的邪恶。

相反，如果研究员提前告诉AI：“嘿，这只是个游戏，作弊没关系。”那它就只会在游戏里作弊，在别的地方依然是个好孩子，因为它没有把自己的行为解读为邪恶。

这说明AI的善恶，完全取决于我们人类投喂给它的语料，以及我们对它行为的反馈。我们讲述的故事、我们的贪婪和恐惧，正在一点一滴地塑造着这些赛博大脑的品格。

最后，Lubinski提出了一个极其发人深省的问题。既然AI不可阻挡，我们能不能逼着这套系统，去帮我们变得更有人情味、更懂得关爱，而不是变成一个冰冷的杀人机器？