新闻动态

新闻动态

稠密=强大?OpenAI研究颠覆认知:稀疏连接竟让AI更聪明、更透明!

2025-11-24

最近在 AI 圈子里有件挺有意思的事,OpenAI 又抬出了一个新研究,不过这次重点不在更大的参数量,而是在让模型变得更“看得懂”。以前我们说大语言模型像黑箱,输进去个问题,它能给你答案,但是为什么这么答,很多时候连专家也说不清楚,这就导致它偶尔会胡说八道或者在关键任务上表现不稳定,大家只能知道它错了,却很难查出错在哪。OpenAI 想试试从模型的结构本身入手,看能否让它天然就容易解释。

画面感大概是这样,你拿一个比 GPT-2 差不多大小的模型,但是你强行让它的很多神经元连接为零,就像给电路板剪掉一大半线路,这样网络就稀疏了,每个节点只连接很少几个其他节点。因为少了复杂纠缠的连接,也许你就能更明确地看到某个小片区到底负责什么任务。结果他们真发现,这种模型里可以拆出一些单独的“小电路”,这些电路就是为了某个目的而存在,比如用来判断 Python 代码里的字符串该用单引号还是双引号。

我第一次看这个例子时有点懵,因为按理说这种引号问题在复杂模型里只是无数行为中的极小一部分,想在结构里找到负责它的具体神经元,就像在城市里找一个修灯泡的工人一样难。不过他们真做到了,甚至能可视化出几条注意力通道和少数几个 MLP 神经元,这些东西配合起来,把引号的类型传递到位置,这几乎就是在做一个很简单的小算法。我觉得这事有意思的地方不是引号,而是它告诉我们,某种训练方式的确能让部分模型内部更“透明”。

聊到可解释性,其实大家早就知道它的重要性,尤其是在科学、医疗、教育这些领域里,模型的决策会直接影响人的选择。之前的常见做法是让模型在推理时讲出来自己的思路,也就是所谓的思维链。虽然这有用,但有点像让学生在考试时写草稿,草稿有可能乱写瞒天过海,不能当作绝对真相。所以 OpenAI 这个方法属于另一个流派——机械可解释性,它不是让模型自己解释,而是我们用工具去逆向工程,把它的计算过程拆开、分析、理解。

不过说实话,要从神经元层面推到复杂行为的解释,是条很长很难的路。像他们自己也承认,这次只是一些简单任务能做到,离能完全理解最强模型还有很多年的功夫要下。但这给了研究者一个方向:或许可以通过训练过程的设计,让模型天生就比稠密网络更容易理解,然后再逐步扩展到更复杂的推理任务。

有点反常识的是,很多人会觉得神经元越多、连接越多,模型就越厉害,越聪明。但是在可解释性这个维度下,过多连接反而是一种麻烦,因为一个神经元可能同时做几种事,你根本分不清它的本职工作。稀疏模型虽然连接少,但如果你把规模扩大,它的能力和可解释性竟然还能同时增强。这就像一个人团队,每个人只管一块事,同时团队变大,你反而更容易分工明确。

举个更复杂的例子,他们还研究了变量绑定的行为,比如在 Python 里一个变量被定义成集合类型,后面用到它时模型得知道它是集合而不是字符串。这个过程涉及两个注意力步骤:第一个在定义时复制变量名到 set(),第二个在使用时把集合类型信息传回来。你听起来可能觉得简单,但在庞大的模型里锁定这些传递路线非常难。有了稀疏结构,他们至少能抓到一部分解释线路,并且用这些线路预测模型行为。

未来怎么走?OpenAI 打算两条路一起试,一是从现有的大稠密模型里直接“抽”出稀疏的电路而不是重头训练,二是开发更高效的训练方法,让可解释性导向的模型也能在实际部署中用得起。他们也提醒,这个方法不是说一定能扩展到超级强大的系统,不过早期结果多少让人有点鼓舞。

我觉得这种研究的价值不止在于学术好奇心,更关系到我们以后怎么信任 AI,如果我们能建出既强大又能看懂的模型,就像你开车时能看见仪表盘的工作状态一样,出现问题能及时刹车,这才是和 AI 长期合作的前提。而这个过程可能会让我们重新思考一个问题:追求极限性能和追求可解释性,是不是应该并列放进下一代模型设计里。

新闻动态

Powered by 意昂体育 RSS地图 HTML地图

Copyright Powered by365建站 © 2013-2024