>
林允宁敲了敲白板,“我们可以改变计算顺序。先算后面这一部分。原本那个N乘以N的巨大矩阵,消失了。取而代之的,是一个只有d乘以d(特征维度)的微型矩阵。”
台下原本有些嘈杂的议论声瞬间消失。
在座的都是聪明人,当那个括号的位置发生改变时,所有人脑子里的算盘都在疯狂拨动。
从平方级,变成了线性级。
“如果你这么做,你就毁了注意力。”
一个冷峻的声音打断了林允宁。
魏斯依然坐在椅子上,但他的眼神变得极其锐利。
作为谷歌搜索算法团队的核心人物,他虽然有着大厂高管特有的傲慢,但业务能力也极强,非常专业地指出了致命伤:
“林先生,这是一个聪明的数学把戏。但是,Softax的作用不仅仅是归一化,它通过指数运算放大了强信号,抑制了弱信号。这叫‘赢家通吃’(Wier-take-all)。
“正是因为这种尖锐的分布,AI才能精准地关注到那个最重要的词。
“而你用的核函数φ(x)——不管你用ELU还是ReLU——它们都是平滑的。如果你把Softax拿掉,你的注意力分布就会变得非常‘平’,非常‘模糊’。
“你确实把O(N^2)降到了O(N),但你也把一个原本拥有锐利眼神的狙击手,变成了一个散光的近视眼。对于Google搜索来说,这种模糊的匹配是不可接受的。”
魏斯的话音落下,台下响起了一阵低声的附和。
这才是真正的技术痛点。
没有免费的午餐。
你省了算力,就得亏精度。
程新竹在台下捏紧了拳头,手心全是汗。
她虽然不懂具体的数学,但她听得懂“近视眼”这个比喻。
台上的林允宁并没有慌张。
他甚至点了点头,表示赞同。
“您说得非常对,魏斯博士。”
林允宁坦然承认,“线性注意力确实会导致注意力分布的‘平滑化’。它没法像Softax那样,在几万个词里精准地只盯着一个看。它看东西确实是‘模糊’的。”
他退出PPT,切到了代码终端界面。
“但是,工程学本质上就是关于取舍(Trade-off)的艺术。”
林允宁输入了一行指令,加载了一个巨大的数据文件。
“这是人类1号染色体的基因序列片段,长度为100,000个碱基对。
“在这个尺度上,我们并不需要关注某一个具体的碱基A还是T。我们需要关注的是宏观的、长距离的、全局的关联。
“对于基因测序,或者对于一本百万字的小说来说,‘看清大概的轮廓’比‘看清某一个标点符号’重要一万倍。”
“Ru.”
林允宁按下了回车键。
大屏幕上,内存监控的波形图开始滚动。
如果是传统的O(N^2)算法,这条红线会在秒内冲破顶端,然后程序报错。
全场几百双眼睛死死盯着那条红线。
一秒。两秒。三秒。
红线微微抬起了一点点,大约占据了128MB的内存,然后……变成了一条毫无波澜的直线。
【Processig...100%.Doe.】
【Tiepsed:.】
三秒钟。
处理完了十万长度的序列。虽然它的注意力可能是“散光”的,但它跑完了。
而魏斯电脑上的那个精准的Softax算法,还在报着“OutofMeory”。
“一个能跑完的模糊算法,永远比一个跑不起来的完美算法有价值。”
林允宁看着台下的魏斯,语气诚恳,“魏斯博士,这就是我目前给工业界的答案。我们不需要在每一件事上都追求完美,有时候,为了看见整片森林,我们必须接受看不清树叶的代价。
“当然,随着技术的进步,这
温馨提示:亲爱的读者,为了避免丢失和转马,请勿依赖搜索访问,建议你收藏【久久小说】 m.gfxfgs.com。我们将持续为您更新!
请勿开启浏览器阅读模式,可能将导致章节内容缺失及无法阅读下一章。