和她分手一周年这天,也是我手头第一篇顶会论文被接收的日子。我坐在空荡荡的工位上,看着桌上那张字迹已经有些褪色的小票。
小票背面,是用黑笔写下的一行公式:H(x) = F(x) + x。
我试着逼自己生出一点悲伤,却发现身体没有任何响应。视线穿过这行公式,我回到了两年前那个差点让我退学的冬天。
那是研二,人生最灰暗的时光。模型架构连改了三个月,眼看 DDL 只剩一周,依旧死活跑不通。
我一个人坐在实验室外的台阶上,十二月的寒风跟刀子一样,大雪漫天纷飞。我给她发了一条微信:“我觉得我不适合搞科研。我感觉自己是个废物。”
她什么都没回,只是问我在哪。
半个小时后,她裹着羽绒服出现在大楼底下,手里拎着两杯热美式。她没问我实验数据错在哪,只是把滚烫的咖啡塞进我手里,拉着我在冷风里坐下。
“你知道你现在是什么样子吗?”她看着我。“什么?”“你像个几千层的神经网络,你的心力像梯度一样,传不回来了。”
她说,在AI的深度学习里,当网络层数叠得太深,你把家人的期待、导师的压力、同侪的内卷、对未来的恐惧全部叠在一起,把自己的试错成本压得无限低。
哪怕只是一点微小的否定,
心力的梯度,也会在反向传播中断崖式衰减,如坠深渊。
最后?心气耗尽的少年,就像枯尽的油灯,只剩一片死寂。
“……所以你现在连哭都哭不出来,你只会觉得麻木,觉得自己是个一无是处的空壳。”她呵出一口白气,眼神里却透着一种独特的倔强。
我低着头,看着咖啡杯里升起的热气:“那我该怎么办?把网络推倒重来吗?”
她摇摇头,“导师没告诉过你加残差吗?”
她把垫在咖啡杯底的那张小票抽出来,用笔在背面写下了一行极其简单的公式:
H(x) = F(x) + x
她指着那个公式对我说:“你可以把F(x) 当作你的一切努力。它是你要发的论文、你的目标,是你要向世界证明的那个牛逼的自己,是你对抗自卑的武器。但F(x)太沉了,一个人扛,总有崩掉归零的时候。”
笔尖划过纸面,指向公式最后的那个 + x。
“这个 x,叫做恒等映射。它是我眼中的你,也是你眼中的我。”
“就算你的 F(x) 烂得粉碎,哪怕你最近整个人都烂透了,只要我还在,你的输出就不会归零。你的系统就死不了。”
大雪落在她的羽绒服上,她看着我的眼睛: “我喜欢你,不是来当你的 F(x) 帮你解决一切的。我是你的残差,是你的后盾。我希望你也是我的残差。”
年少无知的我,以为自己读懂了这份最高级的浪漫。
可我骨子里早已习惯在竞争里厮杀,又极度缺乏安全感。
我根本不敢相信,有人会无条件为我托底。
从那次大雪之后,我的确走出了退学的阴影,开始发疯一样地跑实验、写代码。
但我犯了一个所有高压学生都犯的毛病。患得患失。
科研的重压如山压心,我非但没把她当成避风港,反倒把论文被拒的焦虑,一层层叠加在了害怕失去她的惶恐里。
我潜意识里始终觉得,只要我还没发顶会,我的 F(x) 就还是零,配不上这份安稳的 x,她终将看见我的无能离我而去。
我固执地认为,只有我足够强,她才不会离开我。
为了证明我配得上这样的残差连接,我把做科研的模式,完全迁移到了恋爱里。
我变得极度敏感,像盯实验指标一样,时刻盯着这段关系的Validation Loss。
组会被导师痛骂的夜晚,她端着温水坐到我身边,轻声说:“你跟我说说好不好?”
可我却像一只应激的刺猬,不耐烦地把门重重关上:“我们领域科研就是打榜,卷生卷死,跟你说了也没用,我还要赶论文。”
她其实很坦诚,无数次试图沟通,试图告诉我,她不需要我完美。
而我却深陷在自卑的泥沼里。她微信回复晚了十分钟,我又开始反思是不是自己哪句话说错了;
实验一出Bug,我就恐慌她会不会觉得我没有未来,又和吵架的那些瞬间叠加在一起;
像RL里的robot,我试图用疯狂的讨好、过度的敏感,去计算我们每一次互动的得分。
那时候的我不懂。
残差连接里的残差,之所以能抗住上百层的网络不崩溃,正是因为它是不带任何参数、不需要计算梯度的。 它本来应该是最轻松、最自然的存在。
就像爱,不索取、不求回报,只是给予。
而我,却亲手拆掉了那条最纯粹的、不带任何参数的旁路。
我在恋爱里塞进了太多的超参数:我的自卑、猜忌和那该死的证明欲。
我强行把这份无条件的托底,变成了一个极其臃肿的全连接层。
我时刻计算着每一次互动的权重,试图用疯狂的讨好去降低那根本不存在的 Loss。
结果就是最彻底的过拟合——我们之间再也没有了容错率。
我拒绝展露脆弱,她无法穿透我的心防。
机房的轰鸣和我的焦虑交织在一起,最终耗尽了她所有的算力。
一年前的今天,她终于撑不住了。她平静地收拾好行李,把两年前那张写着公式的咖啡小票,轻轻压在我的键盘下。
眼眶通红地对我说了最后一句话: “我只想做你累了可以回去的避风港。但你把我,变成了你的另一个 DDL。再见,后会有期。”
我的网络终于跑通了。
那篇卡了我两年、改了无数个版本的论文,拿到了三个 Strong Accept。我的 F(x) 终于输出了一个极其漂亮的值,达到了 SOTA。
可是,机房里的轰鸣声依然刺耳。我看着那张泛黄的小票,看着上面的 H(x) = F(x) + x,巨大的孤单寂寥瞬间将我吞没。心脏像被抽空了一样,连心跳都变得需要竭尽全力。
很多人只有在真正失去之后,才会明白深度学习里最残忍的数学逻辑是什么——
当你的 F(x) 完美收敛、大放异彩的时候,那个 + x,在公式里看起来是那么的微不足道,甚至像是多余的。
可是一旦明天风暴再起。当新的数据集、新的生活将你再次击溃,让你的 F(x) 重新归零时…… 你转过头,才会绝望地发现。
那个曾经无论你多真实,都愿意无条件加在你身上的 x,已经被你亲手删除了。
我现在有一篇顶会了。
但我再也没有残差了。