Skip to content

三七九

2025-10-31 · 1393字 · 5分钟

昨天听了一个瓜,可管窥一斑。

去年 Neurips 的最佳论文一作是一个北大字节实习生。这是国人首次获奖,本是殊荣,可讽刺的是这位仁兄在开奖以前就卷入了字节“代码投毒”的官司,被索赔 800 万。

起因是在他和同组的人被领导分配探索不同的视频生成路线,他本人的路线是自回归模型(也是获奖的 idea),另一个是扩散模型。视频生成模型预训练动辄千卡,组内资源有限又全被倾斜给对方使用了。一般来说,高校导师搞科研让手底下学生分别探索不同方向,不成文的默契是相互挂名,相当于降低风险,保障科研产出,又不至于在有限的算力资源中扯皮,毕竟最后发文章大家都能分一杯羹。(相当于合作社)。但字节那位领导显然不懂这个规矩,于是手下二人形成了严格竞争关系(鬼谷子式收徒),资源密集型产业就是一千张卡一人分一半,谁也做不出东西,只能倾斜给一方做,另一方又不能参与,因为不允许共享署名,只能眼睁睁看着。这是其一。

大模型的流水线(pipeline)作业是个很长的链条,因而每个产品都有很多组在同时参与,一个产品的最终效果好了要争功,坏了要甩锅,而业绩考评直接影响到一个组在公司内未来的出路,是被当成香饽饽倾斜更多资源,还是被裁撤合并。也就是说,不仅在一个组内部,在组与组之间也是直接的竞争关系,哪怕这些组是上下游的合作关系。这是其二。

字节的绩效考核有员工互评,并且业绩上必须评出末位者,考评直接影响晋升,是想继续往上爬还是一辈子当大头兵皆系于此。因而每个人都倾向于给别人打低分,打低分难以服众怎么办,这时就要罗织罪名,从平时开始铺垫,在项目推进过程中暗中使绊子。这是其三。

大模型的不可解释性与长链条每个环节间的高度耦合性为这种较量提供了丰富的操作空间。数据中的劣质样本、预训练交付的次一点的模型,上游的任何闪失都可能让下游叫苦不迭。故障从一个需要全链条通力协作共同排查的问题,变成了令人作壁上观暗中取笑的乐趣。以至于这难以查觉的闪失究竟是疏忽还是蓄意也心照不宣终未可知。这是其四。

至此,从动机到技术集齐了田同学代码投毒的全部拼图:有限的资源,恶性的竞争,一切还都被默许。“和尚摸得,我摸不得?”每一步都顺理成章,结出了那个恶果。

谈论田同学的人品好坏对无济于事,因为这个现象太普遍了。谈论一个人的道德,用道德色彩的视角,最终都会陷入性恶性善,包拯海瑞武训,一群恶人,一个无奈的善人的叙事。..

关键的问题在于是什么环境塑造了这种德性,是什么样的德性在这种环境中被默许被放大被鼓励被心照不宣的授予向上攀爬的权利黄袍加身?而统治者在丑闻披露以后还要装出第一次听闻这种罪恶的惊诧,冠冕堂皇的动用严刑峻法,势必要撇清自己与它的一切关系,仿佛自己始终刚正不阿,上梁从来正下梁自行歪。(小到公司,大到国家,概莫能外,史书有载。)

田同学的结局是被字节在行业内通报,在国内失去求职权,走投无路之下要给自己洗白,结果越描越黑,字节为了震慑于是提起诉讼,尽管字节只把这官司当成挟制,并不真求判决,田同学的名誉也丢尽了。

这个事情充分揭示了什么叫做生产关系严重阻碍生产力发展。在这种堕落的生产关系条件下,一个有才华的年轻人被毒害成一个投毒者,最后还要他自己去背负全部道德骂名,受人唾弃,而那个染缸还在堂而皇之的熏染出更多道德败坏的人。

另看到新华社推送消息一则:新疆基层民警组团帮助群众收玉米,令人暖心。然而新疆警察的工作强度已经高于内地了,现在还要去做这些事。那些本应组织农业生产的人去哪儿了?新疆没有丘陵,玉米地也是一马平川,为什么还做不到机械化收割?为什么小农还困在土地上,从事最落后的手工劳作?这不是小确幸,而是在用小确幸掩盖一个短视年代的遗毒。人们在集体生活中迸发出的昂扬斗志被分割成自私自利,何尝不是一种精神上的分田运动。

多说无益,历史自有分说。

返回

人同此心,心同此理;如风沐面,若水润心