拙笔愚文 「四」

拙笔愚文 「四」

Yeren Lv2

出题人

工位上,小叶面前的两块屏幕同时亮着。

左边是 PowerPoint,导师让他改的公司宣传材料,改到第十八版,副标题”AI 赋能千行百业”。右边是 VSCode,文件名 experiment_v3.py,创建时间是去年十二月四日,最后修改时间也是十二月四日。

师兄延毕第二年,工位在他左后方,这周没来。

他想起两年前从北京回宿舍的那趟高铁,他在车上给妈打电话说考上了。电话两头都在哭。那时候他真的相信,从双非考到 985 这件事,是一个人能给自己做的最大一次平反。

手机震了一下。导师群。

张老师:@小叶 @志远师兄 比赛这周六,你俩配合一下小李把环境搭起来,题目小叶来出,争取打出影响力。

他看了一眼时间。距离比赛还有四天。

他打字回了一个”收到”。

Ctrl+S。关掉 VSCode。experiment_v3.py 退出窗口。文件最后修改时间还是十二月四日。

小李是公司那边的人,三十岁出头,挂着”算法工程师”的名片。第二天上午他给小叶发微信,贴了一张终端截图。

小李:哥这是啥意思

docker-compose up 报的错。端口被占用。Docker 文档里第一周就会教你怎么处理。

小叶打字告诉他怎么改。过了二十分钟,小李说还是不行,要不你过来一下。

小叶下楼。十八层比十九层暖和,地毯也新。小李工位上摆着两个手办,屏幕开着 B 站。看到小叶来,小李把 B 站最小化,让出椅子。

“哥你看这个报错。”

小叶坐下,改了几行配置,十分钟搞完。起身的时候小李递过来一瓶水。

“哥你真牛逼。”

小叶接过水,上楼。他打开手机看项目群。小李发了一张照片——他刚才坐过的那把椅子和那块屏幕,屏幕上是绿色的终端字符。配文:

小李:调试到现在终于通了 [拳头][拳头]

下面导师回了一个赞。

小叶把手机倒扣在桌上。

接下来三天他基本就在十八层了。小李每隔两小时拍一张工位照片发群里,配文从”调通了一个模块”到”压测中”到”在优化性能”。导师的赞从来没停过。小李刷短视频刷到笑出声,会拍小叶肩膀说”哥你看这个”。小叶看一眼,继续敲键盘。

第三天傍晚环境跑通了。他在终端里看了一眼,二十个并发容器稳定运行。他长出一口气,转头想跟小李说一声搞完了。

小李戴着 AirPods 在看直播,没听见。

地铁上他打开手机,项目群里小李刚发了一条:

小李:环境搭建完成 ✅ 接下来等小叶出题

导师回:辛苦小李。

小叶看着这条消息。地铁过了两站。

回到宿舍是晚上九点,明天就要比赛了,而赛题甚至还没有新建文件夹。室友打游戏,耳机里在喊”反野”。小叶坐到椅子上,打开电脑,新建文件夹,命名”赛题设计”。

他不困。

他想出一道好题。

他在飞书文档第一行写下:”本题考察选手在有限资源约束下,对 RAG 系统的端到端工程能力。”

写完停了一下,又补了一段:给定一批领域文档、一组测试问题、一个 token 预算和延迟约束,选手要实现一个检索增强问答系统。

他想了想,在题目最后加了一段:

“本题没有标准答案。我们想看到选手如何在召回率、精度、延迟、成本之间做权衡。中间过程比最终分数更重要——请在提交时附一份不超过 500 字的设计说明,解释你为什么这样选择。”

他自己读了两遍。

他想起本科的时候,他第一次接触信息检索这门课。老师出过一道类似的题,他在双非的图书馆里熬了三个晚上,调一个参数,把准确率从 0.42 调到 0.51。他记得很清楚,那天凌晨两点,自习室没人,他对着屏幕傻笑了几分钟。那是他人生第一次觉得,做研究是有意思的。

他在心里想象一个本科生第一次看到这道题。会先愣一下。然后会去 google,会读文档,会跑通最简单的 baseline,会发现准确率只有 40%,会开始思考为什么,会去读论文,会真的开始权衡。

他想到这里,自己笑了一下。

他写到凌晨五点。文档十四页。数据集说明、评测指标、提交格式、判题流程,加五份不同复杂度的 baseline 代码。每一份 baseline 他都自己跑过,确认准确率在合理区间。

他还写了一段三百字的”出题人寄语”,写他自己当年做那道题时的感受,告诉选手不要急。

写完读了两遍,觉得有点矫情。删了一半,又删了一半,最后只留下一句:

“祝你们玩得开心。”

把文档发给师兄看一眼。

师兄马上回复:”挺好的。”

就这三个字。

来不及睡觉,简单冲了个澡,小叶穿了一件干净的衬衫,匆匆忙忙赶往比赛现场。

现场是学校的报告厅,能坐三百人。横幅挂着:”首届 XX 大模型应用创新挑战赛”。背景板上左边是学校 logo,右边是公司 logo。来了一百五十个本科生,从全国各地。

导师上台致辞。讲了二十分钟。讲行业趋势,讲范式革命,讲产学研结合,讲他们实验室一直以来的努力。讲到一半的时候说:”这次比赛的题目,是我们团队精心设计的,融合了工业界最前沿的实践……”

小叶下意识地坐直了一点。

导师接着说:”感谢小李同学带领的技术团队,为本次比赛搭建了稳定可靠的评测平台。”

台下响起掌声。

小叶慢慢靠回椅背。

接下来小李上台。新买的西装,袖口的吊牌还没拆。讲了五分钟,PPT 第一页是”评测平台技术架构”,架构图小叶认得,是他半年前画的那张。

导师 PPT 翻到最后一页”特别鸣谢”。列了赞助方、平台方、小李所在的公司、几位校外专家。

比赛开始了。一百五十个本科生坐在电脑前。他出的题目投在大屏幕上,旁边一行小字:

首届 XX 大模型应用创新挑战赛赛题组

小叶看着那行字。

他想,赛题组是一个什么样的组织。

赛题组里有几个人。开过几次会。讨论了什么。他们里面有没有一个人,是花了一整夜把题目从头写到尾的。有没有一个人,是写完寄语之后又删掉大半,最后只留下一句”祝你们玩得开心”的。有没有一个人,在凌晨三点的时候自己读了两遍,觉得这道题还可以。

首届 XX 大模型应用创新挑战赛赛题组

那行字一直在大屏幕上。

下午他在场地里走了一圈。

他想看看学生在做什么。

第一排靠门的两个男生,左边屏幕开着 ChatGPT,右边屏幕开着自己的项目。他们在打一局王者荣耀,手机横放在键盘前,正团战。屏幕上的代码在跑,日志一行一行往下滚。

中间那一片,有个戴眼镜的男生在刷小红书。他面前的屏幕上,Claude 的对话框里正在生成一段长长的设计说明,文字一行一行往外吐。男生时不时瞄一眼,看到生成完了,复制,贴到自己的文档里,又回去刷小红书。

小叶从他身后走过的时候,他余光看见,赶忙把手机倒扣在桌上,拿起鼠标,对着代码区点了几下,眉头皱起,做出沉思的样子。

小叶过去了。

他又把手机翻过来。

后排几个女生在小声聊天,聊一家新开的奶茶店要不要等会儿一起去。她们的电脑屏幕上,接口在不停返回 token,进度条在走。

整个场地很安静。键盘声很少。手机屏幕的光,比电脑屏幕的光多。

他站在过道里看了一会儿。

他想起他在题目最后写的那句”祝你们玩得开心”。

他没想到他们真的玩得很开心。

下午六点比赛结束。

合影。学生在背景板前排开。导师站在 C 位,小李在他旁边。小叶站在报告厅最后一排。

合影之后是媒体采访。主办方请了一个本科生上台。

是下午小叶看到刷小红书的那个戴眼镜男生。

记者问他这次比赛最大的收获是什么。

男生接过话筒,想了想:

“嗯,通过这次比赛,我对大模型应用的工程实践有了更深的理解。RAG 系统的设计其实是一个多目标优化的问题,需要在召回率、精度、延迟、成本之间寻找平衡点。这次比赛真的让我学到了很多东西,非常感谢主办方提供这样一个平台。”

记者点头。镜头闪了一下。

采访结束,导师过来拍了一下小叶肩膀。

“小叶辛苦了。回去把答卷整理一下,三天内给我一份打分名单,我答应了学生那边。”

“好。”

导师转身去和赞助方握手了。

回到宿舍他下载了所有提交。一百四十七份。每份包含代码、运行日志、和那份 500 字设计说明。

判题机已经自动跑出了客观指标——准确率、延迟、成本。但设计说明那 40% 没法自动评。

他打开第一份。

“首先,我们采用了 Hybrid Search 的策略,结合了 BM25 和 dense retrieval 的优势。其次,为了优化召回质量,我们引入了 Cross-Encoder 进行 reranking。再次……最后,综上所述……”

第二份。开头是这样写的:

“以下为你生成一份专业口吻、不含糊的设计说明:”

下面跟着一段长长的方案。

第三份。第四份。第五份。

到第十份的时候,他已经能一眼分辨——那种过分工整的 markdown 排版,那种”首先-其次-最后-综上所述”的结构,那种本科生绝对写不出来的成熟措辞,那种没有任何错别字、连标点符号都精准得像印刷体的文字。

他翻完二十份。十五份明显是大模型生成的。

他往下翻,翻到第三十多份的时候找到一份是真人写的。错别字、语句不通、逻辑跳跃,但里面有一个想法——选手发现一个模块在自己的数据上效果不好,猜测是 domain shift,但因为时间不够没来得及验证。这个判断是对的。

小叶给这份打了一个 92。

他停了一下。

剩下还有一百多份。如果都这样一份一份读,他读不完。如果按客观指标打,那 40% 的设计说明就形同虚设——他出这道题的时候,在那 40% 上花的心思比客观指标多得多。

他打开 Claude。

他停了一下。

他想起自己写题目的那个晚上。想起他写的那句”我们想看到你如何权衡”。想起他想象中那个本科生,会去 google,会读论文,会真的开始思考。

他想起他写完寄语之后又删掉了大半,只留下”祝你们玩得开心”。

他想起下午场地里那些手机的光。

他把第一份答卷复制进去。打字:

“按照以下评分标准给这份答卷打一个分数。只要分数,不要解释。”

他把评分标准贴进去。

Claude 回了一个数字:87。

他把这个数字填进表格。

下一份。Claude 给 85。下一份,82。下一份,90。

他一份一份往下推。Claude 一个一个数字往外吐。87 和 85 之间是怎么区分的,他看不出来。他不再点开看了。

他翻到那份真人写的高分答卷。他自己给的是 92。

他犹豫了一下。

他把那一份也贴进 Claude。

Claude 给了 79。

他盯着那个数字看了很久。

他把表格里的 92 改成了 79。

第二天上午他把打分名单发给导师。

导师回:”好,辛苦。”

下面没有别的话了。

下午他打开电脑。

桌面上 experiment_v3.py 还在原来的位置。文件最后修改时间,十二月四日。

他双击打开。

文件是空的。只有第一行一个 # TODO

他看了一会儿。

他关掉 VSCode。

他打开浏览器。

他打开 Claude 的对话框。

光标在输入框里闪。

他打字:

帮我设计一个基于 RAG 的实验,目标是发一篇 EMNLP short。数据用一个 500 篇技术 PDF 的领域问答数据集,方法上要有一定的创新点,工作量控制在三个月以内。请给出完整的实验方案,包括 motivation、method、baseline、evaluation metrics、预期结果。

他按下回车。

光标开始一行一行往下走。

他看了一会儿。

拿起手机。

20260111205431

  • Title: 拙笔愚文 「四」
  • Author: Yeren
  • Created at : 2026-04-28 19:53:55
  • Updated at : 2026-04-28 15:19:28
  • Link: https://blog.yeren.xyz/2026/04/28/260428-Essay/
  • License: This work is licensed under CC BY-NC-SA 4.0.
Comments
On this page
拙笔愚文 「四」