拙笔愚文 「四」
出题人
一
工位上,小叶面前的两块屏幕同时亮着。
左边是 PowerPoint,导师让他改的公司宣传材料,改到第十八版,副标题”AI 赋能千行百业”。右边是 VSCode,文件名 experiment_v3.py,创建时间是去年十二月四日,最后修改时间也是十二月四日。
师兄延毕第二年,工位在他左后方,这周没来。
他想起两年前从北京回宿舍的那趟高铁,他在车上给妈打电话说考上了。电话两头都在哭。那时候他真的相信,从双非考到 985 这件事,是一个人能给自己做的最大一次平反。
手机震了一下。导师群。
张老师:@小叶 @志远师兄 比赛这周六,你俩配合一下小李把环境搭起来,题目小叶来出,争取打出影响力。
他看了一眼时间。距离比赛还有四天。
他打字回了一个”收到”。
Ctrl+S。关掉 VSCode。experiment_v3.py 退出窗口。文件最后修改时间还是十二月四日。
二
小李是公司那边的人,三十岁出头,挂着”算法工程师”的名片。第二天上午他给小叶发微信,贴了一张终端截图。
小李:哥这是啥意思
是 docker-compose up 报的错。端口被占用。Docker 文档里第一周就会教你怎么处理。
小叶打字告诉他怎么改。过了二十分钟,小李说还是不行,要不你过来一下。
小叶下楼。十八层比十九层暖和,地毯也新。小李工位上摆着两个手办,屏幕开着 B 站。看到小叶来,小李把 B 站最小化,让出椅子。
“哥你看这个报错。”
小叶坐下,改了几行配置,十分钟搞完。起身的时候小李递过来一瓶水。
“哥你真牛逼。”
小叶接过水,上楼。他打开手机看项目群。小李发了一张照片——他刚才坐过的那把椅子和那块屏幕,屏幕上是绿色的终端字符。配文:
小李:调试到现在终于通了 [拳头][拳头]
下面导师回了一个赞。
小叶把手机倒扣在桌上。
接下来三天他基本就在十八层了。小李每隔两小时拍一张工位照片发群里,配文从”调通了一个模块”到”压测中”到”在优化性能”。导师的赞从来没停过。小李刷短视频刷到笑出声,会拍小叶肩膀说”哥你看这个”。小叶看一眼,继续敲键盘。
第三天傍晚环境跑通了。他在终端里看了一眼,二十个并发容器稳定运行。他长出一口气,转头想跟小李说一声搞完了。
小李戴着 AirPods 在看直播,没听见。
地铁上他打开手机,项目群里小李刚发了一条:
小李:环境搭建完成 ✅ 接下来等小叶出题
导师回:辛苦小李。
小叶看着这条消息。地铁过了两站。
三
回到宿舍是晚上九点,明天就要比赛了,而赛题甚至还没有新建文件夹。室友打游戏,耳机里在喊”反野”。小叶坐到椅子上,打开电脑,新建文件夹,命名”赛题设计”。
他不困。
他想出一道好题。
他在飞书文档第一行写下:”本题考察选手在有限资源约束下,对 RAG 系统的端到端工程能力。”
写完停了一下,又补了一段:给定一批领域文档、一组测试问题、一个 token 预算和延迟约束,选手要实现一个检索增强问答系统。
他想了想,在题目最后加了一段:
“本题没有标准答案。我们想看到选手如何在召回率、精度、延迟、成本之间做权衡。中间过程比最终分数更重要——请在提交时附一份不超过 500 字的设计说明,解释你为什么这样选择。”
他自己读了两遍。
他想起本科的时候,他第一次接触信息检索这门课。老师出过一道类似的题,他在双非的图书馆里熬了三个晚上,调一个参数,把准确率从 0.42 调到 0.51。他记得很清楚,那天凌晨两点,自习室没人,他对着屏幕傻笑了几分钟。那是他人生第一次觉得,做研究是有意思的。
他在心里想象一个本科生第一次看到这道题。会先愣一下。然后会去 google,会读文档,会跑通最简单的 baseline,会发现准确率只有 40%,会开始思考为什么,会去读论文,会真的开始权衡。
他想到这里,自己笑了一下。
他写到凌晨五点。文档十四页。数据集说明、评测指标、提交格式、判题流程,加五份不同复杂度的 baseline 代码。每一份 baseline 他都自己跑过,确认准确率在合理区间。
他还写了一段三百字的”出题人寄语”,写他自己当年做那道题时的感受,告诉选手不要急。
写完读了两遍,觉得有点矫情。删了一半,又删了一半,最后只留下一句:
“祝你们玩得开心。”
把文档发给师兄看一眼。
师兄马上回复:”挺好的。”
就这三个字。
四
来不及睡觉,简单冲了个澡,小叶穿了一件干净的衬衫,匆匆忙忙赶往比赛现场。
现场是学校的报告厅,能坐三百人。横幅挂着:”首届 XX 大模型应用创新挑战赛”。背景板上左边是学校 logo,右边是公司 logo。来了一百五十个本科生,从全国各地。
导师上台致辞。讲了二十分钟。讲行业趋势,讲范式革命,讲产学研结合,讲他们实验室一直以来的努力。讲到一半的时候说:”这次比赛的题目,是我们团队精心设计的,融合了工业界最前沿的实践……”
小叶下意识地坐直了一点。
导师接着说:”感谢小李同学带领的技术团队,为本次比赛搭建了稳定可靠的评测平台。”
台下响起掌声。
小叶慢慢靠回椅背。
接下来小李上台。新买的西装,袖口的吊牌还没拆。讲了五分钟,PPT 第一页是”评测平台技术架构”,架构图小叶认得,是他半年前画的那张。
导师 PPT 翻到最后一页”特别鸣谢”。列了赞助方、平台方、小李所在的公司、几位校外专家。
比赛开始了。一百五十个本科生坐在电脑前。他出的题目投在大屏幕上,旁边一行小字:
首届 XX 大模型应用创新挑战赛赛题组
小叶看着那行字。
他想,赛题组是一个什么样的组织。
赛题组里有几个人。开过几次会。讨论了什么。他们里面有没有一个人,是花了一整夜把题目从头写到尾的。有没有一个人,是写完寄语之后又删掉大半,最后只留下一句”祝你们玩得开心”的。有没有一个人,在凌晨三点的时候自己读了两遍,觉得这道题还可以。
首届 XX 大模型应用创新挑战赛赛题组
那行字一直在大屏幕上。
五
下午他在场地里走了一圈。
他想看看学生在做什么。
第一排靠门的两个男生,左边屏幕开着 ChatGPT,右边屏幕开着自己的项目。他们在打一局王者荣耀,手机横放在键盘前,正团战。屏幕上的代码在跑,日志一行一行往下滚。
中间那一片,有个戴眼镜的男生在刷小红书。他面前的屏幕上,Claude 的对话框里正在生成一段长长的设计说明,文字一行一行往外吐。男生时不时瞄一眼,看到生成完了,复制,贴到自己的文档里,又回去刷小红书。
小叶从他身后走过的时候,他余光看见,赶忙把手机倒扣在桌上,拿起鼠标,对着代码区点了几下,眉头皱起,做出沉思的样子。
小叶过去了。
他又把手机翻过来。
后排几个女生在小声聊天,聊一家新开的奶茶店要不要等会儿一起去。她们的电脑屏幕上,接口在不停返回 token,进度条在走。
整个场地很安静。键盘声很少。手机屏幕的光,比电脑屏幕的光多。
他站在过道里看了一会儿。
他想起他在题目最后写的那句”祝你们玩得开心”。
他没想到他们真的玩得很开心。
六
下午六点比赛结束。
合影。学生在背景板前排开。导师站在 C 位,小李在他旁边。小叶站在报告厅最后一排。
合影之后是媒体采访。主办方请了一个本科生上台。
是下午小叶看到刷小红书的那个戴眼镜男生。
记者问他这次比赛最大的收获是什么。
男生接过话筒,想了想:
“嗯,通过这次比赛,我对大模型应用的工程实践有了更深的理解。RAG 系统的设计其实是一个多目标优化的问题,需要在召回率、精度、延迟、成本之间寻找平衡点。这次比赛真的让我学到了很多东西,非常感谢主办方提供这样一个平台。”
记者点头。镜头闪了一下。
采访结束,导师过来拍了一下小叶肩膀。
“小叶辛苦了。回去把答卷整理一下,三天内给我一份打分名单,我答应了学生那边。”
“好。”
导师转身去和赞助方握手了。
七
回到宿舍他下载了所有提交。一百四十七份。每份包含代码、运行日志、和那份 500 字设计说明。
判题机已经自动跑出了客观指标——准确率、延迟、成本。但设计说明那 40% 没法自动评。
他打开第一份。
“首先,我们采用了 Hybrid Search 的策略,结合了 BM25 和 dense retrieval 的优势。其次,为了优化召回质量,我们引入了 Cross-Encoder 进行 reranking。再次……最后,综上所述……”
第二份。开头是这样写的:
“以下为你生成一份专业口吻、不含糊的设计说明:”
下面跟着一段长长的方案。
第三份。第四份。第五份。
到第十份的时候,他已经能一眼分辨——那种过分工整的 markdown 排版,那种”首先-其次-最后-综上所述”的结构,那种本科生绝对写不出来的成熟措辞,那种没有任何错别字、连标点符号都精准得像印刷体的文字。
他翻完二十份。十五份明显是大模型生成的。
他往下翻,翻到第三十多份的时候找到一份是真人写的。错别字、语句不通、逻辑跳跃,但里面有一个想法——选手发现一个模块在自己的数据上效果不好,猜测是 domain shift,但因为时间不够没来得及验证。这个判断是对的。
小叶给这份打了一个 92。
他停了一下。
剩下还有一百多份。如果都这样一份一份读,他读不完。如果按客观指标打,那 40% 的设计说明就形同虚设——他出这道题的时候,在那 40% 上花的心思比客观指标多得多。
他打开 Claude。
他停了一下。
他想起自己写题目的那个晚上。想起他写的那句”我们想看到你如何权衡”。想起他想象中那个本科生,会去 google,会读论文,会真的开始思考。
他想起他写完寄语之后又删掉了大半,只留下”祝你们玩得开心”。
他想起下午场地里那些手机的光。
他把第一份答卷复制进去。打字:
“按照以下评分标准给这份答卷打一个分数。只要分数,不要解释。”
他把评分标准贴进去。
Claude 回了一个数字:87。
他把这个数字填进表格。
下一份。Claude 给 85。下一份,82。下一份,90。
他一份一份往下推。Claude 一个一个数字往外吐。87 和 85 之间是怎么区分的,他看不出来。他不再点开看了。
他翻到那份真人写的高分答卷。他自己给的是 92。
他犹豫了一下。
他把那一份也贴进 Claude。
Claude 给了 79。
他盯着那个数字看了很久。
他把表格里的 92 改成了 79。
八
第二天上午他把打分名单发给导师。
导师回:”好,辛苦。”
下面没有别的话了。
九
下午他打开电脑。
桌面上 experiment_v3.py 还在原来的位置。文件最后修改时间,十二月四日。
他双击打开。
文件是空的。只有第一行一个 # TODO。
他看了一会儿。
他关掉 VSCode。
他打开浏览器。
他打开 Claude 的对话框。
光标在输入框里闪。
他打字:
帮我设计一个基于 RAG 的实验,目标是发一篇 EMNLP short。数据用一个 500 篇技术 PDF 的领域问答数据集,方法上要有一定的创新点,工作量控制在三个月以内。请给出完整的实验方案,包括 motivation、method、baseline、evaluation metrics、预期结果。
他按下回车。
光标开始一行一行往下走。
他看了一会儿。
拿起手机。

- Title: 拙笔愚文 「四」
- Author: Yeren
- Created at : 2026-04-28 19:53:55
- Updated at : 2026-04-28 15:19:28
- Link: https://blog.yeren.xyz/2026/04/28/260428-Essay/
- License: This work is licensed under CC BY-NC-SA 4.0.