为什么我越来越看重benchmark和evaluation意识

张开发
2026/6/6 21:05:59 15 分钟阅读

分享文章

为什么我越来越看重benchmark和evaluation意识
最近和不同背景的人交流时我发现一个有意思的现象。很多人已经开始使用Claude、ChatGPT、Cursor等AI工具。有些人用来写代码有些人用来读论文有些人用来分析数据还有些人已经开始把AI纳入日常工作流。但随着使用时间越来越长我发现人与人之间真正的差距往往不在于谁更会生成内容而在于谁更会验证内容。换句话说很多人都在关注AI能不能做什么。但优秀的研究员、工程师和分析师更关注AI做出来的东西到底对不对。举个简单的例子。同样让AI帮忙写一个Python数据分析脚本。有的人看到代码成功运行任务就结束了。而有的人会继续思考是否覆盖了边界情况数据预处理是否合理结果是否能够复现是否有基线方案进行对比如果换一批数据结果是否仍然成立这些问题本质上都属于evaluation。这种现象不仅出现在编程领域。在金融领域很多时候难点并不是生成一个因子而是验证因子是否真的有效。在生物信息学领域难点也不只是完成一次分析流程而是确认结果是否可信、是否符合生物学规律。在计算力学和计算物理领域难点往往也不在于写出仿真脚本而在于判断仿真结果是否合理、参数设置是否正确、结论是否能够被验证。即使是在大模型领域本身。很多时候最困难的问题也不是让模型回答问题。而是设计一套合理的方法判断模型到底回答得好不好。这也是为什么我越来越关注benchmark。很多人第一次听到benchmark会觉得它只是一个测试集或者评分工具。但从更广义的角度来看benchmark本质上是在回答一个问题我们如何客观地判断一件事情是否做好了如果没有benchmark很多评价最终都会变成我觉得还行看起来不错应该没问题但对于工程、科研和生产环境来说这些判断往往是不够的。有时候我会觉得AI时代最大的变化之一是生成成本正在快速下降。以前写一段代码、整理一份资料、完成一个初版方案可能需要数小时甚至数天。现在很多工作几分钟就能完成。但与此同时验证成本的重要性却在不断上升。因为生成变得越来越容易所以判断结果是否正确、是否可靠、是否符合需求反而变得更加重要。因此我越来越认同这样一个观点AI-native并不仅仅意味着熟悉各种AI工具。更重要的是是否具备设计验证机制的能力。是否能够把一个模糊的问题拆解成有明确输入、输出和评价标准的任务。是否能够通过benchmark、测试、实验或者数据分析验证最终结果。很多时候专业能力的价值并不体现在“我能不能做出结果”。而体现在我能不能判断这个结果到底值不值得相信。当AI越来越擅长生成答案时这种能力或许会变得越来越重要。这也是为什么我越来越看重benchmark和evaluation意识。它们不仅是一种技术能力更是一种思维方式。

更多文章