为什么我越来越看重benchmark和evaluation意识

张开发

• 2026/6/6 21:05:59 • 15 分钟阅读

分享文章

最近和不同背景的人交流时我发现一个有意思的现象。很多人已经开始使用Claude、ChatGPT、Cursor等AI工具。有些人用来写代码有些人用来读论文有些人用来分析数据还有些人已经开始把AI纳入日常工作流。但随着使用时间越来越长我发现人与人之间真正的差距往往不在于谁更会生成内容而在于谁更会验证内容。换句话说很多人都在关注AI能不能做什么。但优秀的研究员、工程师和分析师更关注AI做出来的东西到底对不对。举个简单的例子。同样让AI帮忙写一个Python数据分析脚本。有的人看到代码成功运行任务就结束了。而有的人会继续思考是否覆盖了边界情况数据预处理是否合理结果是否能够复现是否有基线方案进行对比如果换一批数据结果是否仍然成立这些问题本质上都属于evaluation。这种现象不仅出现在编程领域。在金融领域很多时候难点并不是生成一个因子而是验证因子是否真的有效。在生物信息学领域难点也不只是完成一次分析流程而是确认结果是否可信、是否符合生物学规律。在计算力学和计算物理领域难点往往也不在于写出仿真脚本而在于判断仿真结果是否合理、参数设置是否正确、结论是否能够被验证。即使是在大模型领域本身。很多时候最困难的问题也不是让模型回答问题。而是设计一套合理的方法判断模型到底回答得好不好。这也是为什么我越来越关注benchmark。很多人第一次听到benchmark会觉得它只是一个测试集或者评分工具。但从更广义的角度来看benchmark本质上是在回答一个问题我们如何客观地判断一件事情是否做好了如果没有benchmark很多评价最终都会变成我觉得还行看起来不错应该没问题但对于工程、科研和生产环境来说这些判断往往是不够的。有时候我会觉得AI时代最大的变化之一是生成成本正在快速下降。以前写一段代码、整理一份资料、完成一个初版方案可能需要数小时甚至数天。现在很多工作几分钟就能完成。但与此同时验证成本的重要性却在不断上升。因为生成变得越来越容易所以判断结果是否正确、是否可靠、是否符合需求反而变得更加重要。因此我越来越认同这样一个观点AI-native并不仅仅意味着熟悉各种AI工具。更重要的是是否具备设计验证机制的能力。是否能够把一个模糊的问题拆解成有明确输入、输出和评价标准的任务。是否能够通过benchmark、测试、实验或者数据分析验证最终结果。很多时候专业能力的价值并不体现在“我能不能做出结果”。而体现在我能不能判断这个结果到底值不值得相信。当AI越来越擅长生成答案时这种能力或许会变得越来越重要。这也是为什么我越来越看重benchmark和evaluation意识。它们不仅是一种技术能力更是一种思维方式。

为什么我越来越看重benchmark和evaluation意识

最新文章

DbGate：一个能管16种数据库的跨平台客户端

当ChatGPT遇上电子病历：临床医生必须掌握的3类提示词工程+2类隐私脱敏硬核技巧

华为云发布Agentic AI系列新品，打造智能时代“硅基黑土地”

Go 高并发内存分配优化：基于 sync.Pool 的对象复用与 GC 停顿调优深度实战

性能测试、负载测试、压力测试之间的差异

终极指南：5分钟学会使用uesave编辑Unreal Engine游戏存档

推荐文章

STM32F4驱动AD7606避坑指南：SPI配置、时序调试与电压换算全流程

TVA与其他AI智能体的本质区别与联系（10）

使用 LangGraph 构建复杂的自动化测试用例“生成-执行-修复”循环

MTKClient终极指南：5分钟快速修复联发科设备变砖问题

Parallels Desktop 17保姆级教程：给CentOS 7虚拟机配个固定IP，开发调试再也不怕IP变来变去

Steam游戏《Turing Complete》通关笔记：手把手教你从逻辑门到可编程CPU的完整搭建流程

相关文章

终极ESP32 Arduino开发指南：从零开始快速上手物联网项目

如何打造个人专属的数字记忆库：WeChatMsg终极数据管理指南

Windows 11下SecureCRT 8.5安装激活全攻略（附注册机与避坑指南）

Gemini推送通知优化终极手册（2024Q2最新API v1.5实测数据+AB测试报告）

【Gemini社交媒体运营实战指南】：20年AI营销专家亲授7大高转化内容公式

保姆级教程：在Ubuntu 22.04上为GStreamer 1.22编译NVIDIA NVENC/NVDEC插件（含CUDA 12.x适配）

分享文章

更多文章

深圳正规移民公司有哪些？实力强资质齐全机构推荐清单

【专利技术】一种可溯源的高效鲁棒视频水印技术

保姆级教程：用MyDockFinder的创意工坊皮肤，把你的Windows桌面彻底Mac化

基于 LangChain 从零搭建知识库问答系统

Claude部署前必做风险评估（2024最新版FIPS-140/ISO/IEC 27001双标合规对照表）

2026 年一句话生成应用是真趋势，还是新一轮低代码包装？

告别图片变形！手把手教你用Python+OpenCV实现YOLO必备的Letterbox自适应缩放（附完整代码）

被本地IDE环境搞崩心态？还好我有MonkeyCode

Claude vs GPT-4 vs Gemini：头部AI模型在企业级场景的7项硬指标实测对比（附采购决策矩阵）

3分钟集成现代化聊天机器人：Vue Bot UI 深度解析

转PDF（橘r版）

2026AI行业人才突围！优秘智能成立企业商学院，补齐产业人才短板