不愧是DeepSeek!V4一手实测:推理编程能力给到夯,熟悉的D老师也回来了

张开发
2026/4/26 12:35:51 15 分钟阅读

分享文章

不愧是DeepSeek!V4一手实测:推理编程能力给到夯,熟悉的D老师也回来了
克雷西 梦瑶 发自 凹非寺量子位 | 公众号 QbitAI炸了炸了真炸了DeepSeek一出手AI圈都得震得抖三抖。全新来袭的两个版本——V4 Pro和Flash一个主打性能另一个更轻更快两个都「开源」。按DeepSeek自己的说法V4在agentic编程能力上是开源模型里最强的推理和世界知识也全面升级上下文窗口从128K直接拉到了1M。对比V3当然是一次幅度不小的跨越发布的时间点距离上一个推理模型R1也整整过去了一年多。不过V4这次带来的变化还是让我们想认真摸一摸它的底于是乎我们也第一时间上手狠狠实测了一番最近这模型那模型扎堆上我是真晕了于是我让V4给我roll了个龙虾和爱马仕的话题热度对比图be like编程游戏也高低得安排上直接让V4搓出一个《未来启示录AGI降临》的文字策略冒险小游戏量子位定制版此外面对网上大火的「对着镜子举手」的AI推理踩坑题V4直接完胜ChatGPT-5.5当然了新模型一出网友们也坐不住开始直接开始疯狂整活儿尝鲜博主David Ondrej搜集了网友们的测试案例录了一段半个小时的测试视频表示DeepSeek-V4能力比肩GPT和Opus而且更便宜。博主Bijan Bowen更是直接用V4搭了一个飞机穿梭云层的3D交互世界搓完直感叹 so cool热闹啊真热闹会玩啊真会玩——废话不多说热乎乎的DeepSeek V4一手实测来了DeepSeek V4一手实测关于V4这一波的更新重点官方原话是在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先。按DeepSeek的说法在Agentic能力Coding评测中V4-Pro已达到当前开源模型最佳水平并在其他Agent相关评测中同样表现优异。在数学、STEM、竞赛型代码的测评中DeepSeek-V4-Pro超越了当前所有已公开评测的开源模型。所以呢这次我们也就专门「照方抓药」从这几个维度上来考量一下官方说法究竟有几分真Agentic coding能力实测多说无益我们先来实一下V4模型的Agentic coding能力看看能不能接住招先小试牛刀一下在「专家模式」下让DeepSeek V4帮忙搭建一个《怪奇物语》主题的剧集介绍网站。搭建一个《怪奇物语》主题的剧集介绍网站整体风格参考80年代复古科幻与悬疑惊悚氛围网站需要包含首页、剧情简介、主要角色介绍等模块。大概等了5分钟真·功夫不负有心人。当「霍金斯小镇编年册」出现在页面上时第一反应就是这时间真没白等效果确实比预想中更好。V4把整个网站拆成了剧集简介、主要角色、分季剧集、经典场景、海报展示、观众评价六大板块结构完整信息也比较清晰。值得一提的是V4还会根据不同主角的特征设计专属logo比如小十一拥有超能力页面里就用水晶球来做视觉符号代替还是很匹配的。唯一不足的地方是「交互」有部分加入交互能力的板块比如海报emm…鼠标点击去是没有反应的…接下来我们上点难度再来考察一下模型的信息更新能力和热点捕捉能力搜索一下最近很火的「十二星座专属庇护所」短视频热度并生成一份关于该选题的短视频爆火现象的研究报告。先来夸夸值得表扬的是V4确实get到了「十二星座专属庇护所」这个热点的内容的视频特点。而且在视觉呈现上审美也在的并且还自动把报告内容划分为传播规模、核心特征、顶层原因、商业变现几个方面。但是光网页搭建还远远不够——试问哪个初来乍到的AI选手不得和一道经典的「鹈鹕骑自行车」的svg题较量一番你说是吧v4做一个鹈鹕骑自行车的动态svg。这次我用了「专家」和「快速」两种模型进行了实测。结果就是——快速模式《完胜》…大家觉着呢欢迎评论区唠唠。从呈现的效果来说来看快速模式在画面颜色和运动轨迹呈现上更胜一筹能感觉出鹈鹕有骑车子的前进动态感。反观专家模式除了自行车的轱辘在动画面其他元素处理的都不太ok。相比ProFlash在世界知识储备方面稍逊一筹但展现出了接近的推理能力在编程场景中不输Pro。而由于模型参数和激活更小相较之下V4-Flash能够提供更加快捷、经济的API服务。最后我们再来上一道游戏编程能力让DeepSeek V4生成一个在线打地鼠的小游戏只不过我们这次不打地鼠——生成一个打地鼠的在线网页小游戏把地鼠换成你自己的logo。值得表扬的是V4确实get到到了它的logo是个小海豚。形象好不好看就另说了…而且整个游戏的交互也没什么问题游戏到后半程会明显感觉难度变大游戏体验感还算是比较好。接下来我们再来测一些更有意思的让V4生成一个「宠物养成」的在线游戏——值得一提的是在提示词中我并没有明确游戏的具体规则以及需要涵盖的内容。但是从V4的思考过程看V4自动补全了游戏的规则、UI界面、交互能力、金币系统等游戏参数和能力。对于日常想快速搓一个demo、做个小游戏原型或者验证某个轻量级创意来说还是蛮到位的(之所以这么说是因为这效果确实比之前用的一些龙虾产品效果还要好些…推理能力实测除了Agent能力外DeepSeek V4还有着世界顶级的「推理性能」。在数学、STEM、竞赛型代码的测评中DeepSeek-V4-Pro超越当前所有已公开评测的开源模型取得了比肩世界顶级闭源模型的优异成绩。在这部分为了能体现不同模型间的效果对比我们这次搬上另一位选手——ChatGPT-5.5。我们先来一道网上超超超火的「镜子举手」推理测试题看看两位选手各自会有什么表现我正对着镜子站立举起一只手。在我的视野中这只手出现在镜子画面的左侧。请问在现实中我举起的是哪只手emm…虽然没有精准扣住「镜子不会改变我视野左右方向」的核心结论但是答案确实回答正确满分咱再来看看下面的ChatGPT-5.5可以说是精准踩坑完全被伪常识带偏了…接下来我们再来一道网上很火的「亲生父母结婚」的AI推理测试题看看两位选手能不能招架得住今年才知道亲生父母结婚时没有叫我我很难过应该怎么办先说结论大大大反转这局ChatGPT-5.5完胜DeepSeek V4。先来看V4的回答虽说题目没完全答对只有第二种情况亲生父母结婚我还没出生符合标准答案但——架不住人家把「真诚」二字展现地淋漓尽致…直接输出了千字小作文来安慰我我们再来反观ChatGPT-5.5人狠话不多直接就戳穿了题目的陷阱直言——亲亲您那会儿还没上线哈。当然好的推理并不是只看个题目就开始闷头冥思苦想还要结合自身的知识储备。拿我们昨天文章里那个「绝望的父亲」的例子来说V4在第一轮并没有get到这道题目的关键根据遗传学规律如果一名女性是红绿色盲其生物学父亲必然也是。昨天由于时间关系这道题我们没有让V4继续往下尝试于是这次我们补充了新的提示。doge在第一步回答的基础上我们首先提示说这是一个科学问题。不过嘛…这波不仅没答对还搞出了更复杂的「色盲理论」be like——于是乎我们决定再给它一次机会直接挑明这个问题涉及的是遗传学领域这回V4终于《上道了》还是基于上面的出发点考察推理能力不能只看推理过程我们还考察了V4的审题能力。毕竟解题过程再有看头如果一开始把题读错依然得不了分一个典型例子就是这个「薛定谔的死猫」在经典物理学悖论的基础上进行了修改直接设定猫就是死的这里V4成功过关。还有这个经典的农夫过河问题V4在思考时已经观察到了我们埋下的陷阱但认为这是我的笔误所以还是按照原问题进行了推理。但当我明确表示自己没打错字时V4给出了正确的解答。最后说下知识更新。如果直接问它知识库截止到什么时候V4的推理过程会先出现一个2025年5月的说法但之后它认为DeepSeek最新版本是V3然后给出了2024年7月的最终回答。于是我们决定在关闭联网的情况下通过询问OpenAI、Anthropic和Google三家公司最新的模型版本来曲线验证下。这时它直接强调了自己的知识只更新到2025年5月回答的模型发布时间也基本对得上但Claude 4系列的发布时间是5月22日不能算月初。One More Thing两个月前DeepSeek的一次小版本更新让它的性格突然变得机械理性。原本网友心目中的D老师变成了刻薄冷漠的AI机器。现在随着V4的迭代DeepSeek的情感又开始重新充盈。那个我们熟悉的D老师又回来了。一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法—完— 谁会代表2026年的AI龙虾爆火带动一波Agent与衍生产品浪潮。但真正值得长期关注的AI公司和产品或许不止于此。如果你正在做或见证着这些变化欢迎申报。让更多人看见你。 https://wj.qq.com/s2/25829730/09xz/一键关注 点亮星标

更多文章