混元Hy3 preview实测:不追榜单的腾讯,开始“出卷子“了

张开发
2026/4/25 16:29:22 15 分钟阅读

分享文章

混元Hy3 preview实测:不追榜单的腾讯,开始“出卷子“了
这周国产大模型扎堆发布阿里Qwen 3.6 Max、月之暗面Kimi 2.6、DeepSeek V4箭在弦上……混元Hy3 preview也在昨天亮相。作为腾讯首席AI科学家姚顺雨主导的第一代模型它的定位很明确不到榜单打分到真实世界解决问题。先看数据维度数据参数295B总量 / 21B激活上下文256K约20万字SWE-Bench53.0% → 74.4%提升40%价格输入1.2元/百万tokens / 输出4元/百万tokensSWE-Bench 74.4%是什么概念接近GLM-4.7的水平在国产模型里属于第一梯队。实测能做什么编程场景WorkBuddy实测3D金门大桥交互体验能跑但不够写实受工具限制游乐场经营小游戏能玩UI审美偏渐变紫复杂数据抓取可视化链路稳定但最后一公里有缺失办公场景PDF转HTML能准确定位信息但精美排版难深度研究报告数据来源权威可直接使用数据可视化调研时间长输出质量高日常聊天主打活人感不只会顺从会主动分析原因、给建议创意写作风格更个性化AI味降低腾讯的转向姚顺雨在内部会有个判断“模型过度追逐榜单成绩将打榜语料放入训练集数据被污染了。模型很会答题到了真实场景却不稳定。”这句话点破了行业痛点榜单衡量能力上限用户感知能力下限MMLU领先两个百分点用户几乎感知不到指令遵循稍差、格式不稳定体验断崖下降所以Hy3 preview不打榜了开始出卷子——解决真实世界的复杂问题。落地场景目前Hy3 preview已在元宝App / QQCodeBuddy / WorkBuddy腾讯文档企业微信内微盛·企微管家Claw企业微信场景对于企业微信用户**微盛·企微管家Claw**已经接入了Hy3 preview可以在客服、文档处理、数据分析场景中体验。写在最后Hy3 preview呈现的是一种过渡态特征Agent能力已具备但执行不够稳定技术方向验证了但工程优化还在路上榜单不打分了但真实场景的考验才刚开始腾讯的AI战略正在从追赶榜单转向解决问题。这条路走对了但还需要时间。月活数据是现实的豆包3.45亿、千问1.66亿、DeepSeek 1.27亿而元宝才5700万。但腾讯的筹码是微信生态——13亿用户的雪球滚起来谁也不知道会发生什么。

更多文章