腾讯混元Hy3-preview模型解读:295B参数,姚顺雨团队打造,聚焦落地应用
原文地址: https://88box.top 生成时间: 2026-05-20 01:00:37
腾讯混元 Hy3-preview 模型解读:姚顺雨领衔,295B 参数主打落地场景 - hey99 知识搜索引擎
精选文章
腾讯混元 Hy3-preview 模型解读:姚顺雨领衔,295B 参数主打落地场景
Hy3-preview 的发布不仅是技术的迭代,更反映了腾讯在大模型策略上的务实转变——以 295B 的“小身材”换取在元宝、ima 等亿级用户产品中的流畅体验。对于普通用户而言,无需关注参数大小,打开元宝 App 或 ima,体验的便是由姚顺雨团队带来的最新 AI 能力。参考资料。
更新于 2026-05-19 16:58
摘要
:
2026年4月,腾讯正式发布了其新一代旗舰AI模型
Hy3-preview
。这是自前OpenAI研究员
姚顺雨
加入腾讯并领导基础AI研发以来的首个重要成果。该模型以仅
2950亿参数
的“小规模”逆势突围,在元宝、ima及CodeBuddy中均已上线。本文将结合官方架构文档与最新报道,剖析其技术亮点与落地逻辑。
体验Demo
:
https://huggingface.co/spaces/tencent/Hy3-preview
和竞品的指标对比:
一、 研发背景与战略定位:姚顺雨首秀
据《南华早报》报道,Hy3-preview 是腾讯自
姚顺雨
加盟并执掌混元团队基础模型研发后的首次亮相。这位前 OpenAI 研究员的加入,标志着腾讯在大模型底层技术上的进一步聚焦。
关键信息梳理:
性能定位
:腾讯官方表示,Hy3-preview 是目前最强大的闭源模型,与中国本土顶尖模型持平,但仍落后于 OpenAI、Google DeepMind 等美国顶尖模型。
逆势缩参
:与业界动辄万亿参数的潮流不同,Hy3-preview 的参数量仅为
2950亿
,远低于腾讯于2025年12月发布的上一代旗舰 HY 2.0(参数超4000亿)。
核心逻辑
:参数减少并非降级,而是为了
适配真实商业场景
。较小的参数量显著降低了推理计算成本与延迟,使其能够大规模部署于高并发消费端产品。
二、 模型架构核心解析
Hy3-preview 由腾讯混元团队开发,在 Hugging Face 上的架构文档揭示了其高效运行的秘密。
Dense-MoE 混合架构
:
第一层使用标准 Dense FFN 保证输入特征稳定性。
后续所有层均为 MoE 层,拥有
192 个路由专家
和
1 个始终激活的共享专家
。推理时仅需激活 Top-K(默认 K=8)专家,实现高效稀疏计算。
Sigmoid 路由与无辅助损失
:
采用 Sigmoid 函数替代 Softmax 进行路由打分,决策更独立。
引入专家偏置校正负载均衡,
无需计算辅助负载均衡损失
,简化训练流程。
QK-Norm 稳定机制
:对 Query 和 Key 应用 RMSNorm,提升长文本训练稳定性。
三、 代码调用示例
开发者可通过 Hugging Face Transformers 库调用:
from
transformers
import
AutoTokenizer
,
AutoModelForCausalLM
model_id
=
"tencent/Hy3-preview"
tokenizer
=
AutoTokenizer
.
from_pretrained
(
model_id
)
model
=
AutoModelForCausalLM
.
from_pretrained
(
model_id
,
device_map
=
"auto"
,
torch_dtype
=
"auto"
)
inputs
=
tokenizer
(
"人工智能的未来是"
,
return_tensors
=
"pt"
)
.
to
(
model
.
device
)
outputs
=
model
.
generate
(
**
inputs
,
max_new_tokens
=
64
)
(
tokenizer
.
decode
(
outputs
[
0
]
,
skip_special_tokens
=
True
)
)
四、 普通用户体验入口:元宝 App、网页端 与 ima
根据官方表态,Hy3-preview 的开发强调
产品需求与底层技术的无缝对齐
。目前该模型已部署在腾讯系核心应用中:
平台
可用性说明
场景优势
腾讯元宝 App / 网页
在对话界面的模型切换栏中,可选择
“Hy3-preview”
版本。
复杂逻辑推理、长文总结、实时对话。
ima.copilot
作为智能工作台的底层算力支持,处理上传的 PDF、Word 等文档。
基于 295B MoE 架构,长文档解析速度更快,显存/算力消耗更经济。
CodeBuddy
已集成 Hy3-preview,辅助编程代码生成。
代码补全与 Debug 推理。
五、 总结
Hy3-preview 的发布不仅是技术的迭代,更反映了腾讯在大模型策略上的务实转变——
以 295B 的“小身材”换取在元宝、ima 等亿级用户产品中的流畅体验
。对于普通用户而言,无需关注参数大小,打开元宝 App 或 ima,体验的便是由姚顺雨团队带来的最新 AI 能力。
参考资料
:
Hugging Face Transformers Documentation - Hy3-preview.
South China Morning Post - Tencent unveils first flagship AI model since former OpenAI researcher took helm.
https://huggingface.co/docs/transformers/main/en/model_doc/hy_v3
https://www.scmp.com/tech/big-tech/article/3351101/tencent-unveils-first-flagship-ai-model-former-openai-researcher-helm
查看原文
🏷 标签: 大模型架构,MoE稀疏激活,腾讯混元,Hy3-preview,落地优化