最新科技资讯速递:阿里巴巴旗下人工智能实验室通义千问重磅推出新一代基础模型架构Qwen3-Next,并正式开源基于该架构的Qwen3-Next-80B-A3B系列模型。这一突破性进展标志着AI大模型技术迈向了全新阶段。与上一代Qwen3的MoE模型结构相比,Qwen3-Next在多个维度实现了革命性突破:首先引入了混合注意力机制,有效平衡了计算效率与模型性能;其次采用了高稀疏度MoE结构,显著提升了模型的可扩展性和资源利用率;此外还整合了一系列训练稳定友好的优化策略,确保模型在复杂任务中表现更稳定;最后通过创新的多token预测机制,大幅提升了推理效率。
在Qwen3-Next架构基础上,阿里团队精心训练了Qwen3-Next-80B-A3B-Base模型。该模型拥有高达800亿参数,但实际激活参数仅占30亿,实现了参数利用率的飞跃。令人惊叹的是,这款Base模型在性能表现上达到了与Qwen3-32B dense模型相当甚至略胜一筹的水平。更值得关注的是其成本效益:训练成本(GPU hours)仅为Qwen3-32B的十分之一以下,而32k以上上下文环境下的推理吞吐量更是达到了Qwen3-32B的十倍以上。这一系列创新成果,不仅大幅降低了AI大模型的训练门槛,更在推理性能上实现了质的飞跃,为各行各业提供了极具吸引力的AI解决方案。