Transformer 关键字列表
腾讯放大招,超Meta!史上参数最大,开源专家混合模型

腾讯放大招,超Meta!史上参数最大,开源专家混合模型

腾讯开源了基于Transformer架构的Hunyuan-Large模型,拥有3890亿参数,优于Meta的LLama3.1 - 405B模型。Hunyuan-Large采用MoE结构,高效训练和推理,支持长达256K上下文。使用了KV缓存压缩技术,减少内存占用。训练数据包括7万亿token,包括高质量合成数据。模型在CommonsenseQA、PIQA、WinoGrande等测试中表现优异。