架构优化 关键字列表
Nvidia 新型 Llama-3.1 Nemotron Ultra 以一半参数量超越 DeepSeek R1

Nvidia 新型 Llama-3.1 Nemotron Ultra 以一半参数量超越 DeepSeek R1

英伟达发布了基于 Meta 旧版 Llama-3.1 的全新开源大语言模型 Llama-3.1-Nemotron-Ultra-253B。该模型在多项第三方基准测试中表现出色,尽管参数量仅为 DeepSeek R1 的一半,但在许多任务上都超越了这个强大的竞争对手。新模型支持高级推理、指令跟随和 AI 助手工作流,采用了创新架构和针对性后训练来优化性能。