最新文章 - 至顶网

大模型

开源模型

训练成本

深度思考

2025-01-20

书生·浦语大模型升级，突破思维密度，4T数据训出高性能模型

上海人工智能实验室对书生大模型进行重要版本升级，书生·浦语3.0（InternLM3）通过精炼数据框架，大幅提升了数据效率，并实现思维密度的跃升。仅使用4T训练数据的InternLM3-8B-Instruct，其综合性能超过了同量级开源模型，节约训练成本75%以上；同时，书生·浦语3.0首次在通用模型中实现了常规对话与深度思考能力融合，可应对更多真实使用场景。

强推理模型书生InternThinker开放体验：自主生成高智力密度数据、具备元动作思考能力

开源模型

推理能力

复杂推理任务

2024-12-02

强推理模型书生InternThinker开放体验：自主生成高智力密度数据、具备元动作思考能力

上海AI实验室的研究团队创新性地设计了元动作思考范式来引导模型的搜索空间，使模型更高效地习得和产生多样化的推理策略组合；基于通专融合的方式进行数据合成，并通过构建大规模沙盒环境获取反馈，在不依赖o1这类已有强推理模型的情况下，实现高质量思维链的独立构建，并大幅提升模型的复杂任务处理性能。

开源

大模型

通用任务

2024-09-20

Qwen2.5全家桶发布，包含7种尺寸规模

本次开源的Qwen2.5语言模型主要包含7种尺寸，0.5B到72B全尺寸覆盖，弥补了Qwen2 14B/32B这两种业务黄金尺寸缺失的遗憾，并且开源了强劲的3B的端侧模型。本次开源，一个字：尺寸丰富，性能强劲。（此外还包括Math、Code和VL专项模型）

QLoRA训练

Llama3

训练

2024-05-07

Unsloth微调Llama3-8B，提速44.35%，节省42.58%显存，最少仅需7.75GB显存

我们实测了Unsloth所带来的训练增益，对Llama3-8B进行QLoRA训练，最少仅需7.75GB显存，这意味着我们可以在一张1080Ti上训练Llama3-8B，进一步降低了大模型训练的硬件门槛。开启Unsloth后，Llama3-8B的训练速度可提升44.35%，训练时间可减少30.72%，显存占用可减少42.58%。更详细的测试设置可参考第三节。