训练文章列表第1页-至顶网频道

训练关键字列表

大模型

训练

张量并行

2024-12-30

国产开源之光：DeepSeek-V3划重点

DeepSeek-V3 采用了 671B 参数 MoE 架构，配备约 37B 激活单元，训练使用14.8T Token数据。

人工智能

可信度

训练

2024-10-08

通过博弈来训练辩论模型，提高了裁判模型准确性，也为AI自我监督提供了新思路

探讨如何提高人工智能系统在复杂任务中的透明度和可信度方面，纽约大学数据科学中心的研究人员提出了一种创新方法，通过自我博弈、训练语言模型进行辩论，以提高裁判的判断准确性。

训练

大模型

用户数据

2024-08-05

现在的AI公司们，已经在把用户当"数据提款机"了。

最近X（也就是以前的推特）和马斯克，就被这玩意，推上了风口浪尖。原因是，X被发现“光明正大”的拿用户的帖子来训练Grok AI。就是马斯克自己搞的那个大模型。

AIGC

多模态

推理

训练

2024-05-13

AI算力产业链及竞争格局分析

目前，AIGC产业生态体系的雏形已现，呈现为上中下三层架构：①第一层为上游基础层，也就是由预训练模型为基础搭建的AIGC技术基础设施层。②第二层为中间层，即垂直化、场景化、个性化的模型和应用工具。③第三层为应用层，即面向C端用户的文字、图片、音视频等内容生成服务。

QLoRA训练

Llama3

训练

2024-05-07

Unsloth微调Llama3-8B，提速44.35%，节省42.58%显存，最少仅需7.75GB显存

我们实测了Unsloth所带来的训练增益，对Llama3-8B进行QLoRA训练，最少仅需7.75GB显存，这意味着我们可以在一张1080Ti上训练Llama3-8B，进一步降低了大模型训练的硬件门槛。开启Unsloth后，Llama3-8B的训练速度可提升44.35%，训练时间可减少30.72%，显存占用可减少42.58%。更详细的测试设置可参考第三节。