最新文章
Qwen2.5全家桶发布,包含7种尺寸规模

Qwen2.5全家桶发布,包含7种尺寸规模

本次开源的Qwen2.5语言模型主要包含7种尺寸,0.5B到72B全尺寸覆盖,弥补了Qwen2 14B/32B这两种业务黄金尺寸缺失的遗憾,并且开源了强劲的3B的端侧模型。本次开源,一个字:尺寸丰富,性能强劲。(此外还包括Math、Code和VL专项模型)

Unsloth微调Llama3-8B,提速44.35%,节省42.58%显存,最少仅需7.75GB显存

Unsloth微调Llama3-8B,提速44.35%,节省42.58%显存,最少仅需7.75GB显存

我们实测了Unsloth所带来的训练增益,对Llama3-8B进行QLoRA训练,最少仅需7.75GB显存,这意味着我们可以在一张1080Ti上训练Llama3-8B,进一步降低了大模型训练的硬件门槛。开启Unsloth后,Llama3-8B的训练速度可提升44.35%,训练时间可减少30.72%,显存占用可减少42.58%。更详细的测试设置可参考第三节。

关于弱智吧数据封神的若干疑问和猜想,以及数据验证实验

关于弱智吧数据封神的若干疑问和猜想,以及数据验证实验

弱智吧的数据真的这么厉害吗?持着好奇和怀疑的态度,我们仔细阅读了这篇论文,「弱智吧的数据碾压其他数据」这个结论有待深入讨论和探索。我们提出以下几个疑问: