OpenAI的超级对齐团队开发了Transformer Debugger(TDB),这是一个旨在支持对小型语言模型特定行为进行调查的工具,它结合了自动化的可解释性技术与稀疏自编码器。
DeepSeekVL是一款开源多模态模型,通过对训练数据、模型架构和训练策略的联合拓展,构建了7B与1.3B规模的强大模型。相关资源可通过论文链接、模型下载页面和GitHub主页获取。
文章讨论了Anthropic公司的AI模型Claude3,该模型在性能上超越了GPT-4。文中未提及具体技术细节或关键词,因此无法提取相关关键词或进行内容精简。
本项目教你从零开始打造深度学习推理框架,涵盖深度学习背后知识、现代C++编程、计算图设计、算子实现及优化。完成后,你将拥有能推理多种模型的个人推理框架,有助于面试和知识提升。
北大和Rabbitpre AI发起的Open-Sora Plan项目致力于复现OpenAI的视频生成模型Sora。项目包括Video VQ-VAE压缩视频至潜在维度,Denoising Diffusion Transformer去噪,以及Condition Encoder支持多条件输入。特色在于支持可变长宽比、分辨率和时长,通过动态掩蔽策略、位置插值等技术实现高效训练和生成不同规格的视频。