数据集文章列表第1页-至顶网频道 - 至顶网

/

数据集关键字列表

企业AI：如何构建AI数据集

生成式AI

数据集

提示词工程

2024-09-11

企业AI：如何构建AI数据集

首先考虑企业已经拥有的、或者可以使用的、符合要求的数据和数据集。接下来，你需要决策点透明度，以及信号值来评估可用性、可行性和业务效果等因素，或者潜在表现与竞争对手相比的数据等。

微软用AI Agent生成2500万对高质量数据，极大提升大模型性能！

合成数据

智能体

数据集

2024-09-09

微软用AI Agent生成2500万对高质量数据，极大提升大模型性能！

为了解决训练数据短缺和质量差的难题，微软研究院发布了一个专门用于生成高质量合成数据的的AI Agent——Agent Instruct。

商汤、清华、复旦等开源百亿级多模态数据集，可训练类GPT-4o模型

数据集

OmniCorpus

多模态大模型

图文交错

2024-09-02

商汤、清华、复旦等开源百亿级多模态数据集，可训练类GPT-4o模型

商汤科技等机构联合开源了百亿级图文交错数据集OmniCorpus，规模是现有数据集的15倍，包含86亿张图像和16,960亿个文本标记。OmniCorpus数据集在多语言、多类型数据抓取上进行了优化，提高了内容提取的质量和完整性。通过人工反馈和自动过滤规则，确保了数据集的高质量。在VQA和Image Captioning等测试中，基于OmniCorpus预训练的模型表现出色，对训练多模态大模型有重要帮助。

关于弱智吧数据封神的若干疑问和猜想，以及数据验证实验

数据集

训练

大模型

2024-04-09

关于弱智吧数据封神的若干疑问和猜想，以及数据验证实验

弱智吧的数据真的这么厉害吗？持着好奇和怀疑的态度，我们仔细阅读了这篇论文，「弱智吧的数据碾压其他数据」这个结论有待深入讨论和探索。我们提出以下几个疑问：

“弱智贴吧”的数据，居然是最强中文语料库

数据质量

大模型

数据集

2024-04-07

“弱智贴吧”的数据，居然是最强中文语料库

在大模型领域英语一直是训练数据最重要的语言，但由于中英文的结构和文化差异,直接将英文数据集翻译成中文并不理想。所以，为了填补高质量中文数据集的空白，研究人员开发出了COIG-CQIA数据集。

投入3700多万美元，澳大利亚推出了维多利亚州的数字孪生

数字孪生

澳大利亚

数据集

2022-08-18

投入3700多万美元，澳大利亚推出了维多利亚州的数字孪生

澳大利亚维多利亚州日前宣布正式推出维多利亚州数字孪生（DTV）平台，旨在提供相关数据的可视化、探索和规划。

白皮书

更多

数字化转型方略

更多

智算“筑基”AI未来

AI时代存储之变

ISV打卡AI新时代引领智能应用新潮流

AI+虚拟数字人，正在何处落地开花？

- 关注官方公众号
- 关注官方微博
- 关注官方喜马拉雅

友情链接

北京第二十六维信息技术有限公司（至顶网）版权所有. 京ICP备15039648号-7 京ICP证161336号京公网安备 11010802021500号

举报电话：010-62641205-5060　涉未成年人举报专线：010-62641208 举报邮箱：jubao@zhiding.cn

网上有害信息举报专区：https://www.12377.cn

安全联盟认证