图文交错 关键字列表
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型

商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型

商汤科技等机构联合开源了百亿级图文交错数据集OmniCorpus,规模是现有数据集的15倍,包含86亿张图像和16,960亿个文本标记。OmniCorpus数据集在多语言、多类型数据抓取上进行了优化,提高了内容提取的质量和完整性。通过人工反馈和自动过滤规则,确保了数据集的高质量。在VQA和Image Captioning等测试中,基于OmniCorpus预训练的模型表现出色,对训练多模态大模型有重要帮助。