基准测试集 关键字列表
刚刚,OpenAI开源SimpleQA!轻松检测、校准大模型能力

刚刚,OpenAI开源SimpleQA!轻松检测、校准大模型能力

目前,很多大模型会出现一本正经胡说八道的问题,例如,你提问NBA历史上得分最多的是谁,它回答是迈克尔乔丹,实际上是勒布朗詹姆斯。包括OpenAI自己发布的GPT-4o、o1-preview、o1mini等前沿模型都有这些“幻觉”难题。