上海AI实验室的研究团队创新性地设计了元动作思考范式来引导模型的搜索空间,使模型更高效地习得和产生多样化的推理策略组合;基于通专融合的方式进行数据合成,并通过构建大规模沙盒环境获取反馈,在不依赖o1这类已有强推理模型的情况下,实现高质量思维链的独立构建,并大幅提升模型的复杂任务处理性能。
OpenAI发布了新的AI模型OpenAI o1,它在复杂推理任务上取得显著进展,重置了命名序列。o1模型通过Self-play RL学习,具备了慢思考的特质,能够进行深度思考和推理。在AIME 2024数学竞赛和科学问题GPQA Diamond上,o1的表现超过了人类专家。o1模型已向ChatGPT Plus和Team用户开放,提供o1预览版和o1 mini两种版本,API价格不等。