中国人工智能实验室深度思考发布了其所谓的推理模型DeepSeek-R1的开放版本,声称在某些人工智能基准测试中表现与OpenAI的o1相当。R1在AI开发平台Hugging Face上以MIT许可证提供,意味着可以在商业上无限制使用。深度思考表示,R1在AIME、MATH-500和SWE-bench Verified基准测试中超越了o1。AIME使用其他模型来评估模型的性能,而MATH-500是一个包含文字问题的集合。SWE-bench Verified则专注于编程任务。