OpenAI的o1模型是首个采用强化学习策略内化思维链技术的LLM,在医学领域的表现尚未明确。研究人员通过35个医学数据集和2个新问答数据集,评估了o1在理解力、推理能力和多语言能力方面的表现。实验结果显示o1在多数医学任务上表现优越,但在中文医疗代理任务中性能下降,且解码时间较长。研究指出需要更精确的评估工具和改进用户指导策略,以实现AI医生目标。