大语言模型技术日新月异,但评估它们的能力和局限性仍面临挑战。传统基准测试已不足以全面衡量这些强大工具。本文提出了四个新的人本主义评估维度:价值观、情感、思维和交互,旨在从更深层次、更以人为中心的角度来评估这些变革性技术,以确保AI的发展不仅仅追求智能,更要追求智慧、责任和协作。