随着 LLM 的快速发展和改进,我们正在面对新的挑战和机遇。LLM 的能力和表现水平不断提高,这使得基于单词出现的评估方法(如 BLEU)可能无法完全捕捉到 LLM 生成文本的质量和语义准确性。LLM 能够生成更加流畅、连贯且语义丰富的文本,而传统的基于单词出现的评估方法则无法准确衡量这些方面的优势。