性能评估 关键字列表
Galileo 发布新平台用于评估 AI 代理系统

Galileo 发布新平台用于评估 AI 代理系统

Galileo 发布了 Agentic Evaluations 平台,用于评估基于大语言模型的 AI 代理性能。该平台提供全生命周期框架,支持系统级和步骤级评估,帮助开发者快速定位inefficiencies和错误。平台使用专有的 LLM-as-a-Judge 指标,支持 LangGraph 和 CrewAI 框架,现已向所有 Galileo 用户开放。