OpenAI的超级对齐团队开发了Transformer Debugger(TDB),这是一个旨在支持对小型语言模型特定行为进行调查的工具,它结合了自动化的可解释性技术与稀疏自编码器。
OpenAI开源了Transformer Debugger,这是一个可视化工具,用于帮助开发者调测和理解大型语言模型的推理过程。工具通过可视化展示模型的神经元、注意力机制和自编码器的激活情况,提供对模型行为的解释。Transformer Debugger包括神经元观察器、激活服务器、模型库和汇总激活数据集等组件。