互联网工程任务组 (IETF) 成立了一个工作组,旨在制定新标准,让内容创作者能够向 AI 开发者表明是否允许使用其作品。该工作组将开发统一词汇表来表达作者和出版商对 AI 训练使用其内容的偏好,并探索将这些偏好附加到互联网内容的方法。这一举措源于当前系统的ineffectiveness,以及内容创作者对 AI 公司未经许可抓取内容的不满。
SourceHut等网站面临AI爬虫过度抓取数据的挑战,导致服务速度下降。这些爬虫主要用于训练大型语言模型,但其行为往往不受约束。网站采取各种措施应对,包括封锁某些云服务提供商和部署反爬虫工具。然而,这些措施可能影响正常用户访问。AI爬虫的不当行为已成为一个普遍问题,引发了对网络资源使用和数据收集方式的讨论。