德比软件:生成式AI让每个人都是数据高手
生成式AI可以极大降低大模型的开发成本,让技术人员可以有更多时间与精力着重在上层的行业应用与功能调优上,大幅提高生产效率。
多年前,在线上预订酒店的流程非常冗长,预订的房价和酒店库存都需要长时间确认,有时在订房一来一回的查询后,房价可能发生变化,甚至出现没有房间的情况。
酒店分销的核心是酒店房价和库存数据,2002年成立的德比软件做的就是在OTA与酒店间架设了一条“信息高速公路”,让用户在所有OTA(Online Travel Agency,全球在线旅游公司)上看到的都是实时酒店房价和库存,生成订单就不会出现房价变更、房态变化的情况。
这条高速公路对接了旅游者、酒店和旅游企业,只要有订单生成,德比软件就会从中收取一笔小额的“过路费“。现在德比软件正处理全球超过22.7万家酒店数据,每月处理超过1800万酒店间夜数。
经历了20多年的发展,现阶段实现数据普惠、提高数据分析效率、加速企业决策成为了德比软件的主要目标,在生成式AI爆发后,德比软件也开始进行尝试。德比软件架构与基础设施技术副总裁郑欢鸣表示,生成式AI解决方案可以极大降低大模型的开发成本,让技术人员可以有更多时间与精力着重在上层的行业应用与功能调优上,大幅提高生产效率。
德比软件架构与基础设施技术副总裁郑欢鸣
12年的云上之旅
早在20年前,德比软件就开始拥抱云,是国内较早进入云计算时代的企业之一。
2012年,选择All in亚马逊云科技。德比软件中国市场部经理杨幸祺说,最早使用亚马逊云科技的初衷是弹性能力,让我们能更快time to market,除此之外我们也获得了遍布全球的资源以及安全的保障。
2014年,实现了PCI DSS(支付卡行业数据安全标准)认证环境迁移上云。
2022年,进一步提升企业运营效率,为旅游企业提供更加稳定、可靠的服务,德比软件启动了全面的应用现代化改造计划。实现了应用的全面容器化,将传统应用迁移到基于容器的现代化架构之上,提高了资源利用效率和应用的弹性伸缩能力。
2023年,计算和数据库层面进行了全面优化。一方面,大规模采用高性价比的Amazon Graviton实例,优化运营环境,成本优化比例达到20%;另一方面,引入Amazon MemoryDB和Amazon Aurora Global Database等数据库服务,为应用提供高性能、高可用、高韧性的数据支持,稳定性提高到99.9%。
同年,德比软件也注意到生成式AI技术,利用亚马逊云科技的云计算服务及生成式AI相关的服务,在酒店智能推荐、智能BI报表、智能客服、智能数据标注等多个场景进行创新性实践。并且为了推广并找到生成式AI的结合场景,还举行了AI Summer活动,最终产生了20多个创新idea。
2024年,开始利用大模型提高员工效率,与亚马逊云科技合作上线了智能分析工具ChatBI。
大模型让数据实现普惠
德比软件虽然部署了传统的BI系统,但数据分析应用在企业和员工两个层面还存在一些挑战。
企业方面存在业务决策人的即席查询在月初月末会激增,对于需求响应需要一定的开发周期;客户很难在报表之外准确查询到订单、销售等数据;部门间互相对数据结构不了解,因此无法实现跨产品的数据查询的问题。
员工方面存在如何在不了解SQL的前提下进行数据分析;如何在没有专业能力的前提下进行数据解读;数据解读分析需要过多专业能力的问题。
德比软件的数据平台希望通过大模型进一步赋能让这些问题得到改善,真正实现数据普惠。郑欢鸣认为,随着数据的普惠,可以加速公司的整体决策,原来几天或一周才能完成的数据分析,现在几分钟就能完成,将大大提高效率。
带着这样的想法,德比软件构建了智能分析工具ChatBI。郑欢鸣解释道,ChatBI可以理解为是一个BI GPT,ChatBI是基于Anthropic Claude 3大模型构建的生成式BI解决方案,允许用户使用自然语言对话进行数据查询和分析。
ChatBI通过实体识别、知识库检索、数据重构等技术,提高了查询准确率,降低了SQL生成复杂度,并支持可视化展示分析结果,旨在推动数据普惠,为企业赋能创造价值。
大模型+RAG+规则=ChatBI
要实现ChatBI的目标,首先需要数据分析师进行一个前置的输入,对数据分析思路标准化、归因推理思路标准化、SQL书写规范。其次结合企业特定的上下文能力,以及大模型本身的上下文学习、指令遵循能力、循序渐进的推理能力。最后通过大模型的应用能力生成SQL,生成的数据可以进行运营诊断,数据规律总结,甚至提供运营建议。
在模型上,德比软件选择Amazon Bedrock中的Claude 3和Amazon Titan模型,使用Amazon SageMaker构建基于自然语言的结构化查询语言(Structured Query Language, SQL)生成器。并利用检索增强生成(RAG)和Prompt Engineering(PE)等工程化技术,提升生成准确度。底层采用Amazon DynamoDB、Amazon OpenSearch Service作为服务支撑。
“我们总结了50多个常见问题,人工根据SQL规范生成对应的SQL语句,形成规则。”郑欢鸣说,用户输入一个语句首先会通过Claude 3进行意图识别,判断是否是BI问题,之后通过Amazon Titan模型将其进行向量化,再去向量数据库中进行模糊查询匹配,最后通过查询结果生成一个优质的提示词,给到Claude 3生成对应的SQL。
除了查询,在这个过程中,德比软件还可以生成搜索查询表里的元数据,并将查询回来的数据让Claude 3进行分析,生成图表。
ChatBI的数据覆盖了酒店、订单、客户数据,打通了整个平台数据的隔离,实现自然语言对话即分析,自动生成SQL提高数据分析师开发BI报表的效率,通过自然语言描述查询结果。未来希望扩展到成本分析、客户分析、产品分析。
“目前ChatBI准确率可以达到90%。”郑欢鸣指出,现在ChatBI主要的使用对象还是数据分析师,他们通过自然语言加速了业务查询请求时间,从原来以周为单位人工开发缩短至分钟级智能响应,未来经过培训,也会扩展到业务人员使用。
随着生成式 AI 的不断进步和应用场景的扩展,德比软件也将在内容匹配、垂直领域应用、跨平台整合、智能助手等方面进行实践,真正做到让数据赋能企业里的每一个人。
本文章选自《数字化转型方略》杂志,阅读更多杂志内容,请扫描下方二维码