Fabarta创始人兼CEO高雪峰:“图+向量”超越幻觉边界 企业智能应用呈现“新姿态”
Fabarta创始人兼CEO,原IBM认知计算研究院院长、阿里云大数据&AI 产品与解决方案总经理高雪峰,解构大模型“幻觉”。
自“百模大战”开战以来,每隔几周便有一个新的大模型诞生,似乎有一个不成文的规则在科技界流传:不发布一个大模型,就不配坐上通往AI时代的列车。
当大大小小的科技公司纷纷推出了自己的大模型,这场“竞技”似乎演变成了一个无尽的循环。这就造成一种现象——高度雷同,同质竞争,大家一蜂窝扑上来,重复造轮子。
然而,在人工智能热潮持续近一年后的今天,业内迎来了“冷”思考,不仅要解决影响大模型总体准确率的幻觉,也要解决“大模型不是越多越好”这一认知“幻觉”。或许,是时候建立一套大模型能力强弱的评判标准了。
AI也“刷题”,大模型需要一场怎样的“考试”?
如果每个大型模型都要参加一场考试,那这场考试的试卷是什么样的?目前,行业内对此还没有一个统一的答案。
综观全球范围内推出的形形色色的大模型性能评估榜单,不论是伯克利的“LMSYS”,还是上海交通大学或清华大学的大模型评估榜单,亦或是专注于医疗、法律等特定领域的评估榜单,这些评价体系对大模型能力的评估指标和标准“大同小异”,无法更客观地评估大模型的优越性。
有趣的是,大模型世界里还存在“应试教育”。一些开放的数据集像是公开的题库,让大模型可以通过“刷题”来提高在特定数据集上的表现。
尽管为了解决这个问题,有评价机制尝试采用闭源测试,也就是不公开“考题”,但却也“收效甚微”,因为模型仍然可以通过记录提问来进行“学习”。
事实上,大模型综合能力评估真正的挑战在于,如何设计出既公平又能全面考察模型能力的考试。
在Fabarta创始人兼CEO高雪峰看来,对大模型综合能力去评估,一定是多元化的,需要考虑多个维度,包括模型的推理能力、性能、能效、安全性,以及在不同学科领域的应用能力。
Fabarta创始人兼CEO 高雪峰
对于业界最关心的性能评估方面问题,高雪峰认为,大模型的性能主要体现在推理效率方面。具体而言,就是评估模型完成复杂任务所需的时间。高雪峰解释说:“如果模型在推理过程中需要多次调用,例如使用COT(大模型链式思考)的方法,那么完成一次完整推理所需的时间也会增加。因此,重点在于衡量模型完成推理任务并得出正确答案所需的时间。”
“完备的测试集要与大模型的算法能力同步迭代、相辅相成。”高雪峰直言,随着各行业领域测试集的不断完善和丰富,大型模型能够通过针对这些全面测试集进行调优,从而展现其基础能力的均衡性。未来,随着大模型不断更新、进步,我们也终将会迎接这一天的到来。
面向“AIGD” 如何破除大模型幻觉?
作为新的基础的生产力工具,如何利用大模型让其产生实际的价值,是现阶段各行业试验的重点。而相关企业要想持久坐在牌桌上,就得看清浪潮的流向。“做不了通才,那就做专才”。和业界诸多企业一样,高雪峰也认为,大型模的未来应该是在特定行业场景中应用。在他看来,大模型不仅仅是为了提供通用的SaaS服务或面向C端用户的模型服务。更加关键的是,面向“toB”场景时实现决策智能(AIGD),形成适用于各种精准行业和细分领域的模型。这是一个AIGC向AIGD转变的过程。
“在AIGC时代,计算与存储已经成为过去,推理和记忆才是未来”高雪峰这样形容。
现在,几乎所有的企业开始逐步尝试结合企业数据落地私有化大模型,但要有效地将AIGC技术转化为决策智能,基于Transformer的大型模型面临几个主要挑战。
其一是大模型“一本正经胡说八道”(幻觉)的问题,严重影响了大模型应用的可靠性,可能会产生信息错误或侵犯隐私等严重后果。诸如在医疗等特殊场景中,若为病患提供了错误的诊断信息,甚至会影响他们的生命安全。所以,尽管不可能完全消除幻觉,但B端的大模型应该尽量减少幻觉的产生。
其次,大模型生成的内容需要具备可解释性,即便信息不准确,也应明确其来源,以便用户进行判断。
此外,大模型还要确保数据安全性和可控制性,特别是在企业的具体应用场景中,不同部门间的数据隔离至关重要。
同时,还需解决大模型“非歧视性”问题,确保在应用于特定领域时,模型的安全性得到保障。
在高雪峰看来,解决这些问题的关键在于两方面:一方面,要建立针对特定行业的知识库。另一方面利用私有化部署的商用大模型或开源大模型,并对其进行特定域的训练。这种方法依赖于知识库中的公共数据,避免涉及敏感信息,从而保障数据的安全可控。
“图+向量”融合 构建‘小模型’新范式
事实上,从百度、阿里、字等等一众大厂最近的动向中不难发现,建立“toB”场景下的大模型已经成为行业共识。然而,部署一个可用的“toB”场景下的大模型成本之高昂,训练要求之高,并非一般企业所能承担。这也是许多企业开始感慨大模型应用落地难的原因之一。
如何训练大模型在更小规模上达到能力涌现,是当前研究的重点。面对这一共同的困局,高雪峰坦言道:“没必要拿行业、企业中小范围、小规模的数据去预训练一个行业‘小模型’,这不仅无法降低“幻觉”,且验证也比较困难。
他建议,企业可基于多模态数据(如文本、图像、视频、音频等多模态信息),引入大模型的能力,构建一个完善、易更新维护的行业知识库。而这其中,建立针对大模型时代的AI基础设施至关重要。
作为一家AI基础设施公司,Fabarta构筑了以数据为中心的AIGC落地架构范式——“图+向量”。
Fabarta推出的ArcNeural是以 Data-Centric AI 为核心构建的用于处理符号化数据图(Graph)和向量(Vector)的多模态智能引擎,它将传统数据库的“存储&计算”架构演进为“记忆&推理”架构,可为AI智能应用提供私有记忆和可解释的精确推理。
ArcGraph是ArcNeural 中的图引擎,是Fabarta自主设计和研发的一款分布式、云原生的高性能图 HTAP数据库,采用 Multi-Raft 协议来满足系统的分布式一致性和高可用性;同时支持存储节点和计算节点的无缝扩缩容,支持分布式事务和分布式查询功能;通过采用原图内存引擎,支持高性能图查询和 Serverless 图计算;并且通过图、JSON 和向量的深度融合,实现了ArcGraph的多模态能力。
高雪峰解释说:“图数据库以其强大的关联分析能力满足了AI对复杂关系处理的需求。图和向量的融合技术也实现了多模态的数据处理,为AI的发展提供了新的可能性。
现阶段,这一策略已经在相关行业落地。在金融风控、营销等场景中,通过构建自己的多模态数据知识库,引入大型模型进行问答和检索,可以有效提升企业的决策智能。但要实现这一点,首先需要构建企业知识库和AI数据基础设施,然后对接一个或几个大型模型,以支持更加智能和精准的决策制定。
“这种技术的行业稀缺性和能力在解决以往难以解决的问题上展现出了其独特价值。”高雪峰强调,这一点,Fabarta已经为客户做过相应的PoC(概念验证),并已经在多个行业生产落地。
面对即将到来的2024年,高雪峰展望道:“明年,或许是私有化大模型崛起的一年,而我们的愿景则是帮助万千企业打造核心的面向智能应用的数据基础设施,以标准化和定制化并行的策略,帮助企业在具体的决策场景中落地AI。”
本文章选自《数字化转型方略》杂志,阅读更多杂志内容,请扫描下方二维码