蚂蚁数科隐私增强型数据协作平台(FAIR)在数据要素领域的应用——蚂蚁区块链科技(上海)有限公司
案例基本内容和执行情况
蚂蚁区块链科技(上海)有限公司(以下简称蚂蚁数科)围绕数据要素为核心,融合隐私计算、区块链、大数据、可验证计算等技术推出隐私协作平台(简称FAIR平台),实现面向数据开放与数据基建的隐私增强型数据计算枢纽,并在监管、营销、风控、民生等多个垂直领域的落地使用,推动了隐私安全、可信的数据共享及价值流转。
平台全面建设并实践了隐私保护模式下的数据查询,统计分析,联合建模等能力,并融合软硬结合技术实现特定算法的高性能硬件加速。支持快速对接现有数据源,提供资源友好的可配置轻量化底座,在多个场景实践中展示出大规模数据下生产级可用的标准。例如在风控的使用场景中,可以在保护数据隐私的前提下实现联合建模,可在2分钟完成10万样本100棵树的XGB建模,产出模型精度相比单方建模精度提升30%以上,极大提升了风控识别准确率,降低了运营成本。
案例主要经济成效和社会成效分析
2021年12月,我国首次提出“十四五”数字经济发展规划,其中明确指出“(数字经济)是以数据资源为关键要素...的新经济形态。”。同时我们也看到数据要素在辅助企业进行智能化分析与决策等方面发挥着重要的作用,但在综合运用多方数据产生更大乘法效应的阶段,却面临数据共享存在隐私安全风险、数据持续流通存在可信挑战的问题。蚂蚁数科基于这一背景,综合隐私计算、区块链、大数据、可验证计算等技术推出隐私协作平台FAIR,实现面向数据开放与数据基建的隐私增强型数据计算枢纽,并赋能落地了监管、营销、风控、民生等多个垂直领域。FAIR产品每年销售收入数千万元并实现了稳步、高质量增长,除此之外,作为一款面向企业的隐私增强型数据平台产品,通过其密态分析与密态机器学习能力,在企业提升生产效率、降低运营成本、提升公共服务水平等方面带来了诸多实际落地成果。后续将以几个典型落地案例分别阐述这几个方面的提升。
在信贷风控场景的案例中,通过FAIR平台的高精度密态机器学习能力,提升了客户风控能力,降低运营成本。客户为某汽车金融厂商,通过机器学习模型进行信贷授信、反欺诈等风险防控。但其风险标签一般来自人工认定,往往数据量较少,且汽车厂商的用户画像特征数据维度偏少,训练后的机器学习模型精度不高,影响了风控质量。客户利用FAIR平台的密态机器学习算法,联合合作方提供的消费、交易、金融偏好等特征数据,充分融合多参与方、多维度的数据形成联合训练数据,在隐私保护多方数据的前提下进行联合建模,产出的模型精度提升30%以上。FAIR密态机器学习能力具备常见特征工程、建模、推理与评估能力,同时针对风控领域常见的样本不均衡等问题进行了针对性优化,最终可以在2分钟内完成10万级样本百棵树XGB模型的训练,1小时内完成数亿样本的模型推理,提升了密态机器学习效率,有效帮助客户改善了风险防控能力,实现降本提效与高质量发展。
在公共服务的案例中,通过FAIR平台的多方数据密态分析能力,帮助相关部门实现了多方数据安全核验,提高了公共服务水平。客户需要综合社保、税务等政务数据对企业数据进行交叉核验,判断其是否满足特定政策。然而由于政务数据的敏感性,无法归集到此部门进行调用,往年只能通过人工方式进行核验。通过引入FAIR平台的多方数据密态分析能力,在政务原始数据不出域的情况下实现联合计算,核验数据数千万条,实现相关事项的智能核验与秒批秒办,高效服务企业超千家。
在医学数据分析的案例中,通过FAIR平台的密态数据计算能力,完成了跨地区多家医院数据的联合统计分析。特定疾病的发生率是支撑卫生政策的重要信息,一般可基于人口学信息、实验室检查检验信息、住院信息等,经特定规则运算分析得出。而综合多家医院的数据将极大提升准确率,并可通过FAIR平台的数据脱敏与密态数据统计分析能力,解决多方数据交互过程中的隐私安全问题。FAIR平台提供SQL化的数据分析接入界面,客户通过构造SQL语句,就可以方便地完成多方数据的联合查询、统计分析、统计分布和相关性分析,进而实现疾病发生率的分析,为当地公共卫生政策制定提供决策支撑。
本文选自数据要素价值创新示范案例集(2023年度)