圆桌论坛:AI大模型+Agent,正推动数据基础设施变革?

大模型与智能体的兴起,对数据提出了根本性的新要求,也推动数据基础设施向更高层次演进。

640 (2).jpg

“迈向未来智能,我们需要怎样的数智底座?

大模型与智能体的兴起,对数据提出了根本性的新要求,也推动数据基础设施向更高层次演进。

在此背景下,“第八届金猿大数据产业发展论坛——暨AI Infra & Data Agent趋势论坛”于1月14日在上海成功举办。与会政、产、学、研、用各方代表一致认为,随着大模型与智能体的发展,产业对数据的需求正发生质的变化,各行业对高质量数据集的渴求从未如此迫切,这也促使我们重新思考大数据未来的发展图景。


传统大数据已难以满足现状


数据需求的变革,始终在供需双向奔赴中展开。以一家新能源车内饰件供应商为例,其原材料采购模式已彻底颠覆传统燃油车时代——定制化、具象化、精准化需求成为主流。在AI场景应用下,约三分之一的采购岗位可能被替代。如果仍依循旧有经验筛选供应商,效率将十分低下。

大模型训练所需的数据规模、复杂性和处理方式与传统的数据处理方法有根本不同。从传统数据到大模型基座,当前数据基础设施正面临体系性变革。

“人工智能的应用,约90%投入在后续软件工程上。现有基础架构在算力、存储及数据治理等方面已难以适应需求,亟待大规模改造。尤其是随着大模型的快速迭代,AI应用不再仅是提升效率的工具,而是深度嵌入业务流程的关键组件。”上海市数商协会秘书长卢勇指出。他进一步表示,大模型在数据驱动下,能快速精准定位新合作伙伴,这对产业基础设施提出了新的挑战与要求。

640 (3).jpg

上海数商协会秘书长 卢勇

“近年来,公积金行业数据呈几何级增长,对存储传输、管理使用提出新要求。”盐城市住房公积金管理中心技术信息处副处长叶光辉强调,数据质量面临更高标准要求。过去仅需保证元数据的真实性、完整性、一致性等即可,如今还需关注其价值密度。“当前基础设施下,单条数据可能本身无误,但因多样性不足等原因,无法直接应用于智能场景。同时,随着个人信息保护法等法律法规实施,数据安全与隐私保护要求日益严格,如何在数据效用与隐私保护间取得平衡,也成为关键考量。”

640 (4).jpg

盐城市住房公积金管理中心技术信息处副处长 叶光辉

此外,数据跨行业、跨领域、跨部门的流动性不断增强,建立协同治理的新机制,也是数据发展提出的新课题。

而在中国数联科技创新部总经理沈旸看来,企业下一代AI的核心在于私有数据。过去互联网公司训练大模型多使用公开数据,但其价值有限。“例如年终总结或年报,最终成果可能仅万字,但其背后的参与人员、部门博弈、内容排序等过程数据并未公开。私有数据则能沉淀企业内部管理过程,而以往这些数据大多未数字化。例如会议纪要的自动生成——过去这些过程数据未被记录。企业99.9%的数据在过程管理层面尚未真正数字化。随着私有数据逐渐形成,企业运营才能有效指导AI,而非仅依赖公开知识。”

640 (5).jpg

中国数联科技创新部总经理 沈旸

“企业需先完成历史数据的数字化沉淀,再逐步让AI尝试替代部分工作,评估其成效,最终实现AI原生的运营模式。”他说道。


高质量数据的战略价值


日益凸显


目前,业内众多专家已经形成共识,认为2026年将会是人工智能从“生成内容(Generative)”向“解决复杂问题与执行任务(Agentic & Action)”全面跨越的一年。当大模型越来越深入产业,数据的价值尤其是高质量数据的价值越发凸显。高质量数据的“高”究竟体现在哪?应该建立怎样的评估标准和建设标准来保障高质量数据的供给?

对此,卢勇表示,所谓高质量数据集,就是人工智能模型能够理解的数据。高质量数据集主要服务于人工智能模型的训练与推理。原始数据汇集后需经治理才能转化为AI可理解的高质量数据。

“如果还按照过去的模式把数据堆到一起、集中到一起,可能并不能直接使用,还需要有一个治理的过程。而这个过程中就会产生一些高质量数据。”卢勇说道。

现实中,越来越多的场景正在呈现:金融行业从信用评估到动态风控与智能交互;医疗行业从院内数据到跨域融合的辅助诊疗;零售行业从用户画像到个性化实时体验……上述场景应用的实现,都需要借助数据的实时性、一致性、可解释性。以金融行业为例,要求风险数据在毫秒级内完成采集、清洗、特征计算,并确保在流处理和批量处理中结果完全一致,且每个风险标签都能追溯至原始数据。某头部商业银行的实时反欺诈决策引擎,整合了用户的实时交易、设备、位置、行为序列等上百个数据源。通过流计算平台,能在50毫秒内完成数据清洗、特征提取和模型推理,对可疑交易实时拦截。其成功关键在于,建立了贯穿数据接入、处理、服务全链路的数据溯源与质量监控,确保每个拦截决策都有“数据依据”,符合监管审查要求。

华院计算高级技术专家赵康宁指出,大模型时代对数据质量的评估与传统方式迥异。传统维度侧重完整度、整齐度等指标;而大模型乃至智能体时代,要求更高维度的评估:数据是否契合模型及系统演进方向(尤其在多模态、具身智能背景下);数据的安全性、可靠性、可溯源性如何;以及是否需引入动态评估机制,考量数据对模型训练、评估乃至人类反馈的影响。

640 (6).jpg

华院计算高级技术专家 赵康宁

“在大数据时代,对于高质量数据要求的维度也会越来越多。”他强调。


打通“用户反馈-场景数据-模型迭代”闭环


当前产业关注正从模型参数转向实际生产力,关注的重点已不仅是AI的参数规模或算力强弱,而更聚焦于AI实际能承担的工作量与效能。在推动AI落地业务时,应积极构建数据基础设施,打通“用户反馈-场景数据-模型迭代”闭环,真正让数据流动起来、让模型持续进化,最终驱动业务实现可衡量的增长。

卢勇认为,未来AI时代应用变革的根本在于以模型替代人力。人力在处理数据量、响应时间及维度上远逊于模型。若要在业务全闭环中应用模型,数据、治理方式及基础设施均需相应调整,因其服务对象已从传统信息系统转向机器与模型。这是必然的发展趋势。

现场观众针对AI在实际产业应用进行了提问,卢勇以今年上海在“数据要素×”大赛中的获奖案例为例进行了解答。他表示,在制造业中,利用工业互联网平台可借助数据赋能,更好对接前端需求与后端供给,促进产业高效发展。此外,在陶瓷行业,原本分散的小作坊难以获取市场需求,通过工业互联网平台的数据智能匹配,能实现供需精准对接,让经济效益最大化。

叶光辉指出,应遵循“小步快跑”原则,在投入与训练成本间取得平衡。具体可分三步:首先基于真实业务场景,让基座模型识别目标,据此梳理整合数据;其次建立专用模型,利用高质量业务场景切片进行训练;最后通过人工反馈数据回流,实现模型快速迭代与数据标签重定义,形成数据、场景与反馈的闭环。

“我们大家都经历过或正在经历学车。试想一下,如果在大马路上就你一个人,估计怎么训练效果提升都有限。但如果你到上海的高架桥上去开几天,质量就会更高。所以要多给大模型一些高密度的高质量数据。”上海纽约大学信息技术部高级主任常潘建议,需从三方面改进:一是优化模型自身,通过知识注入与微调实现实时反馈与行为调整;二是利用合成数据提供高密度训练素材,助力AI能力提升;三是实现模型增量学习与决策可追溯,确保AI能从新事件中持续学习,且其决策依据可查。

640 (7).jpg

上海纽约大学信息技术部高级主任 常潘


支撑未来智能


数据基础设施还需要哪些突破?


在迈向未来智能时代的进程中,面对可能出现的自主感知、认知与决策需求,当前的数据基础设施在架构设计、组织模式、数据流转与应用范式等方面还存在根本性局限,应该推动关键突破以支撑下一代智能形态的演进。

“未来有非常多的机会需要我们去做更多的创新,包括从现有的真实世界的数据到深层次数据。在这当中有非常多的挑战,所以未来可以做的事情非常多。”卢勇表示,人工智能正从以模型为中心转向以数据为中心。数据领域未来充满机遇与创新挑战,包括从现实数据到深层数据的转化等。

叶光辉强调,过去是管理数据,如今需运营数据;过去数据如档案锁入柜中,如今数据是资产,需流动起来,通过持续治理提升价值密度,满足真实性、一致性等基本要求外,更需契合大数据与AI时代对高价值密度的需求。

“数据要和智能进行结合,数据并不仅仅是越多越好,而是质量越高越好,我们要提供高质量的数据给它,让AI变得越来越聪明。”常潘指出,面对海量数据,治理方式须变革:数据清洗后需转化为AI可理解的格式,或以模型上下文模式重构;数据权限应从以人为中心转向以机器为中心;存储与计算速度需匹配AI处理需求;同时,AI应具备主动感知与学习能力,通过反馈机制持续优化,实现数据与智能的深度融合。

沈旸分析,大语言模型本质是概率模型,难以直接处理海量结构化数据(如数据库表单),其更擅长处理非结构化数据。“AI大模型,尤其是语言大模型,非常不适合处理数据,因为根本处理不了。语言模型是个概率模型,处理比如超过1000行数据一定会出错”。他认为,未来数据底座可能发生根本变化:在端到端的AI演进中,传统数据结构或许只是过渡形态,最终还需要让它实现端对端。此外,AI决策需闭环验证,而当前缺乏数字孪生等环境校验其正确性,这是未来产业必须解决的关键问题,否则AI仍限于对话层面,难以工程化落地。“这是未来产业要做的一件非常重要的事情,否则AI还是跟大家对话,那么它是一个玩具,而不是一个工程。从工程的角度看,我们一定要保证它做的每一件事情都有人能确认。”他强调道。

从大模型、智能体到现在,自身智能时代越来越近。当机器实现通用智能后,数据变成了影响世界的中心,数据本身也加入整个机器的思考中去。对此,赵康宁展望,随着向通用人工智能迈进,数据将不仅是应用对象,更成为影响机器思考与决策的核心。机器可能自主决定数据的使用、创造与评估,数据架构将发生重大变革,与实体、模型、智能体间的连接维度大幅拓展,需要全新架构推动数据治理进入新阶段。

毋庸置疑,我们已步入一个大模型与智能体引领的新时代。数据不再仅仅是静态资产,其价值正动态地融入业务流程,成为驱动智能决策的核心动力。与此同时,数据需求正经历深刻变革:从基础的数据治理,迈向智能化、实时化、场景化的深度应用。

这场对话,指向了一个由数据与智能共同定义的未来。这些突破将不仅是技术革新,更是理念的重构。当数据真正成为智能体的“感官”与“经验”,我们便踏入了AI与世界深度互认知的新阶段。


格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为实际操作建议,交易风险自担。

相关阅读

评论