破除 AI“算网”瓶颈加速企业创新转型

聊天

问答

管理员

直播结束，大家稍后可在视频区观看回放视频。

管理员

直播结束，大家稍后可在视频区观看回放视频。

韩鹏

签到

邓伟国

签到

吴建珍

签到

赵益

签到

李春

签到

周昕

签到

王亚胜

签到

蔺志叶

签到

马老师

签到

黄丽萍

签到

沈凌松

签到

刘晶

签到

刘晶

签到

姜海容

签到

卢祥华

签到

胥强

签到

肖女士

签到

胥强

邵晓明

签到

孙峰

签到

梁处长

签到

张经理

签到

张俊羚

通过AI优化业务流程和决策支持的核心技术有哪些？

专家

影响AI应用效果的核心技术包括：AI模型的选型及调优；高质量的数据采集及数据治理；高效能的、支持AI工程化部署和扩容的AI基础设施平台；行业领域知识积淀等。

李晓琴

签到

赵主任

AI-First战略与企业的数字化转型有什么联系？

专家

Dell AI-First战略目标是帮助企业用户通过预验证的AI解决方案体系，更快速、更高效地实现AI应用的工程化落地，从而借助AI技术帮助企业用户加速数字化转型进程。

曹宁

签到

桂万存

签到

温国梁

请问哪些企业已经成功应用了AI-First战略，取得了什么显著成果？

专家

过往我们已经看到很多企业用户借助AI技术和Dell AI解决方案，实现AI应用的场景化落地，帮助企业用户实现降本增效，比如制造行业用户通过AI技术实现工业产品质检、行业知识库搭建、工艺参数优化、预测性维护等；零售行业用户通过AI技术实现精准营销、商品智能识别分类与货损防护；金融行业用户将AI技术应用于保险理赔、风控、算法交易等领域。

黎扬

签到

王老师

戴尔如何通过技术基础设施支持AI-First战略？

专家

Dell AI-First技术战略包含基础设施、数据、开放生态、服务、应用场景用例等多个维度，在AI基础设施涉及的领域包含AI异构计算、非结构化数据存储、网络、数据保护、数据中心基础设施，以及前端AI PC、AI工作站等。全栈式AI解决方案，涉及到IT基础设施领域的很多组件，只有经过有效的整合、适配和预验证工作，才能帮助企业在构建AI平台的进程中减少工程化的困难和挑战。

张经理

签到

王斐

AI-First战略在系统架构和IT资源方面需要做哪些调整来支持AI应用的计算、存储和网络需求？

专家

AI时代，特别是针对LLM的预训练/微调和推理部署，在IT系统层面，需要应对的挑战和改变包括但不限于：1）AI应用所消耗的计算力呈现指数级增长，更大规模的AI异构计算平台的部署与运维；2）AI计算从单机计算向大规模分布式训练的转化；3）AI训练及推理过程中海量非结构化数据的存储与数据保护；4）AI分布式训练过程中对多机通信的带宽压力；5）高功耗的GPU加速服务器需要进行数据中心基础设施的供电、散热及承重的重新设计。

徐斌

签到

陈灿雄

目前企业在推行AI-First战略过程中面临的最大技术挑战是什么？

专家

支撑AI应用开发与模型训练的数据准备；AI平台的快速搭建、快速投产。

钮新伟

AI-First战略对不同行业的应用场景有哪些不同？

专家

AI在不同行业的应用场景是比较多元的，有一些通用的场景如人脸识别、智能视频分析、智能客服、对话式机器人、行业知识库等，更多的是与行业领域结合的行业应用场景，比如金融行业的算法交易、智能风控、智能闪赔；制造行业的产品质检、工艺参数优化、自动化排产；零售行业的无人货架、智能称重、商品识别、精准营销等；医疗/法律领域的专业知识问答机器人、专业文案生成等。

陈国辉

签到

胡来宝

签到

王兴福

签到

张树林

签到

刘英奇

AI-First战略怎么帮助企业在竞争中领先？

专家

我们寄希望通过全栈式的AI平台解决方案，帮助企业用户缩短AI应用的开发周期，更快投产，更快实现业务成效。

胡浩君

签到

杨晓

签到

梁泽地

签到

罗春

签到

夏主任

如何评估企业在AI-First战略中的技术成熟度？

专家

我们认为可以从几个不同的维度来进行成熟度评估：人员，包括掌握AI技术的人力储备及技术经验；数据，用于支撑AI应用开发和模型迭代的数据量及数据质量；用例，AI应用场景的选型、技术实现的难度、AI应用效果的预期等。

张蕊

签到

孟女士

签到

蔡新恒

签到

李女士

签到

贾洪山

现代化AI数据中心的硬件架构有哪些关键组件？

专家

现代化的AI数据中心的硬件组件，包括AI异构计算平台、AI数据存储平台、网络通信平台、集群管理与资源调度软件平台、AI数据中心基础设施等。

陈国辉

签到

谢勇生

如何利用高性能计算（HPC）优化AI数据中心的整体性能？

专家

HPC在AI数据中心的应用场景，主要在AI模型预训练和大规模微调场景，通过多机并行实现AI GPU分布式训练，硬件层面需要高效能的网络和I/O存储设备支持，软件层面需要在框架软件或者加速库软件针对AI模型机制进行集群逻辑拓扑和通信机制的优化，如当前广泛使用的NVIDIA NCCL、DeepSpeed正在做的工作，以提升GPU分布式训练过程中的实际并行加速效率。

包志强

签到

朱益娣

签到

陈晓军

数据中心的冷却系统在AI计算中的重要性体现在哪里？

专家

目前在AI计算中，GPU是使用最为广泛的加速技术，而GPU属于高功耗的部件，配套GPU服务器以及数据中心冷却系统，包括智能风冷，以及液冷技术（冷板式/浸没式），针对不同功耗、不同密度的GPU计算硬件，设计针对性的冷却解决方案。

张建敏

签到

张建敏

签到

张宗春

签到

马伟强

戴尔的PowerEdge服务器如何满足AI工作负载的特殊需求？戴尔的PowerEdge服务器设计是否上考虑了AI工作负载的高算力需求？采用了什么加速器？

专家

Dell在过去4代PowerEdge服务器平台上，都有专门针对GPU设计的服务器机型。在这些机型上，针对服务器的供电、散热设计，以及GPU之间的通信机制，iDRAC带外管理面向GPU的实时监控，都与通用的x86服务器有所不同。Dell目前可以支持NVIDIA、AMD、Intel等厂商的AI加速技术。

李旭平

签到

莫晓勇

签到

高频

签到

钟杰

在数据中心中，如何处理AI模型训练对算力和存储的高要求？

专家

算力层面，通过横向扩展的GPU计算集群，多机GPU分布式训练，提供更高的计算性能，目前在大规模AI模型训练中都在采用这样的架构技术。存储层面，需要采用横向扩展的并行或者分布式存储架构，以实现更高的存储带宽和容量扩展，同时在存储协议支持、多租户支持、动态数据存储访问特性上，需要做更全面的技术支持。

张锦波

签到

周经理

数据中心现代化对于企业实施AI战略有何帮助？其中哪些是AI应用所需要的关键条件？通过现代化改造，企业如何更好地支持AI模型的训练和部署？

专家

我们会把AI数据中心的关键组件，以四个汉字概括：算、网、存、管。

王世法

如何通过网络优化来提升AI数据中心的吞吐量和降低延迟？

专家

提升单端口的通道带宽；提高单台AI计算服务器网口与AI加速卡的配比；通过GPU Direct RDMA技术降低通信延迟；软件和模型层面优化数据并行与模型并行的通信机制。提升单端口的通道带宽；提高单台AI计算服务器网口与AI加速卡的配比；通过GPU Direct RDMA技术降低通信延迟；软件和模型层面优化数据并行与模型并行的通信机制。通过对无损网络的支持，解决基于流的拥塞控制和流量均衡。提升单端口的通道带宽；提高单台AI计算服务器网口与AI加速卡的配比；通过GPU Direct RDMA技术降低通信延迟；软件和模型层面优化数据并行与模型并行的通信机制。提升单端口的通道带宽；提高单台AI计算服务器网口与AI加速卡的配比；通过GPU Direct RDMA技术降低通信延迟；软件和模型层面优化数据并行与模型并行的通信机制。通过对无损网络的支持，解决基于流的拥塞控制和流量均衡。

胡明俊

在多租户环境下，如何确保AI数据中心的安全性和稳定性？

专家

存储系统层面，需要更好的支持多租户的实现机制；同时，在系统管理平台软件层面，需要对用户角色、资源访问权限、数据访问权限，做更精细化地设置与管理。

刘鑫霖

在边缘计算与数据中心的结合中，AI应用如何获益？

专家

AI与边缘计算的结合，是目前AI技术应用的一个热点和趋势，让AI技术更快速响应业务，降低网络通信压力。在边缘场景实现AI技术，可能需要比数据中心场景，需要做更多的AI模型轻量化工作（如模型量化、压缩、剪枝等），配套AI模型应用的硬件平台可能也需要对部署环境有更强的适应能力（如机箱尺寸、温度湿度等环境适应能力）。

翟哲峰

如何确保数据中心的扩展性以满足不断增长的AI需求？

专家

需要要求AI数据中心的各个组件，包括网络架构、存储架构、机房设施硬件架构等，在设计之出就要有充分的可扩展性，这也是Dell AI-First技术蓝图和参考架构的价值所在。

曾总

签到

李琪

签到

刘峻

签到

李波剑

签到

张燕

签到

台增福

签到

刘经理

戴尔与NVIDIA合作的硬件和软件技术有哪些核心亮点？

专家

Dell和NVIDIA是全球战略合作伙伴，在Dell AI-First技术战略蓝图中，与NVIDIA的技术合作是非常重要的环节。包括NVIDIA AI软件套件包NVIDIA AI Enterprise，是Dell AI解决方案重要的软件组件部分。Dell PowerScale数据存储系统，今年年初通过了NVIDIA SuperPOD的官方存储认证，是业界首款基于以太网的SuperPOD存储认证系统。Dell计算平台，提供对NVIDIA全系列数据中心GPU的选型支持。

邹彬

AI工厂在数据处理和模型训练上提供了哪些技术优势？

专家

AI factory和多租户的AI数据中心主要是场景不同，AI factory主要专注于基座大模型的预训练和定制化大模型的微调，而多租户的AI数据中心面向需求更广泛些。美国的主要基座大模型startup基本都是租用云服务商的基础设施，AI factory在物理隔离上要简单些。

李驰

签到

李刚

NVIDIA的GPU技术如何在AI工厂中加速深度学习模型的训练？

张经理

签到

张经理

签到

屈武

签到

陆建忠

签到

黎勇

签到

魏文

Dell AI Factory如何实现多种AI工具和平台的集成？

专家

首先，Dell AI Factory是一套预验证的解决方案架构，各个软件组件是经过预先测试和验证的，以保证版本之间的软件兼容性；另外，Dell也可以提供如PowerAnsible 实现快速部署和自动化运维的软件工具包。

陈永锋

签到

温成泉

签到

李先生

AI优化的以太网Fabric架构如何提升数据中心的网络带宽和稳定性？

专家

通过rail或spine+leaf的网络架构，采用高密度400G.或800G交换机，400G到GPU server的连接，来增加带宽实现高速互联

李建坡

签到

胡研婷

在AI计算中，如何通过以太网Fabric降低通信延迟和提高吞吐量？

专家

通过RoCE V2，cut through switching，dynamic routing，基于流的拥塞控制和流量均衡来降低延迟和提高网络带宽效能

李俊

AI优化的Fabric网络架构如何支持生成式AI模型的大规模分布式训练？

专家

在AI fabric 的scalability方面，通过Rail或spine+leaf的两层甚至三层架构，来支持大规模GPU cluster

江先斌

AI工厂中的高性能计算如何提升生成式AI的应用效果？

戴海云

现在AI工厂的应用主要集中在哪些领域？

管理员

AI工厂不是指专注某些特殊应用，很多客户由于各种原因无法使用GPU多租户的方式，选择自建AI工厂

陈星

戴尔的网络解决方案如何帮助企业实现AI优化的Fabric部署

专家

Dell的Broadcom Tomahawak4或5的400G，800G交换机加上SONiC 的OS对AI的支持，可以实现8000GPU以内的fabric需求

卓泳

戴尔推荐哪些服务器型号适用于高性能计算和人工智能工作负载？

肖刚

签到

魏先生

戴尔的Live Optics工具如何协助基础设施规划，它有哪些独特功能？

练坚平

在配置算力基础架构时，应如何考虑散热管理以确保设备的可靠性和性能？

张俊羚