张冉
  • 聊天
  • 问答
  • 管理员

    直播结束,大家稍后可在视频区观看回放视频。获奖的观众请注意接听电话确认收件信息,感谢您的参与。

    管理员

    直播结束,大家稍后可在视频区观看回放视频。获奖的观众请注意接听电话确认收件信息,感谢您的参与。

    张文彬

    签到!!

    Andy

    签到

    麦汉超

    签到

    刘荣辉

    1

    徐金安

    1

    龙舌兰

    11

    赵强

    签到

    尹苏平

    签到了

    郝亚平

    签到

    徐永飞

    签到

    康剑

    签到

    李文佳

    签到

    兆辉

    签到

    李先生

    签到

    朱香卫

    签到

    何来军

    签到

    刘阳学

    签到

    刘先生

    签到

    罗先生

    签到

    叶朱生

    叶先生 签到

    张野

    边缘计算方面我们原来购买的DELL服务器能否将其算力整合到AI训练中?

    吴跃

    边缘计算的AI算力一般用于AI推理场景

    金志宏

    签到

    申啸天

    未来数据中心的异构管理也会成为一个新问题

    叶浩

    签到

    黄窦

    想问下付总,高性能计算和智算是一回事么?

    鸿雁

    高性能计算一般指以科学计算和仿真设计为主要场景的集群;智算通常指以人工智能为主要应用场景的集群,同时也可能会包含高性能计算

    刘飞

    AI算力不光费钱,现在除了互联网巨头,有钱也买不到H100。

    赵雷

    模型调优太重要了,不调优和调优速度能差好几倍

    刘文博

    用上万张GPU卡来计算一个模型我们是否能将他们这些算力连接、调度?是否有成熟的解决方案?

    鸿雁

    大规模GPU在单机内部多卡之间目前使用NVlink互联,多个节点间目前使用8张400Gb IB卡互联,GPU卡和IB卡配比为1:1。调度现在主要使用HPC的调度器,以slurm为主。

    叶浩

    物理计算还吃的消么? 是不是得考虑生物芯片了?

    吴跃

    生物芯片目前可能更多还是在实验室阶段,未来值得持续关注和期待。

    白舒诺

    未来云计算和大模型(GPU)计算会不会分开?毕竟云计算偏重资源的分割,大模型需要庞大的算力资源。计算需求的出发点不一样。

    鸿雁

    云计算与大模型两种应用对资源需求是相反的,云计算是将1张GPU卡共享给很多人用,大模型是用很多张卡整合起来来计算一个任务。大模型对性能和稳定性要求极高,比如要求400Gb的IB互联,而云计算一般会选用通用产品。一般情况下,云计算很难达到大模型的性能要求。

    倪春林

    签到

    李静

    想问下GPU集群有自带管理软件吗?是另收费的吗?

    吴跃

    GPU集群管理有一些免费的工具如Slurm,K8S, 我们可以提供商业软件的解决方案,需要额外的软件付费

    江浩国

    签到

    杨飞

    签到

    任宏

    算力效率在AI计算上太重要了,如何提升算力效率?

    吴跃

    提升算力效率可以优化的地方是比较多的,比如提高GPU服务器内部的散热,使GPU可以工作在最佳状态;提高GPU内部与外部通信性能;提升AI数据存储的I/O性能,以避免GPU集群出现存储瓶颈。

    李宏铭

    以后大家是自建AI算力中心还是采用GPU云方式?

    吴跃

    我们认为这两种方式未来是会并行的,主要取决于企业对于数据与业务安全管理的规定,以及业务对于吞吐和延迟的要求 等。

    张文杰

    DELL在异构GPU卡上是否能够实现算力的调度和资源整合?

    吴跃

    我们目前可以提供针对CPU与GPU算力的统一管理与资源调度。

    林琳

    集群调优应该注意哪些问题?运行一段时间后如何调优?

    鸿雁

    集群调优首先要保证CPU、GPU、内存、网络和存储的性能指标是合理的、正常的范围,如果判断是性能异常,可以从BIOS、固件、拓扑等方面考虑去调整。比如举内存带宽的例子,intel的6400系列处理器是有6条内存通道,因此我们单机双路服务器,一定要把12条内存通道占满,才能保障内存带宽,所以12条16GB内存与6条32GB的内存性能是不一样的。运行一段时间后的调优一个是保障硬件各个部件本身性能正常,另外要关注散热问题,比如停机后第一次测试性能正常,但是多测几次可能就性能下降了

    赵瑜

    大模型快速落地我们是否有落地的行业解决方案?

    吴跃

    AI大模型目前比较集中的落地方向包括:AI图像生成、基于AI大模型的知识管理与知识查询、AI代码生成、智能客服等。这些领域开源框架与提供商业服务的AI公司相对比较多。

    陈群宏

    签到

    赵波

    企业搭建大模型平台产品的生命周期如何规划?

    吴跃

    Dell目前主要关注在面向AI的基础架构平台解决方案,特别是针对AI生命周期的数据管理,针对数据加载、治理、训练、推理不同阶段提供多协议支持、性能与容量扩展性支持、应用透明的分层存储方案与数据保护方案。

    刘杰

    如何区分是IT系统造成的效率问题还是我自己模型的效率问题?

    鸿雁

    如何区分是硬件性能还是模型效率的问题?首先是要确保硬件本身性能正常之后,再去调试模型。当然也有可能是硬件和模型交替调试,比如最开始的硬件架构设计与应用场景不匹配,虽然保障了硬件性能,但是运行模型的时候,有很大瓶颈,这时候可能也要调整硬件的架构

    董书丽

    自建的HPC系统如何迁移到超算云平台?是否有成熟的工具?

    鸿雁

    建议自建HPC系统在集群软件的选择上,选择可以对接多个超算云的集群软件,以本地的资源使用为主,资源不够用时调度到超算云平台上。

    万勇

    签到

    符文

    看出来了,未来数据中心宏观上是存算分离、微观上是存算一体。

    郑岩

    分布式部署条件下数据安全如何保障?

    吴跃

    对于AI数据中心端的GPU分布式训练,我们会建议:1)采用共享集中式存储训练数据、过程数据与结果文件,以提供更好的存储可用性;2)对于共享存储进行更完善的自身可靠性机制,以及专业数据备份保护解决方案。对于分布在边缘节点的数据,Dell今年推出了Dell NativeEdge平台,采用零信任安全机制,保障企业用户边缘部署、应用和数据处于安全保障当中。

    唐安丽

    HPC的异构架构好还是同构架构好?应采用什么架构的决定依据有哪些?

    鸿雁

    选用什么样的架构,要根据应用的特征才分析和选型,一切以应用为核心。应用的特征主要有CPU计算型,GPU计算型,大IO类型,网络密集型,大内存类型等,不同的应用特征决定了不同的选型和架构。常见的服务器选型有:2路的CPU服务器,4路或者8路的大内存的胖节点,单卡、4卡、8卡等各种配置的GPU服务器;网络选型有IB、万兆网、100Gb以太等。

    贾婷婷

    AIGC带来的算力、存储、网络需求更大了,做硬件的企业的春天来了

    李冰兰

    算力驱动和核心是知识驱动,AIGC能否成功推动知识的车轮滚动起来还需要时间的验证。

    许文斌

    看来算力也会越来越细分,不同的算力云也将承担不同的计算需求

    宋林静

    集群的部署和运维有没有成熟的解决方案?

    鸿雁

    集群要长期维持高性能运转,部署和运维是非常需要经验的,我们也会有一些成熟的方案,但要想保障每一套集群的性能最优,一定会根据每套集群的硬件、系统和应用再进行优化。

    王鸣岐

    DELL现在的液冷是水冷还是氟化液冷?

    吴跃

    我们现在有冷板式和浸没式液冷两种液冷的实现方式。

    刘丽

    据说戴尔有自定义冷却设置,大概能节能多少?

    吴跃

    需要看具体的应用。

    张冉

    DELL是否提供型Fine-tuning的咨询服务?

    吴跃

    我们目前在国内有行业合作伙伴可以提供一些具体AI大模型场景的模型精调和部署服务。

    微笑
    • 王铁军

      长江商学院
      信息中心主任

    • 吴 跃

      戴尔科技集团
      企业技术架构师
      全球 CTO 大使

    • 付鸿雁

      联科集团 联席合伙人

    • 王聪彬

      至顶网 总编助理

    从科学研究到工业生产,再到日常生活,AI算力变革正渗透到各行各业。尽管人工智能技术的发展带来了各种新机遇和新变革,但在高效计算和存储、数据安全、算力部署等方面的变化,也为企业带来的诸多挑战。此次,我们将邀请领先的科技厂商戴尔科技,携手联科集团、长江商学院以及媒体观察员共同就相关话题进行深入探讨。

    • 高性能算力驱动
      行业创新变革
    • 智能化场景中的
      算力需求挑战
    • 算力基础设施
      赋能带来新机遇

    欢迎积极参与直播提问,我们将从互动中选出8位精彩提问的用户赠送罗技MK345无线键鼠(DELL & NVIDIA 联名),奖品以收到的实物为准。

    立即参与

    • 14:00-14:45

      算力升级 驱动行业变革

      吴    跃 戴尔科技集团企业技术架构师,全球 CTO 大使

      王铁军 长江商学院信息中心主任

      付鸿雁 联科集团联席合伙人

      王聪彬 至顶网总编助理(主持人)

    • 14:45-15:15

      2023戴尔科技峰会分享:新技术热潮下的算力变迁

      吴    跃 戴尔科技集团企业技术架构师,全球 CTO 大使

    剑桥大学 - 高能效算力助力突破性研究

    点击查看

    杜伦大学高性能算力介绍

    点击查看

    林德叉车 - 基于数据开展创新的智慧工厂

    点击查看

    浙江大学医学院附属第一医院大数据中心

    点击查看

    首都在线 - 未来数据中心项目

    点击查看

    全景智联 - 城市物联网,边缘计算IT,提升城市基层管理

    点击查看

    • PowerEdge R760xa

      适用于密集型 GPU 应用程序的高性能、可扩展的服务器

      戴尔PowerEdge R760xa服务器具备高性能、高扩展性,以及强大的AI和ML操作能力和优秀的I/O吞吐量,适用于密集型 GPU应用程序,能对具有挑战的新兴工作负载进行规模化创新,同时还具备优秀的安全性和管理效率。

    • PowerEdge R760 & R660

      根据需要提供出色性能和多功能性,以满足苛刻的应用程序需求

      PowerEdge R660 1U双路机架式服务器和PowerEdge R760 2U双路机架式服务器是专为优化密集型数据库分析、高密度虚拟化等要求苛刻的工作负载而打造的功能完备的企业服务器,可以根据用户需要提供更多出色的性能。

    • PowerEdge R750xa

      专为支持新兴的、高密集GPU工作负载而设计的服务器

      戴尔PowerEdge R750xa 机架式服务器能够积极响应服务请求并进行处理。在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面具备优越能力。

    如果有任何产品咨询需求,欢迎联系戴尔科技咨询电话:400-884-6610

    获奖名单

    恭喜获得罗技MK345无线键鼠(DELL & Nvidia 联名)1个

    会后请注意接听电话,将有客服人员与您联系,核实收件地址并邮寄奖品。

    © 北京第二十六维信息技术有限公司版权所有.
    京ICP备15039648号-7 京ICP证161336号 京公网安备 11010802021500号