欢迎来到微商资讯网

【算力先锋】并行科技董事长陈健:大型模型必须选择超算架构,算力调度取决于用户需求

编辑:青鸾传媒      来源:微商网      科技   大数据   陈健   云计算

2024-04-25 15:18:39 

陈健博士表示,算力服务是一种业务。 算力服务就是将算力资源进行打包,然后寻找用户进行匹配。 他透露,目前公司算力服务占总业务的比重越来越大,公司去年营收接近5亿。

并行科技依托“算力网”,聚焦应用,主要服务包括并行通用超算云、并行行业云、并行AI云、设计仿真云等。 基于用户需求,并行科技目前将业务重点聚焦在两个方向。 一是聚集购买的计算资源来服务用户。 据了解,并行科技目前已与广州、无锡、长沙、济南、深圳等地各类算力达成合作。 超算中心建立了稳定的合作关系; 二是在当前国产智能算力陆续推出的背景下,服务于国产GPU所需的智能算力。

2024041902493099.jpg

2024041902494216.jpg

2023年,并行科技已与宁夏联通、广东联通、上海联通等达成算力合作。

目前,并行科技拥有约65万个超算云计算核心,技术服务能力成熟强大,与阿里云、华为云等领先企业处于同一梯队。 陈健博士强调,这里所说的“云计算”是指超级计算/智能计算算力云服务,其底层架构是超级计算机,而不是传统理解中的云计算虚拟机。

2、大模型驱动的AI云业务增长260%,智能计算中心项目有序推进

大模型的加速迭代和应用推动了智能算力需求的激增,大模型的连锁反应也传导到了智能计算中心。

2024041902504345.jpg

AI训练量增长趋势及中国智能算力市场预测

对于智能计算中心来说,计算能力是大型模型的基本要求,稳定运行和高性能是核心要求。 陈健博士分析说,超级算力和智能算力的基础设施是一样的,涉及到的超级计算只需从使用CPU变为使用GPU即可。 无论是计算架构的相似性,还是大型模型对计算过程的性能要求,都符合并联科技2020年左右推出的AI云业务。

算力调度模型__算力系统

陈健博士提到“性能()是一切之根本”,这个主题贯穿于并行技术的发展过程。 并行技术始于性能优化业务。 2012年推出应用运行特征分析软件,解决超级计算机运行大型程序时的核心性能问题。 当时,并行技术在业界的形象总是与“高端技术”、“大型超级计算机”等术语联系在一起。 针对广大普通用户,并行科技推出了在线运维服务,帮助他们完成程序故障的自动性能分析。

放眼行业,2024年以来已有一批大型智能计算中心项目建成投入运营,如此之快的建设速度让人担忧,“智能计算中心想好怎么赚钱了吗?” 陈健博士认为,“好用”只有智能算力平台才能给智能计算中心带来实际价值,而关键不仅在于产品端,还在于用户端。 具体来看,市场上专注于计算基础设施建设的主要是IDC数据中心供应商和云服务提供商。 他们对于维护软硬件工具和数据、优化国产GPU芯片等都比较陌生。对于并行技术来说,完成这些工作只需要翻译原有的业务即可。

陈健博士透露,大模型市场对并行技术的反应非常好。 去年,公司AI云业务增长2.6倍。 以原有CPU业务覆盖的成本,为用户提供更具性价比的产品。 以国内某知名大型模型公司为例。 由于2023年 GPU严重短缺,该公司使用了500多张 A100 SXM版本GPU卡,但运行程序时故障率非常高。 并行技术采用两步走,一是运维程序自动化,二是训练任务增加40%,保证并行程序长期稳定高性能运行,帮助用户解决问题。

值得提醒的是,根据云计算行业的发展经验,智能计算中心是一项投资巨大、回报周期较长的基础设施项目。 我们期待看到公司在智能计算市场的发展。

3、超算中心利用率低,关键是用户需求

算力系统__算力调度模型

近年来,我国算力建设如火如荼地进行。 新建设施将随着国家算力网络体系的完善融入算力网络,为全国各行业提供算力调度和服务。 陈健博士分析说,“算力网络”概念指的是电网,但算力的“力量”是以芯片的形式表现出来的,无法像电力一样进行调度。 它可以调度数据和算力需求,所以算力网络调度的核心部分是明确海量用户的需求。

算力建设的“游戏人”需要保持冷静,同时保持昂扬的状态。 “没有用户需要计算能力。用户需要的是解决自己的问题。” 陈健博士坦言。 用户想要解决应用软件问题,但他们不知道在哪里可以找到有用的计算能力。 陈健博士担心,目前新建的算力中心没有研究客户来源、用户需求和应用运营。 “国家投入了10亿,每一栋楼都建好了,用户在哪里?很多用户一开始问需要多少张卡,但建完后却说,‘对不起,我没钱’” .' 这种情况很常见,陈健博士认为,只有降低算力用户投资计算资源的成本和门槛,才能拉动算力服务的市场需求。

通过多年在运维服务和运维软件方面的拓展,并行科技积累了大量的超算中心合作伙伴、应用软件开发商和超算用户资源。 据介绍,在营销方面,并行科技公司拥有100多名销售人员,专注于向有需要的用户推广算力服务,在客户来源方面具有较强的优势。 记者了解到,该公司已为科研教育、航空航天、智能制造、人工智能等各个应用领域的超过2万家终端用户提供超算云服务。 用户包括清华大学、北京大学、三一汽车制造有限公司等。

4、全链路算力服务支持国产GPU,三年赶超

2023年,国内AI算力将出现短缺,国内算力企业正在寻找各种方式突破。 不少A股上市公司都在AI芯片国产替代方面发力。 国产GPU与差距有多大? 具体可行的改进路径有哪些?

陈健博士评价,目前国产GPU平台已达到可用水平,但仍需优化性能、提高性价比。 三年内预计将与分享一半的市场份额。 陈健博士分析称,由于芯片出货量、工程打磨时间等因素,国产芯片相比英伟达等,元件故障率较高。 因此,在大规模训练时,国产芯片打造的超级计算机需要努力延长不间断的时间。 停机时间和提高的速度。 根据阿姆达尔定律,加速比达到上限后,无论添加多少个CPU核心都无济于事。 然而,可以获得更高的加速比。 此时国产芯片因节点间软硬件适配问题,拉开了与的差距。

2024041809504867.jpg

阿姆达尔定律揭示的核心数和加速比的传说

在替代国产的征程上,并行科技推出了“真枪实弹”,以最精良的团队支持最前沿的国产GPU。 据陈健博士介绍,并行技术应用部聚集了百余名技术研发人员,还成立了国产算力事业部,服务国产算力,支持国产算力在原生CPU(Intel 、AMD)和 GPU。 在()上的程序移植测试和优化已经优化,支持的国产GPU平台已基本成熟。

并行科技的成立是国内最优秀的算力业务团队之一,依靠的是多年产学研结合的努力和探索。 在超算细分赛道上,并行科技自2013年起承担起培养和选拔超算人才的责任,组织了多场超算人才大赛。 以并行技术主办的全国并行应用挑战赛(PAC)为例。 这是一项基于英特尔处理器平台、融合加速器等多种运行环境的超级计算竞赛。 “对于未来的超算人才来说,今年的大赛将是在学生时期接触最新平台和技术的难得机会;从整个行业角度来看,这有利于我国大规模人工智能模型的发展和较早完成国产芯片的更新换代。” 陈健博士点评道。 (特别提醒:全国并行应用挑战赛报名时间为即日起至7月24日。)

2024042309022923.jpg

PAC 全国并行应用挑战赛

综合来看,并行科技公司在业务规模、技术能力、行业人才培养等方面均保持较高水平。 据介绍,并行科技2023年上市时表示,公司将提供包括超算中心选型与配置、超算中心运营、超算云服务等全链路计算资源运营服务。

结语:发力租用算力,替换国产算力,助力国产算力“领先”

无论是下游数百种机型的“大炼钢”,还是上游抢建智能计算中心,都表明行业在风云变幻的AI竞争中“算力焦虑”。 采访中,陈健博士妙语连珠,深入浅出地从技术、应用、市场等方面洞悉了问题的本质。 他给出了算力租赁、国产替代等多种路径,展示了并行科技计算资源整合和调度能力的优势。 ,及其作为算力服务商在业界的实践论证。

从行业发展的宏观层面来看,国内大型模式陷入困境,但实施过程中仍充满“疑点”和“内耗”。 陈健博士表示,国产GPU芯片已经可以在大型模型战场上使用,但在执行高端重要任务方面还需要磨练。 我们还需要打造更高性能、更高效的基础设施和系统,以及相应的算力服务体系,推动下一代人工智能的发展。 并行科技的使命是让计算更简单,为国内算力发展贡献力量,并在国内算力发展稳定后尽快进入主战场。

发表我的评论 共有条评论
    名字:
全部评论