创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
9月25日,在2024百度云智大会上,百度集团扩充副总裁、百度智能云行状群总裁沈抖在云智大会上示意,昔时的一年,是大模子从本事变革走向产业变革的要津一年,而大模子与云探讨细巧和洽,正在成为新式的基础步履,“大模子偏激相关系统,在短短几年内,正在赶紧成为新一代的基础步履。此次变革的速率前所未有”。
百度集团扩充副总裁、百度智能云行状群总裁沈抖图片开头:企业供图 撸二哥
围绕大模子算力方面,沈抖示意,提到算力,不少东谈主齐据说过“万卡集群”,陋劣来说,GPU集群有三个特征:极致畛域、极致高密和极致互联。
而这些“极致”带来了几个严峻的挑战。沈抖先容,伊始是大齐的修复、运营资本,建一个万卡集群,单是GPU的采购资本就高达几十亿元。其次,在这样大畛域的集群上,运维的复杂性急剧加多。他谈到,硬件不行幸免地会出故障,而畛域越大,出故障的概率就越高。“Meta查验Llama3的时候,用了1.6万张GPU卡的集群,平均每3小时就会出一次故障。”
沈抖进一步示意,在这些故障中,绝大多数是由GPU引起的,其实GPU是一种很明锐的硬件,连中午天气温度的波动,齐会影响到GPU的故障率。这两个挑战迫使百度重新运转想考如何构建、管制和真贵遒劲而复杂的GPU集群,屏蔽硬件层的复杂性,为大模子落地的全历程提供一个陋劣、好用的算力平台,让用户豪迈更容易地管制GPU算力、低资本的用好算力。“昔时一年,咱们感受到客户的模子查验需求猛增,需要的集群畛域也越来越大,与此同期,行家对模子推理资本的合手续下跌的预期也越来越高。这些齐对GPU管制的默契性和有用性建议了更高条目。”
基于此,百度智能云晓示将百舸AI异构探讨平台全面升级至4.0版块,围绕落地大模子全旅程的算力需求,在集群创建、开辟现实、模子查验、模子推理四大方面,为企业提供“多、快、稳、省”的AI基础步履。
其中,为了处治算力资源穷乏的问题,百舸4.0对“多芯混训”智商进行了重心升级,完满了在万卡畛域集群上95%的多芯羼杂查验服从,达到业务最最初水平。在集群部署门径,升级后的百舸豪迈完满用具层面的秒级部署,将万卡集群运行准备时刻从数周最快缩减至1小时,极地面提高部署效果,裁汰业务上线周期。针对大模子查验过程中故障频发的问题,百舸4.0全面升级了故障检测技巧和自动容错机制,不错有用胁制故障发生频次,大幅减少集群故障处置时刻,在万卡集群上完满了超过99.5%的有用查验时长。
此外,百度智能云同期公布了千帆大模子平台的最新“得益单”,在千帆大模子平台上,文心大模子日均调用量超过7亿次,累计匡助用户精调了3万个大模子,开辟出70多万个企业级运用。昔时一年,文心旗舰大模子降价幅度超过90%。
(著述开头:逐日经济新闻)撸二哥