撸二哥百度集团扩充副总裁沈抖：大模子与云探讨细巧和洽，正在成为新式的基础步履

K图 09888_0

　　9月25日，在2024百度云智大会上，百度集团扩充副总裁、百度智能云行状群总裁沈抖在云智大会上示意，昔时的一年，是大模子从本事变革走向产业变革的要津一年，而大模子与云探讨细巧和洽，正在成为新式的基础步履，“大模子偏激相关系统，在短短几年内，正在赶紧成为新一代的基础步履。此次变革的速率前所未有”。

　　百度集团扩充副总裁、百度智能云行状群总裁沈抖图片开头：企业供图撸二哥

　　围绕大模子算力方面，沈抖示意，提到算力，不少东谈主齐据说过“万卡集群”，陋劣来说，GPU集群有三个特征：极致畛域、极致高密和极致互联。

　　而这些“极致”带来了几个严峻的挑战。沈抖先容，伊始是大齐的修复、运营资本，建一个万卡集群，单是GPU的采购资本就高达几十亿元。其次，在这样大畛域的集群上，运维的复杂性急剧加多。他谈到，硬件不行幸免地会出故障，而畛域越大，出故障的概率就越高。“Meta查验Llama3的时候，用了1.6万张GPU卡的集群，平均每3小时就会出一次故障。”

　　沈抖进一步示意，在这些故障中，绝大多数是由GPU引起的，其实GPU是一种很明锐的硬件，连中午天气温度的波动，齐会影响到GPU的故障率。这两个挑战迫使百度重新运转想考如何构建、管制和真贵遒劲而复杂的GPU集群，屏蔽硬件层的复杂性，为大模子落地的全历程提供一个陋劣、好用的算力平台，让用户豪迈更容易地管制GPU算力、低资本的用好算力。“昔时一年，咱们感受到客户的模子查验需求猛增，需要的集群畛域也越来越大，与此同期，行家对模子推理资本的合手续下跌的预期也越来越高。这些齐对GPU管制的默契性和有用性建议了更高条目。”

　　基于此，百度智能云晓示将百舸AI异构探讨平台全面升级至4.0版块，围绕落地大模子全旅程的算力需求，在集群创建、开辟现实、模子查验、模子推理四大方面，为企业提供“多、快、稳、省”的AI基础步履。

　　其中，为了处治算力资源穷乏的问题，百舸4.0对“多芯混训”智商进行了重心升级，完满了在万卡畛域集群上95%的多芯羼杂查验服从，达到业务最最初水平。在集群部署门径，升级后的百舸豪迈完满用具层面的秒级部署，将万卡集群运行准备时刻从数周最快缩减至1小时，极地面提高部署效果，裁汰业务上线周期。针对大模子查验过程中故障频发的问题，百舸4.0全面升级了故障检测技巧和自动容错机制，不错有用胁制故障发生频次，大幅减少集群故障处置时刻，在万卡集群上完满了超过99.5%的有用查验时长。

　　此外，百度智能云同期公布了千帆大模子平台的最新“得益单”，在千帆大模子平台上，文心大模子日均调用量超过7亿次，累计匡助用户精调了3万个大模子，开辟出70多万个企业级运用。昔时一年，文心旗舰大模子降价幅度超过90%。

（著述开头：逐日经济新闻）撸二哥