第327章 悟道算力平台的负载调优(2/2)

投票推荐 加入书签 留言反馈



    章宸点了点头。

    赵静提出的负载预测模型升级,是三个方案里风险最高的一个。新模型需要在悟道平台的在线流量上做A/B测试,先在小范围上线,验证效果后再逐步扩大。

    「A/B测试的方案已经设计好了。」赵静说,「第一周,新模型只影响百分之五的推理请求,其他百分之九十五还是用旧模型。如果第一周的数据显示新模型没有引入明显的延迟增加或错误率上升,第二周扩大到百分之二十,第三周百分之五十,第四周全量。」

    「如果中间出问题呢?」周明问。

    「有回退机制。每一周的扩大都是可逆的,一旦发现异常指标,可以在五分钟内切回旧模型。」

    周明没有再问。

    陈醒在笔记本上写了第三个词:「节奏。」

    他知道,悟道算力平台的负载调优不是一场闪电战,而是一场持久战。分区方案丶拥塞控制丶预测模型,三个方向同时推进,每个方向都有自己的风险和不确定性。真正的挑战不是技术本身,而是如何在不影响现有业务的前提下,把这些改动一点一点地注入到一个已经运行了两年丶支撑着二十七个应用丶每天处理数亿次请求的生产系统里。

    会议进行到第三个小时,许承把讨论从「解决方案」转向「资源投入」。

    「分区方案需要改造调度器的核心代码,预计耗时三周,投入六名工程师。拥塞控制调优需要修改协议栈和驱动,预计耗时两周,投入四名工程师。预测模型升级需要训练新模型丶开发A/B测试框架丶改造推理服务的调度逻辑,预计耗时五周,投入八名工程师。三个方向并行,总投入十八名工程师,五周内完成全部开发和测试,六周内上线。」

    「十八名工程师,」苏黛说,「天机云团队现在有足够的人手吗?」

    「不够。」许承没有掩饰,「天机云团队目前在全力支撑天枢生态在南洋的扩张和海上数据计划的第三轮演练,能抽调出来投入负载调优的只有八个人。缺口十个人。」

    苏黛翻开笔记本,快速过了一遍集团的人力资源分布。

    「从晶片验证团队借三个人。天权4号的NPU调度器修改已经进入收尾阶段,下周可以释放出部分人力。从AI平台团队借四个人。小芯的负载分析工作告一段落,赵静可以调配人手。从天枢OS团队借三个人。方程那边的开发者扶持计划2.0已经进入执行阶段,不需要大规模开发人力。」

    赵海不在场,但苏黛已经提前和他沟通好了。

    许承把借调的人名记下来,当场发给了各团队的负责人。

    会议的最后一部分,赵静调出了小芯对悟道平台长期演进的三个判断。

    「第一,负载特徵感知调度只是第一步。未来十二个月,我们需要从『分区调度』进化到『个性化调度』——为每一个训练任务丶每一个推理请求动态生成最优的调度策略,而不是把任务粗暴地塞进几个固定的分区里。」

    「第二,算力效率分析器如果做成了,悟道平台的角色会发生变化。它不再只是一个『算力提供者』,还会成为一个『算力效率的衡量标准和优化工具』。这个工具的价值可能比平台本身更大——因为它可以让整个行业的AI训练成本下降百分之三十以上。」

    「第三,也是最重要的——悟道平台的负载调优经验,可以反向输出给天权晶片的下一代架构设计。我们在调度中遇到的每一个瓶颈,都是天权下一代晶片应该优化的方向。片间拥塞控制调不上去,说明下一代晶片需要更智能的互联协议;负载预测模型跑不动,说明下一代晶片需要更强的内存带宽;分区调度的弹性边界不好使,说明下一代晶片需要更灵活的算力切分粒度。」

    章宸听到这里,终于露出了今天第一个笑容。

    「赵静,你说的这第三条,才是今天这场会议最有价值的一句话。」

    陈醒把笔记本合上。

    「总结一下。」他说,声音不大,但每个字都很清楚。

    「第一,悟道算力平台的负载调优,优先级最高。许承负责整体推进,赵静负责预测模型和效率分析器,章宸负责拥塞控制和晶片侧配合。五周内完成开发和测试,六周内上线。」

    「第二,借调的人力,苏黛今天之内协调到位。许承明天早上拿到完整的人力清单和任务排期。」

    「第三,算力效率分析器做成后,不仅要给悟道平台的用户用,还要集成到天枢生态的开发者工具链里。每一个在天枢生态上跑AI应用的开发者,都应该知道自己的模型效率怎么样,应该怎么优化。」

    「第四,赵静提出的第三条长期方向——负载调优经验反哺晶片架构——章宸回去后和晶片架构团队对一对,把悟道平台过去半年遇到的所有瓶颈整理成一份『下一代晶片需求文档』,在天权5的架构设计冻结前输入进去。」

    陈醒说完,站起来。

    「今天的会就到这里。五周后,我要看到悟道平台的平均算力利用率从百分之六十二提升到百分之七十五以上。」

    他没有说「做不到会怎么样」,因为不需要说。在座的所有人都知道,对面全面制裁落地后,算力就是最稀缺的资源。悟道平台每提升一个百分点的利用率,就意味着未来科技在算力封锁下多撑一天的能力。

    所有人陆续离开作战室。

    赵静没有走,她站在显示墙前,看着那三张负载曲线图。许承走到她旁边。

    「新模型的A/B测试框架,我今晚让团队先把架子搭起来。」许承说。

    赵静点了点头,但她的注意力不在A/B测试框架上,而在显示墙角落里的一张图上——那是算力效率分析器在离线测试中跑出的一个结果,某个外部合作夥伴的训练任务,计算效率只有最优方案的百分之二十三。

    她点开那个任务的详细信息,一行一行地看。

    任务是一个医疗影像识别的模型训练,用的数据量不大,模型架构也不算复杂,但代码写得极其低效——数据加载没有预取,梯度更新没有融合,甚至连基本的混合精度训练都没开。这样的任务在悟道平台上跑一次,消耗的算力是最优方案的将近五倍。

    赵静把那个任务的ID记了下来。她打算让小芯自动生成一份详细的优化建议报告,然后通过悟道平台的消息系统发给那个合作夥伴。不是指责,是帮助。

    如果每一个低效的任务都能收到这样一份报告,悟道平台的整体算力利用率不需要调度器也能提升百分之五到百分之十。

    她把这件事加到了效率分析器的需求文档里,然后关掉显示墙,走出作战室。

    走廊里,章宸正在等电梯。他看到赵静出来,说了一句话。

    「天权5的架构设计里,我打算加一个专门的算力效率监控单元。不是用来跑任务的,是用来实时监测每个核心的指令执行效率丶缓存命中率丶内存带宽利用率,然后把数据反馈给调度器。调度器根据这些数据动态调整任务分配。」

    赵静愣了一下,然后说了一句让章宸笑了的话。

    「你这是要把悟道平台的负载调优经验,直接烧进晶片里。」

    「对。」章宸说,「软体能做的优化,调度器可以做。但有些优化必须在硬体层面完成。天权5如果能在晶片内部就完成算力效率的实时监测和动态调整,悟道平台的调度器就不用猜『这个任务效率高不高』,而是可以直接看到。」

    电梯门开了,章宸走进去,赵静跟在后面。

    「这个算力效率监控单元,什么时候能出第一版设计?」赵静问。

    「六周后。天权4号的NPU调度器改完,验证通过,我就带团队开始做。」

    电梯门关上,缓缓下降。

    赵静靠在电梯壁上,闭了一会儿眼。六周,正好是悟道平台负载调优上线的节点。到时候,软体层面的优化和硬体层面的监控单元可以同步推进,形成一个「软体发现问题丶硬体提供数据丶软体利用数据进一步优化」的正循环。

    她睁开眼睛,看了一眼电梯里的楼层显示。地下一层,高性能计算集群。

    电梯门开了,她走出去,穿过机房的走廊,回到小芯团队的办公区。二十几个工程师正在各自的工位上忙碌,屏幕上的代码丶日志丶曲线在昏暗的光线里闪烁。

    她坐回自己的工位,打开笔记本,把今天会议上确定的三个方向丶五个里程碑丶十八个人名丶六周时间轴全部整理成一份任务清单,发给了所有相关人员。

    邮件的最后一行,她写了一句赵海常说的话:「最好的优化,是在问题还没发生之前就把它解决掉。」

    然后她打开算力效率分析器的代码仓库,开始看今天新提交的代码。

    窗外,芯谷的灯光已经全部亮起来了。从研究院的窗户望出去,那片光海比作战室里看到的更远丶更散丶更像一片真正的海。

    而在这片光海的深处,悟道算力平台的三万两千颗天权晶片正在无声地运转,处理着来自天枢生态二十七个应用的数百万次请求,训练着下一个版本的小芯,支撑着未来科技在风暴前夜的每一条战线。

    明天,负载调优的第一行代码会被写下。

    六周后,悟道平台会变得更聪明丶更高效丶更能扛。

    而在那之后,当天权5的算力效率监控单元第一次在仿真环境中跑通的时候,赵静会想起今天电梯里章宸说的那句话。

    软体能做的优化,调度器可以做。

    但有些优化,必须烧进晶片里。

    就像有些承诺,必须写进规则里。

章节目录