第325章 天权4号片上系统集成验证(2/2)

投票推荐 加入书签 留言反馈

特定参数相关的比较器逻辑,不改流水线结构。优点是RTL改动小,验证范围可控,大约需要两周。缺点是不能完全解决所有低效率场景,只解决了最严重的那几个。

    章宸听完三个方案,在白板上写下了一组判断标准。

    第一,天权4号的生命周期内,这些低效率卷积参数出现的频率有多高?

    NPU架构师调出了过去六个月小芯平台上所有模型的卷积参数统计。3x3 stride 2 出现在超过百分之六十的模型中,5x5 stride 2 出现在百分之三十左右,扩张卷积出现在约百分之十五的模型中。这些不是边缘场景,而是主流场景。

    第二,不改硬体只改软体,对模型精度的影响有多大?

    赵静让团队跑了十组代表性模型的对比测试。方案B的等效转换在八组模型上精度无损,在一组模型上精度下降百分之零点三,在最后一组模型上精度下降百分之一点一。百分之一点一的下降对于某些应用来说可能不可接受。

    第三,部分修改硬体能覆盖多少场景?

    方案C的覆盖范围是:3x3 stride 2 和 5x5 stride 2 可以完全解决,扩张卷积只能解决一部分。总体覆盖率大约百分之八十五。

    章宸把三个方案的优缺点在白板上列完后,在方案A上画了一个圈。

    「改完整。不改部分,不workaround。天权4号不能带着一个『某些模型会慢百分之七』的标签出厂。用户不会理解『这是为了赶进度做的妥协』,他们只会觉得天权晶片不行。」

    NPU架构师点了点头,把方案A的任务拆解成具体的RTL修改点,分配给团队的三个工程师。每个修改点都标注了完成时间和验证负责人。

    章宸补充了一个要求:「RTL修改完成后,不仅要重跑所有已有的验证用例,还要增加一组专门的压力测试,把调度器的所有可能状态都覆盖到。我不希望流片后发现还有别的参数组合有类似问题。」

    调度台上的倒计时被章宸亲手改掉了。原来的「19天」变成了「33天」——四周的RTL修改和验证,加上一周的缓冲。

    这个改变意味着天权4号的流片将错过原定的窗口,下一轮窗口在六周后,实际流片时间比原计划延迟了五周。五周的延迟会影响天衡5的量产排期丶天权5的叠代节奏丶以及天权晶片的整体库存策略。

    章宸在改完倒计时后,给陈醒发了一条消息:「天权4号集成验证发现NPU调度器问题,需要改RTL,流片延迟五周。理由:不改的话,某些AI模型效率会低百分之七,且无法通过软体完全补偿。」

    陈醒的回覆在三分钟后到了,不是文字,是一张截图。截图里是一份文档,标题是《天权晶片设计哲学·第一条》。文档内容只有一行字:「晶片是承诺,不是妥协。」

    章宸看着那行字,把终端收起来,继续调度验证工作。

    夜里,验证大厅的灯还亮着。

    NPU设计团队的三名工程师坐在洁净室里,面前是RTL代码的编辑界面。他们要改的调度器逻辑分布在七个模块里,最核心的那个模块有超过两千行代码。改动虽然不大,但每一行都要小心——在晶片设计里,修改一个比较器的逻辑可能会影响几百条相关路径的时序。

    章宸没有走。他搬了一把椅子,坐在调度台旁边,不是在盯着谁干活,而是在等——等任何一个团队需要他做决策的时候,他能第一时间出现。

    晚上九点,NPU团队完成了第一个模块的修改,开始跑局部仿真。仿真需要大约四十分钟,这四十分钟里,三个工程师靠在椅子上,闭了一会儿眼。他们从上午九点一直干到现在,中间只吃了一顿盒饭。

    章宸让助理从食堂带了热汤面上来,每人一碗。面有些坨了,但汤还是热的。三个人端着碗,蹲在洁净室的地上吃,没有人说话。吃完后,他们把碗放在门口,洗手,戴好静电手环,回到屏幕前。

    仿真结果出来了——第一个模块的修改通过了局部验证,时序收敛,功能正确。

    章宸在那项任务后面打了一个勾,然后说了一句让所有人松了一口气的话:「今晚就到这里。明天上午继续。回去睡觉,别在代码里留 bug。」

    三个人收拾东西离开洁净室,走过调度台的时候,都看了那面显示墙一眼。验证覆盖图上,NPU调度器那一栏还是黄色——代表「修改中,验证未完成」。但他们知道,明天或者后天,它会变成绿色。

    章宸最后一个离开验证大厅。他关掉调度台上的大部分屏幕,只留下一面显示实时日志的终端。大厅暗了下来,只有那面终端的萤光映在减震地板上,像一汪安静的水。

    他站在大厅中央,最后看了一眼那面显示墙。倒计时显示「33天」,NPU调度器那栏是黄色的,总线仲裁器那栏已经变成了绿色——修复方案通过了全部验证。

    章宸在心里过了一遍天权4号集成验证的所有关键节点。CPU复合体已经跑了超过两万个测试用例,通过率百分之九十九点九七,剩下的百分之零点零三是边缘情况,不影响流片。GPU集群的图形和计算测试全部通过,性能达标。内存控制器通过了全部压力测试,带宽和延迟都在设计范围内。IO子系统的PCIe丶USB丶显示接口全部验证完成。电源管理单元的低功耗模式切换经过了超过一万次循环测试,没有发现异常。

    唯一卡住的,就是NPU调度器。

    而这唯一卡住的地方,也是最不能妥协的地方。

    章宸走出验证大厅,关上门。门上的绿灯亮了,表示里面的人员已经全部离开,环境参数开始切换到待机模式。

    他沿着走廊往电梯走去,经过地下一层的高性能计算集群机房时,透过玻璃窗看见里面一排排机柜的指示灯在闪烁。那些机器里正在跑着天权4号成千上万个仿真任务,有的已经跑完,有的还在继续。它们不休息,不需要吃饭,不需要睡觉,只需要电和冷却水。

    但设计晶片的人需要休息。

    章宸走进电梯,按了一楼。电梯门关上之前,他最后看了一眼地下二层走廊尽头那扇紧闭的门。门的另一面,是那个倒计时丶那面显示墙丶那个黄色的标记,和三个还在等待验证结果的修改模块。

    电梯门关上了。

    芯谷的地面上,夜风比地下凉得多。章宸走出主楼,抬头看了一眼天空。云层散了一些,露出几颗星星。他认不出那些星星的名字,也不在乎。他在乎的是头顶那颗不存在的「天权星」——中国古代星官里,天权是北斗七星里最暗的一颗,但它是北斗的一部分,缺了它,北斗就不完整。

    天权4号也是这样。它不是未来科技晶片产品线里最亮的那颗星,但没有它,天权系列就不完整,天衡5的供应链就不安全,天枢生态的终端覆盖就有缺口。

    章宸收回目光,往停车场走去。

    明天还要继续改 RTL,继续跑仿真,继续盯验证。

    他走了几步,终端震动了。是NPU团队的工程师发来的消息,不是文字,是一张截图。截图里是某个模块修改后的时序报告,最差负余量从原来的负零点零三纳秒变成了正零点零二纳秒。

    时序收敛了。

    章宸在那条消息下面回复了一个字:「好。」

    然后他继续往停车场走,脚步比刚才轻了一点。不是因为他放松了,而是因为他知道,在那间地下二层的验证大厅里,即使所有人都走了,那些仿真任务还在跑,那些数据还在积累,那个黄色的标记正在一点一点地变成绿色。

    明天早上,当他再次走进那扇门的时候,验证覆盖图上可能会多几块绿色。

章节目录