分卷阅读107(1/2)

投票推荐 加入书签 留言反馈

    模型每晚增量训练都卡在梯度同步,是不是用的ALLReduce后更新?”

    刘亮终于肯认真地看他一眼,带着审视的意味,问:“之前好像没见过你,新来的?”

    汤珈树笑着朝他递出手,自我介绍:“对,我是昨天刚入职的,汤珈树,你叫我小汤就好。”

    刘亮顿了一秒,才伸手跟他握了握,接着问:“你权限还没开全吧?怎么看到的日志?”

    “从训练耗时波动反推的,我想了一下,如果改用异步参数服务器加局部聚合,跨机房通信量能砍半,不过需要解决陈旧梯度问题。”

    刘亮轻哼一声,不以为然道:“这方案去年试过了,worker延迟差异导致AUC下降0.8%,不可行。”

    汤珈树笑得谦逊:“那要不要试试加动态补偿项呢?”他说着,解锁手机,点进一则网页递到刘亮面前,“喏,比如这篇ICML论文提到的,用牛顿叠代法预估梯度偏移,我复现过能收敛,但要把pytorch的通信后端魔改——”

    刘亮倏然打断他,眼睛里迸射出光彩来:“魔改MPI层?那要怎么规避死锁?”

    “把全局barrier拆成带超时的分段校验,参考Ray框架的分布式容错设计。”汤珈树对答如流。

    刘亮沉默半晌,话锋陡地一转:“你现在在哪个项目上?”

    汤珈树莞尔:“我这才刚入职,还没来得及进项目呢。”

    “那就来我的项目组吧,”刘亮果断道:“我这儿正好缺个你这样的副组长。”

    汤珈树露出犹豫神色:“这……需要先问过胡总吗?”

    “我下午就去找胡总。”刘亮抽了张纸巾擦嘴,对他用上了礼貌用语:“我吃好了,你慢用。”

    汤珈树冲他颔首微笑:“刘工慢走。”

    一场食堂“偶遇”,次日汤珈树就接到正式通知,他以副组长的身份加入刘亮的项目组,也顺利拿到代码仓库的读取权限,得来全不费工夫。

    早知道直接找刘亮就能解决问题,他又何必大费周章地去找胡明礼,还白白浪费了季与淮一盒顶好的茶叶。

    季与淮这趟差出得比较久,峰会开完又去拜访客户,辗转三个城市,返程那日,S市淅淅沥沥下了一天的雨,整座城市浸泡在云遮雾绕的潮湿水汽中。

    临近傍晚才终于放晴,乌云散去,天空一片碧蓝如洗。

    汤珈树还没下班就接到季与淮电话,让他把晚上的时间空出来。

    “你回来了?”听电话那头夹杂着机场广播的背景音,汤珈树又惊又喜:“可我怎么记得你之前说是明天的飞机啊?”

    “这不着急完成你安排的任务么?”季与淮悦耳的低笑声透过电流传过来,撩得人耳垂发烫:“我跟我妈说了,晚上一块吃饭,餐厅已经让何薇定好了,待会儿地址发你,你下了班先过去。”

    汤珈树不禁感慨:“领导,你这执行力也太强了……”

    “是吧?”季与淮道:“那还不快喊声好听的犒劳我一下。”

    汤珈树有求必应:“淮淮哥。”

    “不够。”

    “男朋友?”

    “份量太轻。”

    汤珈树停顿一两秒,将手机收声口贴在嘴边,字正腔圆地喊出一声:“宝贝。”

    机场到达厅人来人往,成兆荣和另外-->>

本章未完,点击下一页继续阅读

章节目录