Javascript

工程师的沟通成本为什么总是被低估

博客分类: 

每个项目复盘的时候,技术负责人都会提一个问题:为什么又延期了?

然后大家开始列原因:需求变更、技术方案调整、第三方接口不稳定、测试环境问题……很少有人提"沟通"。

因为沟通好像不属于正经的工作。你写了一千行代码,那是产出;你开了三小时会,那是浪费时间。但实际情况是,你开的那三小时会,可能比写一千行代码对项目的影响更大——不管是正面还是负面。

 

沟通不是耽误开发,沟通本身就是开发

 

很多工程师有一种根深蒂固的观念:写代码才是正事,沟通是不得不做的打断。所以他们会尽量减少沟通——需求文档能不读就不读,能用文字说清楚的绝不开会,能自己决定的绝不找人讨论。

这种做法在个人项目里没问题。一个人写代码,沟通成本为零。但团队项目不一样。

一个五人团队,如果每个人对需求的理解偏差10%,最终集成出来的东西可能偏差50%。这不是数学平均,这是偏差的累积——前端理解的交互逻辑和后端理解的数据结构不一样,测试理解的验收标准和产品理解的验收标准不一样,等大家把代码合到一起才发现问题,修复的成本是开发阶段的十倍。

你的技术债务可能不是债务,是遗产

博客分类: 

技术债务这个比喻太深入人心了,以至于所有旧代码都被贴上了"债"的标签。重构计划里排满了"还债"任务,架构升级的理由是"降低技术债务",新人入职第一件事是听老人抱怨欠了多少债。

但仔细想想,你管它叫债,它就真的欠了什么吗?

 

债务这个比喻哪里不对

 

债务意味着你有偿还义务。你借了钱,必须还。到期不还,利息越滚越多,最终破产。

代码不是这样的。

一段跑得好好的代码,即使写法丑陋、架构混乱、没有测试覆盖,只要它在生产环境稳定运行,就没有人强迫你"还债"。业务的每一个需求都可能让你动这段代码,但你可以选择不动它——包一层,绕过去,新功能走新路径。

真正的问题不是"不还债会怎样",而是"你还了债能得到什么"。

大部分技术债务偿还计划高估了收益。重构一个模块,你的预期收益是什么?代码更整洁了,开发者体验更好了,将来改起来更方便了。但这些收益几乎无法量化。你很难说服老板说:"我花两个礼拜重构这个模块,将来的需求开发速度会提升百分之多少。"

而你需要放弃的成本是实实在在的:两个礼拜的业务产出,可能还有引入 bug 的风险。

这不是债务,这是投资。投资就得算回报,而不是用"还债"的道德感来绑架决策。

 

造轮子的真正代价不是开发,是走不掉

博客分类: 

每个技术团队都会经历这样一个时刻:现有工具不太顺手,自己做一个吧。

理由总是充分得无法反驳——市面上的组件库不支持我们这种交互模式,开源的表单引擎处理不了我们的动态字段逻辑,第三方的配置中心满足不了我们的合规要求。每一条拿出来都是刚需,每一条都指向同一个结论:我们得自己造。

没人会在这个阶段反对。因为反对意味着你要证明"现有的东西够用",而提出造轮子的人已经把"不够用"的场景摆上了桌面。你没办法反驳一个正在发生的痛点。

于是轮子开始转。第一周,大家很兴奋。第三周,初版出来了,确实比之前好用。第二个月,几个业务接入了。半年后,团队里有一半人的KPI跟这个轮子挂钩。一年后,最初写轮子的人提了离职。

这就是造轮子的故事。但今天我不想聊"该不该造"——这个问题已经被讨论过太多次,而且答案永远是"看情况"。我想聊的是一个更少人关注、却更致命的问题:造轮子最大的代价不是花时间开发,而是你再也走不掉。

 

开发成本只是首付

 

大部分人评估"要不要自己造"的时候,脑子里算的是开发成本。两个人做两个月,能搞定,成本就是四个人月。和采购方案比一比,好像更划算。这个算术本身没错,但它只算了首付。

真正的问题是后面几十年的月供。

设计系统的尽头是没人用

每个前端团队最终都会走上同一条路:建组件库,搞设计系统,画设计规范文档。

然后看着它慢慢死去。

不是夸张。我见过太多团队花大力气搭了一套设计系统,上线时热热闹闹,半年后只剩一个人在维护,一年后连那个人也转岗了。业务线该自己封装的还是自己封装,该重复的还是重复,设计系统变成了一座精美的鬼城。

这个现象太普遍了,普遍到已经不值得用"执行力不够"来解释。问题不在人,在设计系统这个事情本身的逻辑里。

 

建设者的幻觉

 

设计系统的出发点通常很理想:统一视觉规范,提高开发效率,减少重复劳动。听起来无懈可击。

但这个逻辑有一个隐含前提——业务足够稳定,需求足够规范,变化足够可控。

现实呢?

金融产品恨不得每周换一轮视觉,大促活动页面跟日常页面完全是两套设计语言,某个业务线因为合规要求必须用特殊样式,另一个业务线因为老板拍板要用新风格。你精心设计的 Button 组件有十二个 variant,但业务要的是第十三个。

设计系统的建设者往往是架构团队或基础设施团队。他们离业务远,有时间做抽象。但离业务远恰恰是问题所在——你抽象出来的东西,天然跟不上业务的节奏。

Serverless:复杂度没有消失,只是换了地址

2018年前后,Serverless在国内技术圈火了一阵。各大云厂商轮番布道,"按需付费"、"零运维"、"自动扩缩容"——每个口号都精准戳中了团队的痛点。我当时也投入了不少精力研究,毕竟谁不想不用管服务器?

几年过去了,当初那些All in Serverless的团队,相当一部分已经在往回走。不是Serverless不好,而是很多人慢慢意识到:当初以为消灭的复杂度,其实只是搬了个家。

 

那些承诺里没写的小字

 

Serverless的核心承诺有三条,每一条都有对应的现实版本。

"不用管服务器"——开发者只需写业务逻辑,基础设施平台托管。这对前端团队尤其有吸引力,写完函数丢上去就能跑,不用折腾部署和运维。但现实是,你很快会发现自己需要关注函数的内存配置、超时时间、并发限制、冷启动策略、VPC配置、IAM权限……这些不叫"服务器运维",但本质上还是在管基础设施,只是换了个仪表盘。

"按需付费"——代码不运行就不收钱,空转成本消失。但下一句没人告诉你的是:按需付费的反面是成本不可预测。一个函数死循环触发重试,一个爬虫突然疯爬你的API,一个配置错误导致无限调用——这些异常场景下的账单,会让你深切怀念固定成本的日子。

技术选型的隐性成本:你选的不只是框架,是未来三年的约束

每个技术团队都经历过这种场景:选型评审会上,几个方案摆出来,有人做性能对比,有人秀Demo效果,有人贴GitHub Star数。讨论半天,拍板一个,然后散会。团队满怀期待地开始新项目,三个月后开始骂娘。

这事儿我见过太多次了。选型时看到的都是优点,上线后暴露的全是成本。而且这些成本绝大多数在选型评审时根本没人提——不是不想提,是没人知道该提什么。

技术选型最大的陷阱不是选错了框架,而是你以为自己只选了框架。

 

你看到的是Demo,你看不到的是深渊

 

选型评审时,我们评估什么?功能列表、性能基准、社区活跃度、文档完整度。这些都是对的,也是不够的。

它们属于"可见成本"——你能在两小时的评审会上完成对比的东西。但框架的真正成本,从来不在这张表上。

知识孤岛的解法不在文档里

博客分类: 

每个技术团队都有这个痛点:核心开发离职了,系统没人敢动;某个服务只有一个人能改;新人来了三个月还在问"这个接口谁负责"。然后管理层拍板——写文档!搞知识库!做Wiki!

半年后,知识库变成了数字垃圾场。文档没人读,读了也过时,过时了更没人更新。循环往复。

我的判断可能比较尖锐:文档是知识孤岛的安慰剂,不是解药。真要打破知识孤岛,得从架构设计和组织设计入手,让知识天然不容易集中到某个单点上去。

 

知识孤岛是怎么长出来的

 

先得搞清楚,知识孤岛不是"文档没写好"的产物。它是系统架构和组织结构的影子。

当一个微服务只有一个人从设计到上线全程参与,那这个人就是这个服务的知识孤岛。不是因为他不愿意分享——他可能写了很详细的README,但你让另一个人接手,还是要花两周才能上手。因为README里写的是"怎么做",而脑子里装的是"为什么这么做"以及"哪里会踩坑"。

AI+机器人创业:软件思维才是最大的坑

过去一年,我接触了不少AI和机器人方向的创业团队。有做具身智能的,有做服务机器人的,有做工业检测的,也有做消费级陪伴机器人的。聊完之后一个很强烈的感受:大量的创业者——尤其是技术背景出身的——正在用软件的思维做硬件的生意,用SaaS的逻辑评估一个物理世界的项目。

这个错位,比大多数人以为的要严重得多。

 

Demo到产品的距离,在硬件世界里是光年

 

软件创业的核心叙事是MVP——最小可行产品。两周上线一个版本,收集用户反馈,快速迭代。这套方法论在过去十年被验证了无数次,几乎成了互联网创业的圣经。

但这个叙事在机器人领域完全不成立。

一个做餐厅配送机器人的团队跟我说,他们的软件系统三个月就搭好了,SLAM算法调了两个月效果不错,避障也过得去。但整机跑起来之后,发现轮子打滑导致里程计漂移,激光雷达在不同光照条件下噪点差异巨大,电池在冬天衰减了30%导致续航不达标,餐厅地面的油渍让轮子寿命从设计的一半都不到。每一个都是"小问题",但要解决任何其中一个,都需要改模具、换供应商、重新做可靠性测试——一个循环下来三个月起步。

软件出bug可以热修复,硬件出问题只能召回。软件改一行代码的成本是几分钟,硬件改一个结构件的成本是几万块起,加上开模周期至少四周。这不是量变,这是质变。

发布恐惧怪圈:你加的每道门禁都在让发布更危险

上周有个做支付系统的朋友跟我吐槽,他们团队每次发版要过六道门禁——代码审查、单元测试覆盖率、集成测试、安全扫描、性能基线、人工审批。听起来很严谨对吧?结果他们每次发布的变更量越来越大的同时,线上故障却没有减少。反而因为每次发布都是"大手术",一出问题就是大问题。

这不是个例。我观察过不少团队,尤其是金融、支付这类对稳定性要求极高的业务线,都有一个共同的倾向:发布越怕出错,就越加流程;流程越重,发布频率越低;频率越低,每次发布承载的变更越多;变更越多,出错概率越高——然后更怕出错,继续加流程。

这就是发布恐惧怪圈。而最反直觉的地方在于:你加的每一道门禁,都在让下一次发布更危险。

 

门禁越多,发布越重

 

这是最直接的后果,也是最容易被人忽视的。

假设一个团队每周发布一次,每次发布平均包含 15 个 commit 的变更。后来因为一次线上事故,决定加强管控:发布前必须经过安全扫描和性能基线验证,流程从一天变成了三天。发布频率自然从每周一次降到了每两周一次。但开发节奏没变,两周的变更量是 30 个 commit。

看到了吗?单次发布的爆炸半径翻倍了。

日志的谎言:为什么你的日志比没有日志更危险

凌晨两点,线上出了一个支付失败的问题。你登录日志平台,输入订单号,回车。三千条日志滚动出来。你加上时间过滤,缩小到五百条。再加 ERROR 级别,剩三十条。你一条一条看——全是超时告警,没有一条告诉你为什么超时。

你把级别放宽到 WARN,三百条。大多是重试成功的记录,看起来没啥用。你换了个关键词搜,又出来几百条。折腾了一个小时,你发现关键信息藏在一个 INFO 级别的日志里,存的是上游服务的返回值,但打印的时候没用 JSON 格式,正则匹配不到。

最后你靠着回忆和猜,定了位。第二天写故障报告,复盘建议第一条写着:"增加更多日志。"

这个场景大概不需要太多解释,每个值过班的工程师都经历过。但真正值得思考的不是"日志不够"这个表面结论,而是更深的问题:你有成千上万条日志,为什么还需要靠猜?如果日志真的有用,为什么越紧急的时刻,日志越帮不上忙?

 

日志的安全感是假的

 

很多团队对日志有一种近乎宗教性的信任——出了问题看日志,没问题也要看日志确认一下。代码评审的时候,一句"这里加个日志吧"几乎不会被拒绝,因为加日志没有成本,看起来还体现了严谨。

但日志给你的安全感是虚假的。

页面