日志的谎言：为什么你的日志比没有日志更危险

Posted by quentin 在 Wednesday, 29 April 2026

博客分类:

电脑技术

Linux

Javascript

凌晨两点，线上出了一个支付失败的问题。你登录日志平台，输入订单号，回车。三千条日志滚动出来。你加上时间过滤，缩小到五百条。再加 ERROR 级别，剩三十条。你一条一条看——全是超时告警，没有一条告诉你为什么超时。

你把级别放宽到 WARN，三百条。大多是重试成功的记录，看起来没啥用。你换了个关键词搜，又出来几百条。折腾了一个小时，你发现关键信息藏在一个 INFO 级别的日志里，存的是上游服务的返回值，但打印的时候没用 JSON 格式，正则匹配不到。

最后你靠着回忆和猜，定了位。第二天写故障报告，复盘建议第一条写着："增加更多日志。"

这个场景大概不需要太多解释，每个值过班的工程师都经历过。但真正值得思考的不是"日志不够"这个表面结论，而是更深的问题：你有成千上万条日志，为什么还需要靠猜？如果日志真的有用，为什么越紧急的时刻，日志越帮不上忙？

日志的安全感是假的

很多团队对日志有一种近乎宗教性的信任——出了问题看日志，没问题也要看日志确认一下。代码评审的时候，一句"这里加个日志吧"几乎不会被拒绝，因为加日志没有成本，看起来还体现了严谨。

但日志给你的安全感是虚假的。

日志记录的是你预期系统会做的事，而不是系统实际做的事。你在代码里写 `log.info('Order created, id={}', order.id)`，这条日志的前提假设是你的代码走到了这一步，且数据是正确的。如果代码在这个位置之前就出了问题，或者数据在传递过程中已经被污染，你的日志不会告诉你——它忠实地记录了一个看起来正常但实际已经偏离的路径。

更常见的情况是，你在正常路径上打了很多日志，异常路径上一个都没有。不是你不想打，而是异常路径本身就超出预期——你没预料到会走到这里，自然也没安排日志。结果就是，系统正常运行的时候，日志密密麻麻看着很安心；真正出问题的时候，日志一片空白，或者只有一条孤零零的异常堆栈，没有任何上下文。

我见过一个 BFF 服务的日志策略：每个请求入口打一条，每个下游调用打一条，每个返回打一条。听起来很完善。直到有一次，一个下游服务返回了 HTTP 200 但 body 是空字符串。下游调用的日志愉快地记录了"响应码200，耗时230ms"，一切看起来正常。但业务逻辑因为空 body 走进了容错分支，最终用户收到了错误展示。这条故障在日志里完全没有痕迹——因为没有任何一条日志是设计来检测"响应体为空但状态码正常"这种场景的。

日志只能回答你提前设计好的问题。而生产环境的故障，几乎都是你没提前设计过的问题。

多即少：噪音吞噬信号

加日志几乎没有成本，删日志却要冒风险——谁知道有没有人在靠这条日志排查问题？这个不对称导致了几乎所有长期运行的项目都面临同一个现状：日志只增不减。

每遇到一次故障，复盘建议必然有"加日志"。每个新功能上线，-dev-顺手打几条日志。每个性能问题排查，临时加的调试日志忘了删。一年之后，一个请求的日志从三条变成三十条，其中二十七条你不知道是谁打的、为什么打的、还有没有人在看。

然后在故障发生的时候，你面对的不是"信息太少"，而是"信息太多"。信号和噪音的比例持续下降，直到你需要花更多时间在日志里淘金，而不是分析问题本身。

更讽刺的是，噪音会反过来逼迫你加更多日志。因为现有日志看不懂，你就想加更多"上下文"日志来解释；加了上下文之后整体噪音又上去了，其他日志变得更难找；其他人也看不懂你的日志，于是他们也加——一个正反馈的死循环。

日志量级的增长速度是惊人的。一个中等规模的微服务，每天产生几十 GB 日志很正常。一个包含十几个服务的中型系统，日日志量轻松突破 TB 级。存储成本先不说，光是搜索和检索的时间成本就已经在影响故障响应速度了。当你在 ELK 里搜一个关键词需要三十秒返回结果——注意，是返回结果，你还得在这些结果里再筛一遍——日志已经不是帮你排查问题的工具了，它是你需要从中排查问题的噪音源。

还有一种更隐蔽的噪音：日志本身正确，但语义已经过时。代码重构了三次，业务逻辑早变了，但日志文本还停留在最初版本。你看到一条日志写"用户余额不足导致购买失败"，去查代码发现这条日志现在的触发条件跟余额完全没关系——是在某次重构中被复用了，但日志内容没改。这种"语义漂移"比没有日志更危险，因为它会把你引向完全错误的方向。

日志驱动的调试是被动工程

依赖日志排查问题，本质上是一种被动的工作方式：你等故障发生，然后去日志里找线索。这个模式有几个前提假设——故障一定会在日志里留下痕迹，痕迹一定能被搜索到，搜索结果一定能被正确解读。这三个假设在现实中经常不成立。

日志驱动的调试还有一种更深层的问题：它塑造了团队对系统理解的惰性。当你可以"看日志"的时候，你倾向于不去理解系统在正常运行时的行为模式。就像习惯了导航的人不会记路——反正出了问题再看日志嘛。

这种惰性在多人协作时尤其明显。一个服务经过了五六代人的手，每一代人都加了自己的日志，没有一代人清理过前人的日志。当代人看到一条日志，不确定它是否还有意义，但不敢删。结果就是日志变成了代码之外的第二套文档——一套过时的、碎片化的、没人敢动的文档。你维护的不仅仅是代码，还有这套臃肿的日志体系。

另外一个经常被忽视的副作用：日志改变了代码的可读性。当业务逻辑里穿插着大量日志语句，阅读代码的人需要分辨哪些是真正的业务逻辑，哪些只是为了可观测性。日志和业务逻辑的边界模糊了，代码的意图被稀释了。极端情况下，一个函数里日志语句比业务代码还多，你分不清这个函数到底是在做业务还是在写日志。

全栈场景下这个问题更复杂。前端日志、BFF 日志、后端服务日志、网关日志、CDN 日志——同一个请求的日志散落在五六个系统里，用不同的格式、不同的 ID 体系、不同的时间精度。你把所有日志汇到一起的时候，时间对齐就已经是个挑战了。跨层级的链路追踪需要统一的 trace ID 支持，但现实中很多老服务根本没接入，前端日志更是经常和后端 trace 对不上。

性能代价：不说就不存在的成本

打日志不要钱——这是最大的错觉。

一行 `log.info` 在开发环境里看起来什么成本都没有。但在高并发生产环境里，每条日志意味着一次字符串格式化、一次序列化、一次磁盘写入或网络传输。当你的 QPS 上去之后，日志 I/O 可能成为瓶颈，而你甚至不知道。

日志框架的异步化在一定程度上缓解了这个问题，但只是把同步阻塞变成了隐形的资源消耗——日志队列占用内存、后台线程占用 CPU、批量写入占据磁盘 I/O 带宽。这些东西不出现在你的业务监控里，但当磁盘 I/O 跑满的时候，你的业务延迟一样会飙上去，只是你不会第一时间想到是日志的问题。

更实际的问题是日志对请求延迟的影响。在高吞吐场景下，一个请求打十几条日志，每条日志的序列化和 I/O 耗时加起来可能不是小数目。尤其是包含了复杂对象序列化的日志，我见过 JSON 序列化一条大对象日志就要几毫秒的场景，而这个请求总共才需要处理二十毫秒。十五条日志打下来，光日志就占了一半的处理时间。

还有一个不得不提的成本：日志存储和检索。ELK 集群的运维成本、日志平台的 license 费用、存储扩容的频率——这些都是真金白银。在小团队里，这些成本往往被低估，因为它们不像服务器费用那样直接挂钩业务指标。但当日志量级涨到每天几个 TB 的时候，你会发现日志基础设施是你云账单上相当大的一块支出。而这些支出有多少转化为了实际的故障排查效率？没人算过。

日志应该回答什么问题

说了这么多日志的问题，不是要劝你不打日志。没有日志的系统比有日志的系统更危险——但这不意味着日志越多越安全。问题的核心是：大部分日志是在记录系统做了什么，而不是回答系统为什么这样做。

一条有价值的日志应该能回答至少一个问题：这个时刻，系统的状态是什么？为什么做了这个决策？如果出了问题，我需要知道什么？

对比这两组日志：

```
[INFO] Processing request, userId=12345
[INFO] Query result: {count: 3}
[INFO] Response sent, status=200
```

```
[INFO] Order validation: userId=12345, balance=500.00, required=480.00, passed=true
[WARN] Retry downstream payment: attempt=2/3, lastError=timeout, willRetry=true
```

第一组在记录流水——系统走了哪些步骤，每步结果如何。这些信息在正常运行时毫无用处，在故障时能告诉你的也极其有限。第二组在记录决策——系统为什么做了某个选择，面临的选择条件是什么。前者是"发生了什么"，后者是"为什么这样发生"。

决策日志的价值远高于步骤日志，因为故障的本质几乎都是"系统做了一个错误的选择"。当你理解了选择的条件和结果，你就理解了故障的根因。步骤日志只能告诉你系统走了哪条路，决策日志能告诉你系统为什么走了这条路。

另一个被严重低估的实践是结构化日志。不是那种"用 JSON 格式打印"的伪结构化，而是真正为检索和分析设计的结构化字段。一条好的结构化日志应该是可以直接作为查询条件的——按 orderId 查、按 errorType 查、按 downstreamService 查。而不是在 Elasticsearch 里写正则去匹配一段自由文本中的某个字段值。

结构化日志的隐性好处是它迫使你思考"这条日志会被怎么检索"。如果你发现自己无法为一条日志定义清晰的结构化字段，那这条日志很可能也没有被检索的价值——它大概率只是在记流水账。

从加日志到减日志

大部分团队需要做的不是加日志，而是减日志。

减日志的第一步是审计：你现在的日志里，有多少是从来没被搜索过的？有多少是重复信息？有多少是调试阶段留下的？这些问题的答案通常令人沮丧。把没人用的日志删掉，把重复的合并，把调试用的移除，你会发现剩下的日志量可能只有原来的三分之一。

第二步是分级。不是所有日志都值得持久化存储。DEBUG 级别的日志在开发环境有用，生产环境就应该关掉。INFO 级别应该只保留决策关键点和错误恢复路径。真正需要在生产环境持久保存的，是 WARN、ERROR 和关键的决策日志。其他信息在需要的时候通过动态调整日志级别来获取，而不是默认全量存储。

第三步，也是最容易被忽略的，是给日志设定生命周期。代码里加上日志的时候，就应该标注它的用途和预期寿命。临时调试日志跟版本一起发布，下一个版本必须清理。功能日志跟功能需求绑定，需求下线时日志一起下线。只有这样，日志才能跟代码一起演进，而不是独立膨胀。

有一种更激进但我越来越认同的观点：如果你需要频繁地看日志才能理解系统在干什么，那问题不在日志不够，而在系统不可理解。一个设计良好的系统，业务逻辑应该是自明的，关键状态应该是可查询的，异常情况应该是可观测的——这些需求不应该全部靠日志来满足。Metrics、Traces、Feature Flags、Admin API、健康检查端点——这些才是回答"系统在干什么"的正确工具。日志只应该回答"系统为什么做了这个决策"。

你信的不是日志，是一种幻觉

日志最大的谎言，是让你以为拥有了可观测性。

日志多的系统给人一种"我很透明"的错觉——出了问题总能找到线索嘛。但真正出了问题的时候，你会发现线索太多、太杂、太模糊，挑选有效信息的成本远超预期。你不是在排查故障，你是在一个巨大的数据垃圾场里淘金。

而没有日志的系统虽然可怕，但至少它很诚实——它明确告诉你"我不知道发生了什么"，你会立刻去构建正确的可观测性，而不是在一堆噪音里自以为安全。

日志是必要的，但它是可观测性的最底层手段，不应该是唯一的手段。当你的团队遇到问题第一反应永远是"加日志"的时候，你需要停下来想一想：加的日志真的回答了新问题吗？还是只是让噪音又多了一层？你是在提高系统的可观测性，还是在堆砌一种虚假的安全感？

下次写故障复盘的时候，试试把"增加更多日志"改成"这条日志应该回答什么问题"。你会发现，很多你准备加的日志，根本回答不了任何问题。

坤霆@全栈技术研究室

不论你在什么时候开始，重要的是开始之后就不要停止。
不论你在什么时候结束，重要的是结束之后就不要悔恨。

日志的谎言：为什么你的日志比没有日志更危险

添加新评论

Plain text