Blog
Field notes from the DB.
Benchmarks, plan diffs, lock-chain post-mortems, and opinions on what real DB observability should look like in 2026.
- Redis·12 min
生产 Redis 监控:2026 指南
INFO、slowlog、latency monitor、keyspace notifications、大 key 采样 — 各取什么,以及预测每次 Redis 事故的 8 个指标。
Read →
- Postgres·13 min
Postgres 膨胀与 autovacuum:2026 调优指南
表与索引膨胀的真实成本、Pg 16+ 中 autovacuum 的工作机制、关键参数 — 以及在 OOM 前找出最严重表的查询。
Read →
- SQL Server·12 min
SQL Server Query Store: the field guide most teams skip
Query Store is the single biggest reason a SQL Server upgrade past 2016 was worth the weekend. The settings that matter, the DMVs you actually use, and how to catch a plan regression in two queries.
Read →
- MySQL·10 min
MySQL 副本延迟:按发生频率排列的 9 个原因
Seconds_Behind_Master 是个会撒谎的整数。这里给出真正的诊断顺序 — 单线程 apply、长事务、schema 迁移、网络 — 每种原因都附 SQL。
Read →
- Elasticsearch·10 min
Elasticsearch slow log: the cheapest performance tool you're misconfiguring
Default thresholds — 10s warn, 1s info — never catch the queries actually hurting your cluster. Here's how to tune the slow log per-index, what query / fetch / index split actually means, and 3 incident patterns only the slow log surfaces cleanly.
Read →
- Postgres·14 min
pg_stat_statements:2026 年完整指南
每个列、每个陷阱、你今天就应该运行的查询,以及为什么 pg_stat_statements 在 2026 年仍是 Postgres 最有用的 80 行遥测。
Read →
- ClickHouse·11 min
生产 ClickHouse:监控自身不变成热点
system.query_log 巨大,system.parts 更大。本文讲清真正该采集什么,以及如何监控 ClickHouse 集群而不让自己成为它的 top 查询。
Read →
- AI·9 min
AI for database query optimization: what's real in 2026 (and what's not)
Two years of shipping LLM-grounded query analysis to production databases. What AI is genuinely good at, what it's bad at, why grounding beats model size, and how BYO LLM works in regulated deployments.
Read →
- Postgres·11 min
为什么你的 Postgres p99 在撒谎 — 应该追踪什么
1 分钟窗口的 p99 是每个 DBM 仪表盘上最常见也最误导的数字。本文给出直方图数学、季节性数学,以及一个更合理的默认值。
Read →
- Pricing·9 min
我们把 50 台数据库的 Datadog DBM 账单加了一遍,这就是结果。
2026 年 50 台 Postgres + 12 台 MySQL + 8 台 Mongo 在 Datadog DBM 实际花费的逐行明细,以及不换工具也能降本的方法。
Read →
- BYOC·14 min
为何受监管 SaaS 用不了 Datadog DBM — 以及 BYOC 解决方案
BYOC 可观测性部署架构:数据在哪里、什么会跨越边界,以及如何在不牺牲 UX 的前提下满足 SOC2 / HIPAA / GDPR。
Read →
- Postgres·17 min
Postgres 慢查询:12 个原因及如何定位每一个
生产环境中诊断 Postgres 慢查询的实战手册 — 从索引缺失、计划翻转到表膨胀 — 提供每种原因的 SQL 与修复方法。
Read →
- Postgres·14 min
Postgres 连接池:pgBouncer、RDS Proxy 与你跳过的数学
为何 max_connections 是错误的旋钮、pgBouncer 几种池模式真正的区别,以及计算合理池大小的经验公式。
Read →
- Postgres·11 min
Postgres 锁链:找到阻塞你的会话
pg_locks、pg_blocking_pids 与递归 CTE 的实战指南 — 包括那些悄悄拖垮你 DB 的 AccessExclusiveLock。
Read →
- SRE·9 min
不再无用的数据库 SLO:可执行的定义
多数 DB SLO 是「CPU 低于 80%」 — 那是预算告警,不是服务等级目标。本文教你怎么定义一个高管能签、工程师能执行的 SLO。
Read →
- MySQL·13 min
MySQL Performance Schema vs sys schema:2026 监控指南
Performance Schema 难读,sys schema 友好但有损。本指南讲清生产中哪种问题用哪种,附 8 条每个 MySQL DBA 都该背下的查询。
Read →
- Postgres·16 min
Postgres EXPLAIN ANALYZE:2026 年读懂每一行
把一份执行计划读成故事所需的词汇表。Costs、rows、loops、buffers、timing 在 2026 年 (Pg 16+) 各代表什么,以及五秒内能看出来的 4 类反模式。
Read →
- MongoDB·14 min
生产环境 MongoDB 性能监控:2026 指南
四个数据面 (serverStatus、db.stats、currentOp、profiler),合理的默认配置,以及如何思考副本延迟、oplog 窗口与聚合管道成本。
Read →
- MongoDB·12 min
分片 MongoDB 监控:预测不均衡的关键指标
Chunk 分布、jumbo chunks、balancer 轮次时间、热点分片 — 区分健康集群和即将需要再平衡的集群,关键就这几个指标。
Read →
- AI·12 min
数据库指标异常检测:为什么阈值失效,什么真正有效
预测带、变点检测、多变量异常,以及让 'p99 > 200ms' 默认成为错误告警的季节性数学。
Read →
- DevOps·10 min
Schema 迁移监控:发布而不让数据库宕机
在一张 10 亿行的表上执行 ALTER TABLE 是最让人怕的 30 行 PR。本文给出 Postgres / MySQL / MongoDB 在迁移前、中、后的监控方案。
Read →
- AI·11 min
提前 30 天告警的数据库容量预测
线性回归不够,ARIMA 过度,Prophet 在你知道喂哪些外生变量时才行。本文给出实战级、提前 30 天发出告警的预测方案。
Read →
- Redis·8 min
Redis SLOWLOG:能抓住一半事故、却被忽视的遥测
大多数团队用默认 SLOWLOG 设置发布 Redis 然后从不看它。如何调优、应抓什么 — 以及只会出现在 SLOWLOG 里的 3 类事故。
Read →
- Postgres·10 min
Postgres 事务 ID 回绕:离最糟糕的周六只剩 4 小时
当 pg_stat_activity 显示 autovacuum (to prevent wraparound) 而写入开始变慢,你只有 4 小时做对的事 — 否则 DB 进入只读。本文是真正可执行的 Runbook。
Read →