博客 - 赵朋磊

Attention 前置：从序列瓶颈到内积、Softmax，再到 GPU 内存墙

2026 年 06 月 01 日

#人工智能#深度学习#Attention#Transformer#GPU

Attention 的公式很短，但公式里的每个部件都对应一个明确问题：序列模型的串行依赖、向量相似度的可微计算、Softmax 的概率归一化，以及 GPU 上计算与数据搬运的权衡。本文从 RNN 的递推瓶颈出发，介绍 Embedding、矩阵投影、内积打分、Softmax、LayerNorm、Residual Connection 和内存墙，为下一篇推导 Scaled Dot-Product Attention 做准备。

正念冥想：有意地、不评判地，觉察当下

2026 年 05 月 24 日

#正念#冥想#阅读

正念被讲得很多，却常被误解成清空头脑、放松术，或某种玄学。它到底是什么？和冥想是什么关系？几种常见的练习——觉察呼吸、身体扫描、正念行走、日常正念——具体怎么做、要注意什么？这篇文章是我读完乔恩·卡巴金七本书后的一次梳理，也写给会慢慢松懈下来的自己。

反向传播与自动微分：从雅可比到计算图到 VJP

2026 年 05 月 17 日

#人工智能#深度学习#反向传播#自动微分

训练神经网络时需要算损失对所有参数的梯度。反向传播 + 自动微分（AD）就是高效做这件事的方法。本文从多维求导基础（雅可比矩阵、分子布局约定）出发，推导矩阵链式法则与线性层 $Y = WX$ 的梯度对齐（用标量偏导与全微分两种方法相互印证），再过渡到计算图、向量-雅可比积（VJP）、反向模式自动微分，最后展开 gradient checkpointing 与动态图 vs 静态图的工程取舍。是从感知机到反向传播再到深层训练 § 3.4 反向传播：计算图、链式法则、雅可比 的深度展开。

深度学习基础：从感知机到深层训练

2026 年 05 月 12 日

#人工智能#深度学习#感知机#反向传播#神经网络

深度学习能学到任意复杂的函数，背后只用了几样基本组件：一个线性变换、一个非线性激活、一个把误差传回去的链式法则。但要把这套机器从「数学上能做」变成「在 100 层网络上稳定训练」，中间还要趟过线性崩塌、梯度爆炸、过拟合等一连串坑。本文按感知机 → 多层感知机 → 训练神经网络 → 训练稳定性 → 泛化与正则化的顺序——每一步都从一个数学动机出发，给出严格证明或推导，再回到工程现实。

ClickHouse NumericIndexedVector 最佳实践：分桶与位置编码、适用场景、使用教程

2025 年 12 月 28 日

#ClickHouse#BSI#Bitmap#软件工程

本篇介绍 NumericIndexedVector 在 ClickHouse 上的最佳实践，按「分桶与位置编码 → 适用场景 → 使用教程 → 实测收益」四部分展开。微信业务中 29 天、105 个核心指标的实测显示，常用场景可以做到：存储减少 60%（4.1 TB → 1.6 TB）、单次全局 sum 提速 100×（59.2 s → 0.6 s）、ad-hoc 查询平均延迟降低 3.7×（22.3 s → 6.0 s）。其中分桶策略直接影响底层 RoaringBitmap 的存储成本，最优与最差档位之间可达数量级差异。

ClickHouse NumericIndexedVector 设计与实现：基于 Bitmap + BSI 的稀疏数值向量

2025 年 08 月 10 日

#ClickHouse#BSI#Bitmap#软件工程

Bitmap 能高效回答「某个 key 是否存在」，并且能通过与或非来求集合的运算。想象一下，如果每个 key 的值是实数，我们如何基于 Bitmap 来存储，并且基于 Bitmap 的与或非操作，来实现按 key 的（pointwise）加减乘除和比较运算呢？本文介绍 ClickHouse 新合入的数据结构 NumericIndexedVector，基于 RoaringBitmap 和 BSI（Bit-Sliced Index）来实现上面所说的功能。

日常数据中的七类统计陷阱：从小样本偏差到辛普森悖论

2024 年 11 月 23 日

#统计推断#统计陷阱#辛普森悖论#A/B 实验

很多人有过这种困惑：个人体感里大家都在喊穷，但官方平均薪资连年上涨；周围人都说房价在涨，统计公报却写「同比微跌」。这种背离往往不是错觉——数字在被汇总、报告、使用的过程里悄悄发生了畸变。本文按主题分四组介绍日常数据里最常见的七类统计陷阱：从小样本与[幸存者偏差](https://en.wikipedia.org/wiki/Survivorship_bias)，到偏态均值与显著性检验的缺失，再到混杂变量与[辛普森悖论](https://en.wikipedia.org/wiki/Simpson%27s_paradox)，最后到指标博弈下的挑樱桃与[古德哈特定律](https://en.wikipedia.org/wiki/Goodhart%27s_law)——每一类都从生活化例子讲起，给出成因、数学本质与专业解法。

黑盒优化：贝叶斯优化与多任务扩展

2021 年 08 月 05 日

#黑盒优化#贝叶斯优化#高斯过程回归#多任务学习#机器学习

在前一篇里我们从线性回归推导到高斯过程回归。本篇把高斯过程回归当作代理模型，搭出贝叶斯优化的完整流程，并介绍 EI / EIC / NEIC / UCB / ES / PI 六种采集函数；最后扩展到多任务场景，介绍 ICM、SLFM、LMC、PC 四种多输出高斯过程回归方法以及多任务贝叶斯优化的采集函数。

黑盒优化：从线性回归到高斯过程回归

2021 年 03 月 02 日

#黑盒优化#高斯过程回归#贝叶斯方法#机器学习

线性回归是机器学习里最简单也最经典的模型。如果把模型参数从「点估计」换成「分布」（贝叶斯线性回归），再用核技巧把输入空间映射到高维特征空间，最后让特征空间无限维——我们就走到了高斯过程回归。本文从线性回归一步步推导到高斯过程回归，并介绍其超参数（核函数中的参数）如何通过最大化对数边缘似然来调优。

从潜在结果到假设检验：A/B 实验里的统计与因果推断

2020 年 12 月 26 日

#统计推断#因果推断#A/B 实验#假设检验

在互联网产品里，「新算法到底有没有效果」是 A/B 实验要回答的核心问题——但样本中观察到的差异，并不直接等于因果效应。本文介绍潜在结果框架（Rubin 因果模型）与频率派假设检验如何接力解决这个问题：前者把因果效应表达成无法直接观测的潜在结果之差，后者用随机化加中心极限定理把它从样本里渐近恢复出来。