Attention 前置:从序列瓶颈到内积、Softmax,再到 GPU 内存墙

2026 年 06 月 01 日
#人工智能#深度学习#Attention#Transformer#GPU

Attention 的公式很短,但公式里的每个部件都对应一个明确问题:序列模型的串行依赖、向量相似度的可微计算、Softmax 的概率归一化,以及 GPU 上计算与数据搬运的权衡。本文从 RNN 的递推瓶颈出发,介绍 Embedding、矩阵投影、内积打分、Softmax、LayerNorm、Residual Connection 和内存墙,为下一篇推导 Scaled Dot-Product Attention 做准备。

正念冥想:有意地、不评判地,觉察当下

2026 年 05 月 24 日
#正念#冥想#阅读

正念被讲得很多,却常被误解成清空头脑、放松术,或某种玄学。它到底是什么?和冥想是什么关系?几种常见的练习——觉察呼吸、身体扫描、正念行走、日常正念——具体怎么做、要注意什么?这篇文章是我读完乔恩·卡巴金七本书后的一次梳理,也写给会慢慢松懈下来的自己。

反向传播与自动微分:从雅可比到计算图到 VJP

2026 年 05 月 17 日
#人工智能#深度学习#反向传播#自动微分

训练神经网络时需要算损失对所有参数的梯度。反向传播 + 自动微分(AD)就是高效做这件事的方法。本文从多维求导基础(雅可比矩阵、分子布局约定)出发,推导矩阵链式法则与线性层 Y=WXY = WX 的梯度对齐(用标量偏导与全微分两种方法相互印证),再过渡到计算图、向量-雅可比积(VJP)、反向模式自动微分,最后展开 gradient checkpointing 与动态图 vs 静态图的工程取舍。是 从感知机到反向传播再到深层训练 § 3.4 反向传播:计算图、链式法则、雅可比 的深度展开。

深度学习基础:从感知机到深层训练

2026 年 05 月 12 日
#人工智能#深度学习#感知机#反向传播#神经网络

深度学习能学到任意复杂的函数,背后只用了几样基本组件:一个线性变换、一个非线性激活、一个把误差传回去的链式法则。但要把这套机器从「数学上能做」变成「在 100 层网络上稳定训练」,中间还要趟过线性崩塌、梯度爆炸、过拟合等一连串坑。本文按 感知机多层感知机 → 训练神经网络 → 训练稳定性 → 泛化与正则化的顺序——每一步都从一个数学动机出发,给出严格证明或推导,再回到工程现实。

ClickHouse NumericIndexedVector 最佳实践:分桶与位置编码、适用场景、使用教程

2025 年 12 月 28 日
#ClickHouse#BSI#Bitmap#软件工程

本篇介绍 NumericIndexedVector 在 ClickHouse 上的最佳实践,按「分桶与位置编码 → 适用场景 → 使用教程 → 实测收益」四部分展开。微信业务中 29 天、105 个核心指标的实测显示,常用场景可以做到:存储减少 60%(4.1 TB → 1.6 TB)、单次全局 sum 提速 100×(59.2 s → 0.6 s)、ad-hoc 查询平均延迟降低 3.7×(22.3 s → 6.0 s)。其中分桶策略直接影响底层 RoaringBitmap 的存储成本,最优与最差档位之间可达数量级差异。

ClickHouse NumericIndexedVector 设计与实现:基于 Bitmap + BSI 的稀疏数值向量

2025 年 08 月 10 日
#ClickHouse#BSI#Bitmap#软件工程

Bitmap 能高效回答「某个 key 是否存在」,并且能通过与或非来求集合的运算。想象一下,如果每个 key 的值是实数,我们如何基于 Bitmap 来存储,并且基于 Bitmap 的与或非操作,来实现按 key 的(pointwise)加减乘除和比较运算呢?本文介绍 ClickHouse 新合入的数据结构 NumericIndexedVector,基于 RoaringBitmap 和 BSI(Bit-Sliced Index)来实现上面所说的功能。

日常数据中的七类统计陷阱:从小样本偏差到辛普森悖论

2024 年 11 月 23 日
#统计推断#统计陷阱#辛普森悖论#A/B 实验

很多人有过这种困惑:个人体感里大家都在喊穷,但官方平均薪资连年上涨;周围人都说房价在涨,统计公报却写「同比微跌」。这种背离往往不是错觉——数字在被汇总、报告、使用的过程里悄悄发生了畸变。本文按主题分四组介绍日常数据里最常见的七类统计陷阱:从小样本与[幸存者偏差](https://en.wikipedia.org/wiki/Survivorship_bias),到偏态均值与显著性检验的缺失,再到混杂变量与[辛普森悖论](https://en.wikipedia.org/wiki/Simpson%27s_paradox),最后到指标博弈下的挑樱桃与[古德哈特定律](https://en.wikipedia.org/wiki/Goodhart%27s_law)——每一类都从生活化例子讲起,给出成因、数学本质与专业解法。

黑盒优化:贝叶斯优化与多任务扩展

2021 年 08 月 05 日
#黑盒优化#贝叶斯优化#高斯过程回归#多任务学习#机器学习

前一篇 里我们从线性回归推导到高斯过程回归。本篇把高斯过程回归当作代理模型,搭出贝叶斯优化的完整流程,并介绍 EI / EIC / NEIC / UCB / ES / PI 六种采集函数;最后扩展到多任务场景,介绍 ICM、SLFM、LMC、PC 四种多输出高斯过程回归方法以及多任务贝叶斯优化的采集函数。

黑盒优化:从线性回归到高斯过程回归

2021 年 03 月 02 日
#黑盒优化#高斯过程回归#贝叶斯方法#机器学习

线性回归是机器学习里最简单也最经典的模型。如果把模型参数从「点估计」换成「分布」(贝叶斯线性回归),再用核技巧把输入空间映射到高维特征空间,最后让特征空间无限维——我们就走到了高斯过程回归。本文从线性回归一步步推导到高斯过程回归,并介绍其超参数(核函数中的参数)如何通过最大化对数边缘似然来调优。

从潜在结果到假设检验:A/B 实验里的统计与因果推断

2020 年 12 月 26 日
#统计推断#因果推断#A/B 实验#假设检验

在互联网产品里,「新算法到底有没有效果」是 A/B 实验要回答的核心问题——但样本中观察到的差异,并不直接等于因果效应。本文介绍 潜在结果框架(Rubin 因果模型) 与频率派假设检验如何接力解决这个问题:前者把因果效应表达成无法直接观测的潜在结果之差,后者用随机化加中心极限定理把它从样本里渐近恢复出来