AI 的瞎咧咧:0️⃣ 问题抽象(数学视角)#
你原始数据是一个样本集合:
[
X = {x_1, x_2, \dots, x_n}
]
你只能存一小部分信息
目标不是“精确复原 (X)”,而是构造一个新样本集合:
[
\tilde{X} = {\tilde{x}_1, \dots, \tilde{x}_m}
]
使得:
- 分布形态尽量接近
- 一阶 / 二阶统计量接近
- 尾部和边界不炸
1️⃣ 平均值 & 标准差(一阶 / 二阶矩)#
定义#
[
\mu = \frac{1}{n}\sum x_i
]
[
\sigma = \sqrt{\frac{1}{n}\sum (x_i - \mu)^2}
]
数学意义#
- (\mu):位置(location)
- (\sigma):尺度(scale)
但它们只刻画“中心 + 离散程度”
完全不描述分布形状
👉 所以我们没有用“正态假设直接生成”,而是只把它们当 约束条件 / 噪声尺度。
2️⃣ 分位数(Quantiles)——形状的骨架#
定义#
p 分位数 (Q(p)) 满足:
[
P(X \le Q(p)) = p
]
你存的是:
[
Q(0), Q(0.05), Q(0.25), Q(0.5), Q(0.75), Q(0.95), Q(1)
]