统计与概率基础 (待补充)

统计与概率基础 (待补充)


2019-03-04

线性代数

向量

定义: $v_{1} \left ( x_{1} , y_{1}\right )$, $v_{2} \left ( x_{2} , y_{2}\right )$

相加(减法同理): $v_{1} + v_{2} = \left ( x_{1} + y_{1}, x_{2} + y_{2} \right )$

点乘/点积: $v_{1} \cdot v_{2} =x{1} \times y_{1} + x_{2} \times y_{2}$

向量之间的距离: $\left | v_{1} v_{2} \right | = \sqrt{\left ( x_{2} - x_{1} \right )^{2} + \left ( y_{2} - y_{1} \right )^{2}}$

统计学

中心倾向

均值 (mean or average): $\left ( x_{1} + x_{2} + … + x_{n} \right ) / n$ ,均值对异常值反应比较明显。

中位数 (median): 有序的集合中,中间的数。如果总数量为偶数,就是中间两个数的平均值。

分位数 (quantile): 分位数表示少于数据中特定百分比的值。(中位数表示等于50%的一个值)

众数 (mode): 指出现最多的一个或多个数。

离散度

离散度是数据离散程度的一种度量。通常,如果它的值接近零,则表示数据聚集在一起。一个简单的度量是极差 (range) ,指最大的元素和最小元素的差。

方差 (variance): 是另一个度量离散度的方法,计算方法:所有元素减去总体均值的平方和处理样本数。除以 n(样本数) - 1 表示无偏方差?!

标准差 (standard deviation): 方差的平方根。

协方差 (convariance): 方差衡量了单个变量对均值的偏离程度,而协方差衡量了两个变量对均值的串联偏离程度。

辛普森悖论

指分析数据时可能会发生的意外。如果忽略了混杂变量,相关系数会有误导性。

相关系数其他注意事项:

相关系数为零表示两个变量之间不存在线性关系,但可能会存在其他形式的关系。

概率

不独立和独立

条件概率

贝叶斯定理

贝叶斯定理是条件概率的某种逆运算。

P(E|F) = P(E, F) / P(F) = P(F|E)P(E) / P(F)

由于: P(F) = P(F, E) + P(F, ^E)

所以:P(E|F) = P(F|E)P(E) / [P]