统计与概率基础 (待补充)

统计与概率基础 (待补充)


2019-03-04

线性代数

向量

定义: v1(x1,y1), v2(x2,y2)

相加(减法同理): v1+v2=(x1+y1,x2+y2)

点乘/点积: v1v2=x1×y1+x2×y2

向量之间的距离: |v1v2|=(x2x1)2+(y2y1)2

统计学

中心倾向

均值 (mean or average): (x1+x2++xn)/n ,均值对异常值反应比较明显。

中位数 (median): 有序的集合中,中间的数。如果总数量为偶数,就是中间两个数的平均值。

分位数 (quantile): 分位数表示少于数据中特定百分比的值。(中位数表示等于50%的一个值)

众数 (mode): 指出现最多的一个或多个数。

离散度

离散度是数据离散程度的一种度量。通常,如果它的值接近零,则表示数据聚集在一起。一个简单的度量是极差 (range) ,指最大的元素和最小元素的差。

方差 (variance): 是另一个度量离散度的方法,计算方法:所有元素减去总体均值的平方和处理样本数。除以 n(样本数) - 1 表示无偏方差?!

标准差 (standard deviation): 方差的平方根。

协方差 (convariance): 方差衡量了单个变量对均值的偏离程度,而协方差衡量了两个变量对均值的串联偏离程度。

辛普森悖论

指分析数据时可能会发生的意外。如果忽略了混杂变量,相关系数会有误导性。

相关系数其他注意事项:

相关系数为零表示两个变量之间不存在线性关系,但可能会存在其他形式的关系。

概率

不独立和独立

条件概率

贝叶斯定理

贝叶斯定理是条件概率的某种逆运算。

P(E|F) = P(E, F) / P(F) = P(F|E)P(E) / P(F)

由于: P(F) = P(F, E) + P(F, ^E)

所以:P(E|F) = P(F|E)P(E) / [P]