统计与概率基础 (待补充)
2019-03-04
线性代数
向量
定义: $v_{1} \left ( x_{1} , y_{1}\right )$, $v_{2} \left ( x_{2} , y_{2}\right )$
相加(减法同理): $v_{1} + v_{2} = \left ( x_{1} + y_{1}, x_{2} + y_{2} \right )$
点乘/点积: $v_{1} \cdot v_{2} =x{1} \times y_{1} + x_{2} \times y_{2}$
向量之间的距离: $\left | v_{1} v_{2} \right | = \sqrt{\left ( x_{2} - x_{1} \right )^{2} + \left ( y_{2} - y_{1} \right )^{2}}$
统计学
中心倾向
均值 (mean or average): $\left ( x_{1} + x_{2} + … + x_{n} \right ) / n$ ,均值对异常值反应比较明显。
中位数 (median): 有序的集合中,中间的数。如果总数量为偶数,就是中间两个数的平均值。
分位数 (quantile): 分位数表示少于数据中特定百分比的值。(中位数表示等于50%的一个值)
众数 (mode): 指出现最多的一个或多个数。
离散度
离散度是数据离散程度的一种度量。通常,如果它的值接近零,则表示数据聚集在一起。一个简单的度量是极差 (range) ,指最大的元素和最小元素的差。
方差 (variance): 是另一个度量离散度的方法,计算方法:所有元素减去总体均值的平方和处理样本数。除以 n(样本数) - 1 表示无偏方差?!
标准差 (standard deviation): 方差的平方根。
协方差 (convariance): 方差衡量了单个变量对均值的偏离程度,而协方差衡量了两个变量对均值的串联偏离程度。
辛普森悖论
指分析数据时可能会发生的意外。如果忽略了混杂变量,相关系数会有误导性。
相关系数其他注意事项:
相关系数为零表示两个变量之间不存在线性关系,但可能会存在其他形式的关系。
概率
不独立和独立
条件概率
贝叶斯定理
贝叶斯定理是条件概率的某种逆运算。
P(E|F) = P(E, F) / P(F) = P(F|E)P(E) / P(F)
由于: P(F) = P(F, E) + P(F, ^E)
所以:P(E|F) = P(F|E)P(E) / [P]