统计与概率基础 (待补充)
2019-03-04
线性代数
向量
定义:
相加(减法同理):
点乘/点积:
向量之间的距离:
统计学
中心倾向
均值 (mean or average):
中位数 (median): 有序的集合中,中间的数。如果总数量为偶数,就是中间两个数的平均值。
分位数 (quantile): 分位数表示少于数据中特定百分比的值。(中位数表示等于50%的一个值)
众数 (mode): 指出现最多的一个或多个数。
离散度
离散度是数据离散程度的一种度量。通常,如果它的值接近零,则表示数据聚集在一起。一个简单的度量是极差 (range) ,指最大的元素和最小元素的差。
方差 (variance): 是另一个度量离散度的方法,计算方法:所有元素减去总体均值的平方和处理样本数。除以 n(样本数) - 1 表示无偏方差?!
标准差 (standard deviation): 方差的平方根。
协方差 (convariance): 方差衡量了单个变量对均值的偏离程度,而协方差衡量了两个变量对均值的串联偏离程度。
辛普森悖论
指分析数据时可能会发生的意外。如果忽略了混杂变量,相关系数会有误导性。
相关系数其他注意事项:
相关系数为零表示两个变量之间不存在线性关系,但可能会存在其他形式的关系。
概率
不独立和独立
条件概率
贝叶斯定理
贝叶斯定理是条件概率的某种逆运算。
P(E|F) = P(E, F) / P(F) = P(F|E)P(E) / P(F)
由于: P(F) = P(F, E) + P(F, ^E)
所以:P(E|F) = P(F|E)P(E) / [P]