FunnyWii
FunnyWii
Published on 2022-10-22 / 39 Visits
0
0

机器学习 - 决策树和随机森林(Decision Trees and Random Forest Classifiers)

决策树(Decision Trees)

对于决策树,目标变量是连续数值的,被称为回归树;若是离散值,被称为分类树。

决策树的组成

· 根结点(Root node):代表整个数据集或采样,并且可以被分为2个或多个同质的集合。
· 决策节点(Decision node):通过条件判断,决定如何分支。
· 分支/边缘(Branches/Edge):描述的是选项。
· 叶节点(Leaf):是树的终点,不再分支。

DecisionTree.png

Figure 1 Decision Tree

何时分支

分支策略依赖于数据集的特征,比如颜色,尺寸,形状,等等。

Cost Function

· Gini impurity
· 信息增益(Information Gain)
· Chi- Square
· Variance Reduction

信息增益可以被形容为:

I(x_k) = log \frac{1}{P_k} = -logP_k

X代表一个事件,P_k代表事件 X = x_k 发生的概率,I(x_k) 便是信息增益。

熵(Entropy)

熵值可以用来描述系统的混乱度,熵越高,代表系统越混乱。在决策树里,熵可以用来衡量传递信息的规模,熵越高,代表传递的信息越多。由上面得到的信息增益,熵可以被描述为:

H(X) = \Sigma_k p_kI(x_k) = -\Sigma_k p_klogP_k

在决策树中的熵

如何确定分支?

  1. 最高的信息增益
  2. 最低的熵
  3. 最少子节点

Information Gain = 父节点的Entropy - 子节点Entropy的加权和

但是要注意,在训练的过程中,很有可能出现overfitting的情况,即在每个叶节点,只有一个object
为了避免这种情况,有两种办法,一种是修剪:通过删除使用低重要性特征的分支。

一是对树的尺寸设限制:限制最大树深度,限制最大叶节点数量,限制分支时的最大特征种类,限制分支时最小采样数,限制叶节点最小采样。

Confusion Matrix (懵逼矩阵)

是一种描述分类(Classifier)性能的矩阵。

ConfusionMatrix.png

Figure 2 Confusion Matrix

以新冠病毒检测结果为例,
TP:阳性的人,被检测出了阳性,也就是我们的检测目标。
FP:健康的人,被检测出了阳性。假阳性,比如我。
TN:健康的人,被检测为阴性。
FN:阳性的人,被检测为阴性。假阴性,是漏网之鱼。

Accuracy = \frac{TP+TN}{TP+FN+FP+TN}
Recall = \frac{TP}{TP+FN}
Precision = \frac{TP}{TP+FP}
Fall-out = \frac{FP}{FP+TN}

如果 FN 太多,我们就说这种方法的 recall 很低,自然风险控制能力就很差(放走了携带病毒的人)

如果 FP 太多,我们就说这种方法的 precision 很低,自然这个方法就很浪费(把大量健康人当做携带者处理,成本激增)

如果想同时控制 recallprecision,就可以用到F - Measure:

F - measure = \frac{2*recall*precision}{recall+precision}

Area Under Curve (AUC) & Receiver Operating Characteristics (ROC)

ROC&AUC.png

Figure 3 ROC & AUC

ROC 是一条概率曲线。横轴代表False Positive Rate,纵轴代表True Positive Rate。
AUC 是ROC曲线投影的面积,表示模型分辨两个class的能力。
AUC越大,代表模型越好。

随机森林

随机森林是由很多个决策树构成的。
每个决策树都会输出一个结果,然后会进行一次投票,得票最多的结果会被认为是随机森林的输出。
随机森林内的树都是来自于同一个数据集,但是使用的数据集是随机采样的,因此会产生不同的树模型。

随机森林的超参数

n_estimators:模型中树的数量。
max_depth:模型中,树的最大深度。
min_samples_split:每次分支时,最小的采样数。
min_samples_leaf:每个叶节点需要有的最少的采样数。


Comment