本文共 1006 字,大约阅读时间需要 3 分钟。
决策树是一种用于分类和回归分析的机器学习模型,其结构由三个主要组成部分定义:
决策树的核心目标是生成一棵具有强泛化能力的树木,即能够有效预测未见过的新样本。为实现这一目标,需要遵循以下步骤。
在决策树算法中,有三种情况会触发返回:
在第二种情况下,叶结点可设为样本中最多类别的类别;在第三种情况下,叶结点设为父结点中样本最多的类别。
信息熵是衡量数据纯度的重要指标,定义如下:
[ E_n(D) = -\sum_{k=1}^{|y|} p_k \log_2 p_k ]
其中,( p_k ) 是数据集中第k类样本所占比例。
信息增益衡量特征划分带来的纯度提升,公式为:
[ G_lain(D, a) = E_n(D) - \sum_{v=1}^V \frac{|D^v|}{|D|} E_n(D_v) ]
其中,( V ) 是特征的可能取值数。
为了减少对可取值数较多属性的偏好,使用增益率:
[ G_lain-ratio(D, a) = \frac{G_lain(D, a)}{I_V(a)} ]
[ I_V(a) = -\sum_{v=1}^V \frac{|D^v|}{|D|} \log_2 \frac{|D^v|}{|D|} ]
属性的增益率越高,划分越有意义。
CART算法使用基尼指数作为化分标准,公式为:
[ G_i(D) = \sum_{k=1}^{|y|} \sum_{k' \ne k} p_k p_{k'} ]
[ = 1 - \sum_{k=1}^{|y|} p_k^2 ]
基尼指数越小,节点纯度越高。
剪枝是减少决策树过拟合的关键手段。
在每次划分前,评估节点是否划分能提升泛化能力,不能的停止划分。
生成完整树后,从叶子开始评估每个非叶子节点是否能替换为叶节点,提升精度。
通过预剪枝和后剪枝,平衡过拟合与欠拟合,为决策树优化提供有效方法。
转载地址:http://zwxpz.baihongyu.com/