1.10.决策树#-恶搞世界杯-世界杯乒乓球赛_2014世界杯十佳球

1.10.决策树#

2025-09-11 01:52:07 by admin 恶搞世界杯

1.10.7. 数学公式#

给定训练向量 \(x_i \in R^n\) (i=1,…, l) 和标签向量 \(y \in R^l\)，决策树递归地划分特征空间，使得具有相同标签或相似目标值的样本被分组在一起。

令节点 \(m\) 处的数据表示为 \(Q_m\)，包含 \(n_m\) 个样本。对于每个候选分裂 \(\theta = (j, t_m)\)，由特征 \(j\) 和阈值 \(t_m\) 组成，将数据划分为 \(Q_m^{left}(\theta)\) 和 \(Q_m^{right}(\theta)\) 子集

\[ \begin{align}\begin{aligned}Q_m^{left}(\theta) = \{(x, y) | x_j \leq t_m\}\\Q_m^{right}(\theta) = Q_m \setminus Q_m^{left}(\theta)\end{aligned}\end{align} \]

然后使用不纯度函数或损失函数 \(H()\) 计算节点 \(m\) 的候选分裂的质量，其选择取决于正在解决的任务（分类或回归）。

\[G(Q_m, \theta) = \frac{n_m^{left}}{n_m} H(Q_m^{left}(\theta)) + \frac{n_m^{right}}{n_m} H(Q_m^{right}(\theta))\]

选择最小化不纯度的参数

\[\theta^* = \operatorname{argmin}_\theta G(Q_m, \theta)\]

对子集 \(Q_m^{left}(\theta^*)\) 和 \(Q_m^{right}(\theta^*)\) 进行递归，直到达到最大允许深度，\(n_m < \min_{samples}\) 或 \(n_m = 1\)。

1.10.7.1. 分类准则#

如果目标是一个分类结果，取值为 0,1,…,K-1，对于节点 \(m\)，令

\[p_{mk} = \frac{1}{n_m} \sum_{y \in Q_m} I(y = k)\]

为节点 \(m\) 中类别 k 观测值的比例。如果 \(m\) 是一个叶节点，该区域的 predict_proba 被设置为 \(p_{mk}\)。常见的不纯度度量如下：

基尼（Gini）

\[H(Q_m) = \sum_k p_{mk} (1 - p_{mk})\]

对数损失或熵

\[H(Q_m) = - \sum_k p_{mk} \log(p_{mk})\]

香农熵#

熵准则计算可能类别的香农熵。它将到达给定叶节点 \(m\) 的训练数据点的类别频率作为其概率。将**香农熵用作树节点分裂准则等同于最小化**真实标签 \(y_i\) 与树模型 \(T\) 对类别 \(k\) 的概率预测 \(T_k(x_i)\) 之间的**对数损失**（也称为交叉熵和多项偏差）。

为了理解这一点，首先回顾一下在数据集 \(D\) 上计算的树模型 \(T\) 的对数损失定义如下：

\[\mathrm{LL}(D, T) = -\frac{1}{n} \sum_{(x_i, y_i) \in D} \sum_k I(y_i = k) \log(T_k(x_i))\]

其中 \(D\) 是包含 \(n\) 对 \((x_i, y_i)\) 的训练数据集。

在分类树中，叶节点内的预测类别概率是常数，即：对于所有 \((x_i, y_i) \in Q_m\)，对于每个类别 \(k\)，都有：\(T_k(x_i) = p_{mk}\)。

此属性使得可以将 \(\mathrm{LL}(D, T)\) 重写为为 \(T\) 的每个叶节点计算的香农熵之和，并根据到达每个叶节点的训练数据点数量进行加权。

\[\mathrm{LL}(D, T) = \sum_{m \in T} \frac{n_m}{n} H(Q_m)\]

1.10.7.2. 回归准则#

如果目标是连续值，那么对于节点 \(m\)，用于确定未来分裂位置的常见最小化准则有均方误差（MSE 或 L2 误差）、泊松偏差以及平均绝对误差（MAE 或 L1 误差）。MSE 和泊松偏差都将叶节点的预测值设置为节点的学习平均值 \(\bar{y}_m\)，而 MAE 则将叶节点的预测值设置为中位数 \(median(y)_m\)。

均方误差

\[ \begin{align}\begin{aligned}\bar{y}_m = \frac{1}{n_m} \sum_{y \in Q_m} y\\H(Q_m) = \frac{1}{n_m} \sum_{y \in Q_m} (y - \bar{y}_m)^2\end{aligned}\end{align} \]

平均泊松偏差

\[H(Q_m) = \frac{2}{n_m} \sum_{y \in Q_m} (y \log\frac{y}{\bar{y}_m} - y + \bar{y}_m)\]

如果您的目标是计数或频率（每单位计数），则将 criterion="poisson" 设置为一个不错的选择。无论如何，\(y >= 0\) 是使用此准则的必要条件。请注意，它的拟合速度比 MSE 准则慢得多。出于性能原因，实际实现最小化的是半平均泊松偏差，即平均泊松偏差除以 2。

平均绝对误差

\[ \begin{align}\begin{aligned}median(y)_m = \underset{y \in Q_m}{\mathrm{median}}(y)\\H(Q_m) = \frac{1}{n_m} \sum_{y \in Q_m} |y - median(y)_m|\end{aligned}\end{align} \]

请注意，它的拟合速度比 MSE 准则慢得多。