C4.5 算法生成决策树的一种经典算法,是 ID3 的优化版本,主要进行了一下几个方面的优化:
通过信息增益率选择分裂属性,克服了ID3算法中通过信息增益倾向于选择拥有多个属性值的属性作为分裂属性的不足;
能够处理离散型和连续型的属性类型,即将连续型的属性进行离散化处理;
C4.5 处理连续特征是先将特征取值排序,以连续两个值中间值作为划分标准。
尝试每一种划分,并计算修正后的信息增益,选择信息增益比最大的分裂点作为该属性的分裂点。
构造决策树之后进行剪枝操作;
能够处理具有缺失属性值的训练数据。
[Read More]
Perceptron
感知机
Overfitting and Underfitting
过拟合与欠拟合
过拟合(Overfitting)是指模型对于训练数据拟合呈过当的情况,反映到评估指标上,就是模型在训练集上的表现很好,但在测试集和新数据上的表现较差。欠拟合(Underfitting)指的是模型在训练和预测时表现都不好的情况。
[Read More]
Plotly
```python
import plotly.figure_factory as ff
from plotly.offline import iplot
[Read More]
Norm
范数
范数是来衡量向量大小的一个指标,从形式上 $L^p$ 范数定义如下:
[Read More]
Regularization
正则化
正则化在机器学习中非常的重要,其是模型选择的典型方法。正则化不能提高模型在数据集上的效果,但是能提高泛化能力,解决过拟合问题。
[Read More]