XGBoost

  XGBoost (eXtreme Gradient Boosting) 算法是在 CART 基础上对 Boosting 算法的一个改进,内部决策树采用回归树。由于 Boosting 算法在损失函数选择时有较大区别,例如选择平方损失函数,就是 Boosting Tree 的方式,每轮拟合残差。对于使用一般损失函数而言,可以采用 Gradient Boosting 的方式,根据梯度下降来拟合伪残差的近似值。 [Read More]

Adaboost

  Adaboost (Adaptive Boosting) 是一个通过逐步聚焦于基学习器犯错的样本、减少集成偏差的方法,其利用多个弱学习器的线性组合来达到一个强分类器的效果。Adaboost 的思想是:在算法中会对每一个样本赋予一个权重,在后续的训练中会提高前一轮被误分类的样本权重,而降低被正确分类的样本权重。既可以处理分类,也可以处理回归任务。对于弱学习器的分类任务,结合策略可以利用加权多数表决的方法,对于回归任务可以采用加权平均。 [Read More]

Neural Network

神经网络

  神经网络(Neural Network)是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。 [Read More]

Feature Selection

特征选择

  特征选择在特征提取得到的众多特征中选择有意义的特征输入机器学习的算法和模型进行训练。特征选择有三个目的: 简化模型,是模型更易于研究人员和用户理解。 可解释性不仅让我们对模型效果的稳定性有更多把握,也能为业务运营等工作提供指引和决策支持。 改善性能,节约存储和计算开销。 改善通用性、降低过拟合风险。 特征的增多会大大提高模型的搜索空间,大多数模型需要的样本数目随着特征数量的增加而显著增加,特征的增加虽然能更好地拟合训练数据,但也可能增加方差。 [Read More]