数据预处理是对原始数据进行变换,使其满足模型训练的要求。这里总结处一下数据预处理的一般操作,方便自己回顾。一般来说数据预处理包括几点:
缺失值处理
异常值处理
标准化处理
平滑处理
采样
数据不平衡的处理
[Read More]
用户画像
References
用户画像练手
用户画像技术
用户画像
用户画像 总文章
用户画像从0到100的构建思路
Field-aware Factorization Machines
场感知因子分解机 (FFM)
场感知因子分解机(Field-aware Factorization Machine,FFM)就是在因子分解机上加入了场的概念。FM 中一个特征只对应一个隐向量,而在实际场景中特征和不同场的特征交互时应该使用不同的向量,这就是 FFM 的创作动机。
[Read More]
XGBoost
XGBoost (eXtreme Gradient Boosting) 算法是在 CART 基础上对 Boosting 算法的一个改进,内部决策树采用回归树。由于 Boosting 算法在损失函数选择时有较大区别,例如选择平方损失函数,就是 Boosting Tree 的方式,每轮拟合残差。对于使用一般损失函数而言,可以采用 Gradient Boosting 的方式,根据梯度下降来拟合伪残差的近似值。
[Read More]
Adaboost
Adaboost (Adaptive Boosting) 是一个通过逐步聚焦于基学习器犯错的样本、减少集成偏差的方法,其利用多个弱学习器的线性组合来达到一个强分类器的效果。Adaboost 的思想是:在算法中会对每一个样本赋予一个权重,在后续的训练中会提高前一轮被误分类的样本权重,而降低被正确分类的样本权重。既可以处理分类,也可以处理回归任务。对于弱学习器的分类任务,结合策略可以利用加权多数表决的方法,对于回归任务可以采用加权平均。
[Read More]
Neural Network
神经网络
神经网络(Neural Network)是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。
[Read More]