主要梳理一下机器学习所用到的对应的库和算法工具,像 Sklearn,XGBoost,LightGBM,CatBoost,LibSVM,LibLinear,MLlib 等。

1. Sklearn

2. XGBoost

DMatrix

  DMatrix:由 XGBoost 内部使用的数据结构,它存储了数据集,并且针对了内存消耗和训练速度进行了优化。

3. LightGBM

Spark MLlib