模型部署(6)XGBoost4J
分布式 XGBoost4J - Spark 基本原理
XGBoost4J-Spark是一个项目,旨在通过使XGBoost适应Apache Spark的MLLIB框架,无缝集成XGBoost和Apache Spark。通过集成,用户不仅可以使用XGBoost的高性能算法实现,还可以利用Spark强大的数据处理引擎实现以下功能:
- 特征工程:特征提取,变换,降维和选择等。
- 管道:构造,评估和调整ML管道
- 持久性:持久化并加载机器学习模型,甚至整个管道
本文将介绍使用XGBoost4J-Spark构建机器学习管道的端到端过程。讨论
- 使用Spark预处理数据以适合XGBoost / XGBoost4J-Spark的数据接口
- 使用XGBoost4J-Spark训练XGBoost模型
- 使用Spark服务XGBoost模型(预测)
- 使用XGBoost4J-Spark构建机器学习管道
- 在生产中运行XGBoost4J-Spark