模型部署(6)XGBoost4J

分布式 XGBoost4J - Spark 基本原理

XGBoost4J-Spark是一个项目,旨在通过使XGBoost适应Apache Spark的MLLIB框架,无缝集成XGBoost和Apache Spark。通过集成,用户不仅可以使用XGBoost的高性能算法实现,还可以利用Spark强大的数据处理引擎实现以下功能:

  • 特征工程:特征提取,变换,降维和选择等。
  • 管道:构造,评估和调整ML管道
  • 持久性:持久化并加载机器学习模型,甚至整个管道

本文将介绍使用XGBoost4J-Spark构建机器学习管道的端到端过程。讨论

  • 使用Spark预处理数据以适合XGBoost / XGBoost4J-Spark的数据接口
  • 使用XGBoost4J-Spark训练XGBoost模型
  • 使用Spark服务XGBoost模型(预测)
  • 使用XGBoost4J-Spark构建机器学习管道
  • 在生产中运行XGBoost4J-Spark

参考文献