机器学习 -- 结构化数据建模

采用机器学习算法(逻辑回归、随机森林、SVM、GDBT、XGBOOST、LightGBM等算法)对结构化数据进行建模、训练、预测,增强数据挖掘能力。一般与不同公司业务强相关,需要根据不同公司业务数据进行定制。机器学习建模分为几个步骤:1、业务需求分许与特征数据选择。2、数据分析与可视化。3、数据清洗(空值、均值、离散)数据处理。4、数据划分(训练、测试、验证)与归一化。5、模型建模训练与超参数搜索优化。6、验证与测试。7、导出与部署。

1、业务需求分许与特征数据选择。

理解业务需求,详细了解业务所涉及到的数据,此对数据进行不同维度的统计分析,确定选择大概的特征维度,进行下一部分数据分析探索。

2、数据分析与可视化。

对数据进行不同维度分析,对数据进行分箱统计分析,并利用可视化工具从直方图、散点图、热力图、柱状图等对数据进行可视化操作,找出明显数据维度和分布。并进行下一步建模探索。

3、数据清洗(空值、均值、离散)数据处理。

通过前置数据分析步骤后,需要对数据机型空值、均值、删除脏数据、离散数据Onehot/Label Encoding编码处理。

4、数据划分(训练、测试、验证)与归一化。

对数据集按比例划分训练、测试、验证数据集,一般按8:1:1划分,然后对数据进行归一化处理,部分机器学习算法也可以不需要归一化数据如(XGBOOST、LightGBM),建模人员可根据需求决定归一化操作。

5、模型建模训练与超参数搜索优化。

采用不同机器学习算法进行建模,喂入训练集、测试集合进行训练。并利用网格搜索、随机搜索、贝叶斯搜索等算法进行超参数探索与优化,根据需求设置不同损失函数、批次、学习率、节点权重、样本均衡等参数,最终获得最优训练权重和参数。

6、验证与测试。

对冻结的模型进行验证,测试,输出AUC、ACC、Precision、Recall、F1-score等指标参数,评估模型性能,达标后方可导出进行部署。

7、导出与部署。

计算器算法模型可以按需导出模型文件,配合预测代码开发形成HTTP/RPC调用接口,可打包成docker镜像也可以导出导出。深度学习算法模型一般可以导出权重和网络结构,根据场景进行开发部署。