机器学习

1、业务需求分许与特征数据选择。

理解业务需求，详细了解业务所涉及到的数据，此对数据进行不同维度的统计分析，确定选择大概的特征维度，进行下一部分数据分析探索。

对数据进行不同维度分析，对数据进行分箱统计分析，并利用可视化工具从直方图、散点图、热力图、柱状图等对数据进行可视化操作，找出明显数据维度和分布。并进行下一步建模探索。

通过前置数据分析步骤后，需要对数据机型空值、均值、删除脏数据、离散数据Onehot/Label Encoding编码处理。

对数据集按比例划分训练、测试、验证数据集，一般按8:1:1划分，然后对数据进行归一化处理，部分机器学习算法也可以不需要归一化数据如（XGBOOST、LightGBM）,建模人员可根据需求决定归一化操作。

采用不同机器学习算法进行建模，喂入训练集、测试集合进行训练。并利用网格搜索、随机搜索、贝叶斯搜索等算法进行超参数探索与优化，根据需求设置不同损失函数、批次、学习率、节点权重、样本均衡等参数，最终获得最优训练权重和参数。

对冻结的模型进行验证，测试，输出AUC、ACC、Precision、Recall、F1-score等指标参数，评估模型性能，达标后方可导出进行部署。

计算器算法模型可以按需导出模型文件，配合预测代码开发形成HTTP/RPC调用接口，可打包成docker镜像也可以导出导出。深度学习算法模型一般可以导出权重和网络结构，根据场景进行开发部署。