1、业务需求分许与特征数据选择。
理解业务需求,详细了解业务所涉及到的数据,此对数据进行不同维度的统计分析,确定选择大概的特征维度,进行下一部分数据分析探索。
2、数据分析与可视化。
对数据进行不同维度分析,对数据进行分箱统计分析,并利用可视化工具从直方图、散点图、热力图、柱状图等对数据进行可视化操作,找出明显数据维度和分布。并进行下一步建模探索。
3、数据清洗(空值、均值、离散)数据处理。
通过前置数据分析步骤后,需要对数据机型空值、均值、删除脏数据、离散数据Onehot/Label Encoding编码处理。
4、数据划分(训练、测试、验证)与归一化。
对数据集按比例划分训练、测试、验证数据集,一般按8:1:1划分,然后对数据进行归一化处理,部分机器学习算法也可以不需要归一化数据如(XGBOOST、LightGBM),建模人员可根据需求决定归一化操作。
5、模型建模训练与超参数搜索优化。
采用不同机器学习算法进行建模,喂入训练集、测试集合进行训练。并利用网格搜索、随机搜索、贝叶斯搜索等算法进行超参数探索与优化,根据需求设置不同损失函数、批次、学习率、节点权重、样本均衡等参数,最终获得最优训练权重和参数。
6、验证与测试。
对冻结的模型进行验证,测试,输出AUC、ACC、Precision、Recall、F1-score等指标参数,评估模型性能,达标后方可导出进行部署。
7、导出与部署。
计算器算法模型可以按需导出模型文件,配合预测代码开发形成HTTP/RPC调用接口,可打包成docker镜像也可以导出导出。深度学习算法模型一般可以导出权重和网络结构,根据场景进行开发部署。