2017国外优秀网站设计,做植物提取物好的推广网站,建筑施工组织设计毕业设计,百度推广助手app一、数据抽样
数据预处理阶段#xff1a;对数据集进行抽样可以帮助减少数据量#xff0c;加快模型训练的速度/减少计算资源的消耗#xff0c;特别是当数据集非常庞大时#xff0c;比如设置sample_rate0.8.平衡数据集#xff1a;通过抽样平衡正负样本#xff0c;提升模型…一、数据抽样
数据预处理阶段对数据集进行抽样可以帮助减少数据量加快模型训练的速度/减少计算资源的消耗特别是当数据集非常庞大时比如设置sample_rate0.8.平衡数据集通过抽样平衡正负样本提升模型性能。模型验证阶段可以通过对数据集进行抽样来生成训练集和验证集用于评估模型的泛化能力。快速原型开发在快速原型开发阶段可以对数据集进行抽样以便更快地构建和验证模型的基本功能。改善数据分布状态
阶段所在
数据探索阶段在数据探索阶段可以对数据集进行初步的抽样以了解数据的基本特征、分布情况和缺失情况帮助确定后续数据处理的方向。数据预处理阶段在数据预处理阶段对数据集进行抽样可以帮助简化数据、处理缺失值、处理异常值、进行特征工程等为模型训练做准备。模型训练阶段在模型训练阶段数据抽样可以用于生成训练集、验证集和测试集以及处理类别不平衡等问题有助于提高模型的性能和泛化能力。模型验证阶段在模型验证阶段可以通过数据抽样生成不同的训练集和验证集用于评估模型的性能调参和改进模型。
二、评估指标
1. 特征重要性Feature Importance
决策树和基于树的模型
Gini重要性基尼重要性在决策树、随机森林和梯度提升树如XGBoost、LightGBM中特征的重要性可以通过特征在树的分裂中所贡献的Gini指数减少量来衡量。每个特征的重要性是其在所有树中所贡献的Gini指数减少量的平均值。信息增益类似于Gini重要性信息增益衡量的是一个特征在树的分裂中所贡献的信息熵减少量。
2、回归系数
Ex:回归和逻辑回归
3、递归特征消除Recursive Feature Elimination, RFE
RFE是一种特征选择方法通过递归地训练模型并消除最不重要的特征直到剩下所需数量的特征。
4. 基于模型的特征选择Model-based Feature Selection
使用模型的特征选择方法如Lasso、Ridge回归等这些方法通过正则化来选择重要特征。
5. 互信息Mutual Information
互信息衡量的是两个变量之间的依赖关系。特征和目标变量之间的互信息越大说明该特征对目标变量的区分能力越强。
6. P值p-value
在统计学中P值用于检验特征变量与目标变量之间的相关性。较低的P值表示该特征对目标变量有显著影响。
7. 信息增益比Information Gain Ratio
信息增益比是信息增益的改进版本考虑了特征的固有值。它在决策树算法如C4.5中常用。
8. F值ANOVA F-value
F值用于分析方差ANOVA衡量特征与目标变量之间的线性关系。较高的F值表示特征对目标变量有显著影响。
9. Permutation Importance置换重要性
通过随机打乱特征值并观察模型性能的变化来评估特征重要性。特征值被打乱后模型性能下降越多说明该特征越重要。
三、分箱的目的和优势
数据简化
分箱可以将连续变量转换为分类变量从而简化数据的处理和分析。例如将年龄从一个连续变量分成几个年龄段如0-18岁、“19-35岁”、“36-50岁”、“50岁以上”。
处理噪声
通过分箱可以减少数据中的噪声。特别是对于有很多离散值的变量分箱可以平滑数据减少极端值对分析的影响。
特征工程
分箱是特征工程中的常用方法尤其是在信用评分和风险管理中。分箱后的变量可以用于计算WOE和IV从而帮助选择和转换特征。
提高模型稳定性
分箱可以提高模型的稳定性特别是在处理小样本数据时。通过将数据分箱可以减少过拟合的风险。
分箱的方法
等宽分箱Equal-width Binning
将数据按等宽度划分为若干个区间。例如如果数据范围是0到100分成5个等宽区间每个区间的宽度是20。
等频分箱Equal-frequency Binning
将数据按等频率划分为若干个区间每个区间包含相同数量的数据点。例如如果有100个数据点分成5个等频区间每个区间包含20个数据点。
自定义分箱Custom Binning
根据业务需求或数据分布自定义分箱的边界。例如信用评分中可能根据违约率的变化来定义分箱边界。
四、KS值Kolmogorov-Smirnov 统计量
是评估分类模型性能的一个重要指标特别是在信用评分和金融风险管理领域。它衡量了模型区分正类和负类样本的能力。具体来说KS值表示正类样本的累积分布函数CDF与负类样本的累积分布函数之间的最大差异。
KS曲线是两条线其横轴是阈值纵轴是TPR与FPR。两条曲线之间之间相距最远的地方对应的阈值就是最能划分模型的阈值。
KS值是MAX(TPR - FPR即两曲线相距最远的距离。 KS值的计算步骤
预测概率排序
按照模型输出的预测概率对样本进行排序。
计算累积分布函数CDF
计算正类样本如违约客户的累积分布函数。计算负类样本如非违约客户的累积分布函数。
计算最大差异
计算正类样本和负类样本的累积分布函数之间的最大差异这个差异即为KS值。
KS值的解释
KS值越大模型区分正类和负类样本的能力越强。KS值越小模型区分正类和负类样本的能力越弱。一般来说KS值在0.4到0.7之间表示模型性能较好0.7以上表示模型性能非常好低于0.3表示模型性能较差。
四、WOE编码
在信用评分和风控模型中WOE编码是一种常用的特征工程方法它将原始特征转换为一个新的特征以增强模型的解释性和预测性能。对各个特征进行 WOE 编码的主要目的是将原始特征转换为一个反映特征与目标变量如违约与否之间关系的数值。
WOE 编码的步骤
分箱Binning
首先将连续变量或分类变量分成若干个区间bins。分箱可以是等频分箱、等宽分箱或基于业务逻辑的分箱。例如将年龄分成 [18-25], [26-35], [36-45], [46-55], [56] 这样的区间。
计算每个分箱的好坏比率
对于每个分箱计算该分箱中好客户未违约和坏客户违约的比例。例如某个分箱中有 100 个客户其中 80 个是好客户20 个是坏客户那么好客户的比例是 80%坏客户的比例是 20%。
计算 WOE 值
对于每个分箱计算其 WOE 值。WOE 的公式如下 [ WOE \ln \left( \frac{\text{好客户比例}}{\text{坏客户比例}} \right) ]如果某个分箱的好客户比例为 80%坏客户比例为 20%则其 WOE 值为 [ WOE \ln \left( \frac{0.8}{0.2} \right) \ln (4) \approx 1.386 ]
将原始特征替换为 WOE 编码
将每个样本的原始特征值替换为其所在分箱的 WOE 值。例如如果一个客户的年龄在 [26-35] 区间并且该区间的 WOE 值为 0.5那么该客户的年龄特征将被替换为 0.5。
为什么使用 WOE 编码
线性关系
WOE 编码后的特征与目标变量之间通常具有更线性的关系这对线性模型如逻辑回归非常有利。
处理缺失值
WOE 编码可以自然地处理缺失值通过将缺失值视为一个单独的分箱来计算其 WOE 值。
减少数据噪音
通过分箱WOE 编码可以减少数据中的噪音使得模型更加稳定。
模型解释性
WOE 值具有明确的业务含义便于解释模型的结果。
五、比较坏账率
比较坏账率Bad Rate Comparison是指在不同的数据集或不同的时间段内对目标变量通常是二分类问题中的坏账率即负样本率进行比较以评估模型的稳定性和数据分布的变化。坏账率是指在某个数据集或某个时间段内目标变量为负类坏账的样本所占的比例。
比较坏账率的目的
评估模型性能
通过比较不同数据集如训练集、验证集、测试集或不同时间段内的坏账率可以评估模型在不同数据集上的表现是否一致从而判断模型的稳定性和泛化能力。
监控数据分布变化
坏账率的变化可能反映了数据分布的变化。如果坏账率在不同时间段内有显著变化可能需要重新训练模型或进行特征工程。
识别潜在问题
通过比较坏账率可以识别数据中的潜在问题如数据泄露、数据偏差等从而采取相应的措施进行修正。