【数据建模 类别型变量编码】特殊变量的处理

对类别型变量编码

1. one-hot编码
2. 浓度编码

这里需要详细讲下浓度编码:
某类别型特征下,每一类数据对应的流失率或者是违约率(也可以是非流失率或者非违约率)作为这类数据的编码。
例如性别这个特征:男性人数为x1,男性中流失人数x11,女性人数x2,女性中流失人数x22。
那么我们以x11/x1作为男性编码;x22/x2作为女性编码。

WOE编码

对日期/时间型变量

时间是否为一个节日,是否在一个时间段(类别型);或者计算距离某个日子变成间隔型;或者某个时间段内发生了多少次变成组合型等等;这个需要结合具体应用场景。使其变成离散型。

可以基于某个基准日期,转化为天数
以观察点为基准,将所有开户日期转为距离观察点的天数(month-on-book)

外部数据包含了客户在电信运营商的详情
包括:

通话时间与次数
话费详情
特定的呼叫行为
其他信息

可以衍生的特征
月平均通话时间的变化=过去三个月月平均通话时间 − 过去六个月月平均通话时间
月平均通话次数的变化=过去三个月月平均通话次数 − 过去六个月月平均通话次数
月平均缴纳话费的变化=过去三个月月平均缴纳话费 − 过去六个月月平均缴纳话费

已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 编程工作室 设计师:CSDN官方博客 返回首页