发布网友 发布时间:2022-04-23 14:14
共1个回答
热心网友 时间:2023-10-17 21:18
#bad
#good
Woe
0-10
50
200
=ln((50/100)/(200/1000))=ln((50/200)/(100/1000))
10-18
20
200
=ln((20/100)/(200/1000))=ln((20/200)/(100/1000))
18-35
5
200
=ln((5/100)/(200/1000))=ln((5/200)/(100/1000))
35-50
15
200
=ln((15/100)/(200/1000))=ln((15/200)/(100/1000))
50以上
10
200
=ln((10/100)/(200/1000))=ln((10/200)/(100/1000))
汇总
100
1000
表中以age年龄为某个自变量,由于年龄是连续型自变量,需要对其进行离散化处理,假设离散化分为5组(至于如何分组,会在以后专题中解释),#bad和#good表示在这五组中违约用户和正常用户的数量分布,最后一列是woe值的计算,通过后面变化之后的公式可以看出,woe反映的是在自变量每个分组下违约用户对正常用户占比和总体中违约用户对正常用户占比之间的差异;从而可以直观的认为woe蕴含了自变量取值对于目标变量(违约概率)的影响。再加上woe计算形式与logistic回归中目标变量的logistic转换(logist_p=ln(p/1-p))如此相似,因而可以将自变量woe值替代原先的自变量值;