通过具体的项目案例,学习如何分析数据和业务问题。
以下是社区成员的作业。本文最终将对项目进行修改,以提高您的分析思维。
一.项目数据介绍
数据来 ** 拍贷真实业务数据。拍拍贷是美国纽交所上市公司。成立于2007年6月遵从金融本质,以数据为基石,用创新技术为用户提供最便捷可得的借款撮合服务,拍拍贷平台借款端服务包括面向广大个人用户的通用性借款和其他借款。
从201515-01-01-2017-01-30所有信用标的10%s样本。从下载的三个文件中选择我们需要使用的文件LCIS excel文件。
这个excel文件中有37个字段,69个字段MB,292539条信用记录。以下是每个字段的含义:
二.业务指标
如果你不能衡量它,你就不能有效地增加它。那么测量工具就是业务指标。有指标吗?
当然不是。指标也可以分为好指标和坏指标。好的指标应该是核心指标,比指标才有意义。
没有意义的指标一定是坏指标,比如虚荣指标,只关注下载量、阅读量,不关注真正的转化率,后验指标和过于复杂的指标都是坏指标。
金融业风险业务指标尤为关键。风险业务指标包括:逾期天数DPD、逾期、逾期、即期、递延、月底结算、期末结算、延迟、不良贷款率、转账率、净损失率FPD(首次逾期还款)。
以下是我整理的金融业指标:
三、提问和分析思路
互联网金融业、逾期和不良资产问题一直是影响企业财务报告和业绩发展的绊脚石。
这一次,我想重点研究各维度逾期比例较高的特点,依次获得不诚实客户的整体特点,帮助企业尽可能避免此类问题。并分析各维度的不良贷款和贷款比例,为企业提出有效的参考意见。
分析用户维度和业务维度。
用户维度:
1)初始认证等级、年龄、性别、、年龄、性别、学历等维度的逾期比例分布如何?
2)不诚实用户行为分析,是否开设淘宝店,是否有信用报告,是否完成户籍认证,是否完成视频认证,是否第一次逾期贷款比例?
业务维度:
1)不同的年龄和性别会对还款能力和还款意愿产生什么影响?以及各年龄段和性别的贷款比例?
2)不良贷款率与不同的初始评级有什么关系?以及每个初始评级的贷款比例?
3)不同的贷款属性(类型、利率、金额、期限)会影响还款吗?以及各种贷款属性的贷款比例?
基于以上信息,我根据以下思路分析了用户肖像和不良贷款率两个业务指标。
选择以下16个维度分析数据:贷款金额、贷款期限、贷款利率、初始评级、贷款类型、第一标准、年龄、性别、手机认证、户籍认证、视频认证、学术认证、信用认证、淘宝认证、标准当前逾期天数、本金。
四、数据清洗
1.将excel导入文件中的数据mysql中
2.为便于分析,重命名问中文3.处理空值和重复值在记录日期限制下,检查发现客户号有106个重复值。
执行上述句子,再次检查新表中的空值和重复值。
4.异常值处理检查发现手机认证、户口认证、记录日期异常
删除异常值并获得处理表lcisnew,共291230列。
五.数据分析
1.用户维度逾期用户肖像分析用户的基本信息,包括初始评级、年龄、性别、教育分布
1)初始评级逾期占比分布
使用sql获得分析结果,然后导出excel绘制图表,完成可视化。
从上图可以得出结论:
初始评级为E逾期用户比例最大,其次是D、F、C,评级最高的AAA和AA基本没有逾期。
2)年龄段逾期分布
据统计,各年龄段逾期比例相对平均,徘徊在4%左右,但这些刚成年的年轻人在18-22岁之间逾期最为严重。
3)性别逾期分布
从分析结果可以看出,在性别分类中,男女逾期比例的差异不是很明显,男性4%比女性多一个百分点。
4)学历逾期分布
从分析结果可以看出,逾期比例的差异在是否完成学历认证中也不是很明显。当然,完成学历认证的用户逾期比例稍小。
逾期用户肖像分析用户行为属性,包括淘宝认证、户籍认证、手机认证、视频认证、信用调查认证、是否第一次贷款分配。
1)淘宝认证逾期分布
2)逾期户口认证比例分布
3)手机认证逾期分布
4)视频认证逾期分布
5.逾期征信认证比例分布
6)首标是否逾期分布
可视化上述六个用户行为属性维度的结果:
对比以上六个维度可以得出结论:
已完成淘宝店主认证的用户逾期比例小于未完成淘宝店主认证的用户逾期比例,第一标准是否基本不影响逾期情况。
此外,户籍、手机、信用认证成功的逾期比例高于未认证成功的逾期比例,这让我非常惊讶,其中信用认证成功的逾期比例远高于未成功的比例。
这么多比例高的原因是什么?
接下来,试着找出这种差异的原因。
据统计,96%的拍卖贷款平台用户尚未完成信用认证。逾期比例占=逾期数量/总数。也就是说,未经认证的总数是分母非常大,所以占比足够低也就不足为奇了。
那么对于学历、户口认证、征信认证、视频认证、手机认证、淘宝店主等信息形成的逾期用户画像,我们还需要更全面的数据才能展开分析。
用户肖像维度分析总结
1)逾期用户主要集中在18-22岁之间,这些刚刚成年的年轻人最严重。可能的原因是大多数人都是学生或刚刚进入社会的学生。他们过度提前消费,提高生活质量,导致逾期。
2)逾期用户多为初始评级E二是用户D、F、C,评级最高的AAA和AA基本没有逾期。
3)在性别差异和学历方面,男女逾期比例差异不是很明显,男性4%比女性逾期比例多一个百分点。完成学历认证后,大专以上学历低于未完成认证的逾期比例。
2.业务维度分析
我们从用户肖像维度进行分析,然后从业务维度进行分析。
1)不良贷款率随记录时间变化趋势
从图中可以看出,2016年,中国互联网金融业经历了各种重大事件,随后国家出台了更严格的监管手段,互联网金融业的马太效应也显示出来。前排企业占大部分市场份额,交易增长明显放缓。数据显示,2016年下半年,拍卖贷款资产不良率逐步提高,直至2017年初达到7.38%。
2)不良贷款率与年龄组、性别之间的相关性分析,以及根据年龄组和性别的贷款比例
年龄组和性别的贷款比例
数据可视化结果:
从图中得出:
不良贷款率在42-50岁范围内最高达6.88%,35-42不良率也是6.36%的比例,不良率最高为42-50岁,相应的贷款比例为7.16%,35-42岁,相应贷款比例为17%,不良贷款比例超过6%。这对控制整体逾期风险非常不利。因此,应特别注意降低该年龄段的不良率或控制该年龄段的贷款数量,以降低风险。理想的不良率和贷款比例参数应为负相关。也就是说,随着不良率的不断上升,相应的贷款比例应该越低,以确保合理的风险控制。男性不良贷款率高于女性,男性贷款比例处于绝对优势。建议该平台可以将更多的贷款比例放给女性,以平衡风险。2)分析不良贷款率与初始评级的相关性,按初始评级的贷款比例
由图可见:
放贷70%比例集中在初始评级为B和C评级最低的用户F,最小贷款额为0.09%,E也仅仅只有0.69%。拍拍贷款的评级指标和贷款比例在风险控制方面相对科学合理。B优秀用户作为平台的主要用户群,不良率低于4%,贷款总额接近一般,是合理的选择AAA级别用户的贷款比例很低,可以大力发展。同时,整体上去除AA和AAA从用户开发的角度来看,不良率与贷款比例基本负相关,属于坏账控制的合理结构D级用户和C在级别用户的贷款比例上,仍有合理的压缩空间。3)分析不良贷款率与贷款类型、利率、金额、期限、贷款比例的相关性
不良贷款率与贷款类型的相关性分析,贷款类型的贷款比例
不良贷款利率与贷款利率的相关性分析,以及贷款利率的比例。利率分组(7-10、10-13、13-16、16-19、19-22、22-24)
不良贷款率与贷款金额的相关性分析,以及贷款金额的贷款比例。贷款金额分组(<12000-80000,8000-20000,20000-50000-80000,8000-1200000-2000000,200000-300000,>=300000)
不良贷款率与贷款期限的相关性分析,以及贷款期限的贷款比例。
数据可视化分析结果:
由图可见,
在贷款类型中,应收安全目标的不良率最低,几乎为0。应收安全目标是拍拍贷款平台上的一种贷款目标。用户保证自己在拍拍贷款站的应收账款".应收账款大于贷款金额";条件。电子商务类型的不良率超过60%,在贷款比例方面,电子商务类型的贷款比例约为28%。因此,除电子商务类型外,还应注意开发更多的贷款类型,以降低电子商务贷款的比例和风险。在13-16的贷款利率范围内,不良贷款利率达到16%,25%的贷款利率较高。总体而言,拍拍贷款平台的贷款利率主要为13-19。利率7-10和13-16的用户不良率相对最高,还款意愿较差。总的来说,随着贷款金额的增加,不良率呈上升趋势,其中20w-30w不良率最高,大于30w上述不良率相对较低。原因需要进一步分析。贷款金额的不良率与整体贷款比例负相关,符合降低风险的要求。贷款期限的不良率与贷款比例的负相关性较差,它可能无法有效地降低风险,超过80%的贷款贡献是半年和一年的短期贷款,通常是营运资金,快速还款,这可能是由平台的用户分类决定的。我们需要更多的数据来支持这些短期贷款的具体用途和用户特征。.分析、总结和建议1.逾期用户肖像
1)逾期用户主要集中在18-22岁之间,这些刚刚成年不久的年轻人逾期情况最为严重。这各人群大部分是在校学生或者刚刚步入社会的,他们在缺乏稳定收入的情况下,过度超前消费提升生活品质,导致逾期的发生。
2)逾期用户多为初始评级E二是用户D、F、C。逾期用户更有可能是男性。未完成学历认证。
对于逾期用户肖像,我们还需要更具体、更有效的数据来更好地描述用户。建议平台根据逾期用户肖像更仔细地开展业务。
2.不良贷款率在不同维度下的相关性1)年龄在35-50岁范围内,不良贷款率相对较高,而女性用户的不良贷款率较低,还款意向较强。35-50岁,不良率高,贷款比例高。
为降低风险,建议降低该年龄段的不良率或控制该年龄段的贷款数量。
2)评级方面,平台贷款超过70%B和C用户的初始评级E、D、F三级最低的用户,不良贷款率也最高,逾期发生的可能性也最高。
这跟平台的评级体系一致。建议压缩C和D贷款量,发展更多AA,AAA级别用户贷款需求。
3)在贷款属性方面,贷款类型应收安全标准,不良率最低,电子商务逾期的可能性最高,贷款比例较高。鉴于不良率与贷款比例负相关,建议减少贷款数量。
在利率中,7-10的最低利率相对最高,违约的可能性更高;贷款总额越高,不良率越高。
在贷款期限方面,平台的主要用户主要是半年和一年的短期贷款,其中24、12、6、7的贷款期限不良率较高,违约的可能性较大。
以上项目来自社区会员未优化前的内容
(https://zhuanlan.zhihu.com/p/61 ** 9855)
以下是项目修改意见:
1.未构建用户画像。
虽然用户肖像的每个部分都是分开的,但没有总结用户肖像的逾期贷款。肖像是一个人的三维,你把他分开,你不知道逾期的具体情况,只能看到部分。
三维输出怎么样?
相当于一个人,然后你要做一个总结,逾期率高的人,年龄,学历等等。
2分析要深入找出具体原因,如何深入分析?
例如,如果数据分析结果发现男性的逾期率高于女性,该问自己为什么?
这和学历有关吗?与注册有关?数据是相关的,而不是独立的,所以要深入分析,多问为什么。
这里没有深入分析,因为你每天都犯主观错误然就觉得男性逾期率更高,而不去探究他的具体原因。
每做出一个结论,就打一个问号?为什么是这样?然后去分析一下,这也是数据分析中的批判性思维。
应该每个结论都问一下为什么会这样?导致这样的结果有哪些影响因素?再去分析一下,锻炼你的分析思维,不然你的结论就会停留在表层,显得很鸡肋。
例如18-22岁的逾期率更高,这恐怕从事银行行业1年的人都会知道,你每次都只是得出这么表层的结论,那银行要你来干嘛!所以你要更深入分析这个原因,给出更好的解决方法来。
3.建议给的太浅,不具有执行性
比如18-22岁的人刚出校园,发生逾期率高,应该怎么处理?这个你应该思考一下。
用户画像出来,建议给的不好,解决的都是浅层次的问题。
更深的层次的应该是做一个逾期用户画像他的目标是什么?他要解决什么问题?
做个假设,既然用户画像都有了,为什么不建个信贷用户风险体系呢?每个点都设个分数,然后得出总分,最后来把用户分等级,例如年龄18-22,为9分,初始评级E为9分,最后把这些项目得出总分来,就是这个人的用户画像的。
比如超过70分的就不贷,或者限制贷款数量等等。每个人都给以不同的贷款等级。所以建议你做个信贷用户风险分析,你那些建议都是很浅层的,不能根本解决信贷公司的问题。
4.对数据不够敏感
比如分析中说3%-4%觉得不明显,这其实在统计上都是30%的差异了。
做项目的过程就是一个不断优化学习的过程,希望社群内部的讨论和建议可以帮助社群会员更好的完善项目。
推荐:如何用最短的时间找到初级数据分析师工作?
扫码咨询与免费使用
申请免费使用