欢迎访问中企信办信用工作办公室,今天是2024年12月22日,星期日

线上线下融合的大数据风险建模

互联网以及随之产生的大数据开启了一次重大的时代转型,并逐渐渗透和改变着我们的商业、生活以及理解世界的方式,仿佛一夜之间,大数据就成了几乎全民关注的热词。毋庸置疑,大数据正在成为新发明和新服务的源泉,而且酝酿着更多的改变。那么,问题来了,什么是大数据?有何特别?如何运用和发展?


一、大数据基础


大数据指的是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和关联形态上的颠覆性变化的总和。有一个普遍且常见的误解是:大数据=数据大,而事实上,除了数据量大这个字面意义,大数据还有两个更重要的特征:一是跨领域数据的交叉融合。相同领域数据量的增加是加法效应,不同领域数据的融合是乘法效应;二是数据的流动。数据必须流动,流动产生价值。到了今天的互联网时代,我们发现即使企业已经打通了内部各个部门之间的数据,但与整个互联网比起来,数据量仍然微乎其微,数据应该以互联网为媒介在企业之间某种形式的流动。


大数据的起源要归功于互联网与电子商务,但大数据最大的应用前景却在传统产业。一是因为几乎所有传统产业都在互联网化,二是因为传统产业仍然占据了国家国内生产总值的绝大部分份额。哪些传统企业最需要大数据服务呢?金融行业绝对是其中之一。首先,金融业并不销售任何实体商品,它自诞生起就是基于数据的产业。其二,由于国家管制,金融业在前几年享受了非常好的政策红利,内部变革动力不足。而目前金融业已经逐渐开始放松管制,新兴的金融机构必将利用互联网以及大数据工具向传统金融巨头发起猛烈攻击。传统金融机构在互联网方面的技术积累和数据积累都不足,要快速应对新进入者的挑战,必然需要大数据服务。其三,社会对普惠金融的需求日盛,以前被传统金融机构忽视的“屌丝市场”正在以小而美的中长尾效应吸引更多的民间金融力量涌入。


二、大数据征信


自去年以来,国家密集出台开展社会信用体系建设的各种规划和实施意见。由此预判,未来几年,应该是在国家主导下、在市场机构的参与下,共同探索和建立全民社会信用体系。目前,中国的零售金融领域以及征信领域,落后于美国二三十年,但是互联网领域却只和美国相差两三年,甚至在某些细分领域还领先于美国。这样的差距以及中国巨大的市场机会,使得中国的金融发展不会走和美国相同的路径,而是会利用最先进的技术如移动互联网、云计算、大数据技术,跳跃式发展到一个新的模式阶段——互联网金融和大数据征信。这个预测并非空穴来风,人民银行潘功胜行长在近期一次公开会议上特别提出,利用新技术条件发展新业态征信是需要积极面对的课题。央行对大数据公司进入征信系统持开放态度,并称预计不久将有大数据公司进入征信市场提供征信服务。


利用大数据来做征信,就是要把多种类型的数据绑定到一起,那这些数据怎么来,如何去组合,怎么计算,摆在我们面前的既是机会也是挑战。


(一)传统的风险建模思路


20世纪50年代,一位工程师费尔(Bill•Fair)和一位数学家艾塞科(Earl•Isaac)发明了一个信用分的统计模型,80年代开始在美国流行,如今它是美国费爱哲(Fair Isaac)公司的专有产品——费爱哲评分(FICO)。美国三大征信机构都使用该信用分,每一份信用报告上都附有该信用分,以致费爱哲信用分成为信用分的代名词。


费爱哲信用分模型(以下简称传统模型)利用高达100万的大样本数据,首先确定刻画消费者的信用、品德,以及支付能力的指标,再把各个指标分成若干个档次以及各个档次的得分,然后计算每个指标的加权,最后得到消费者的总得分。传统模型的打分范围是300~850,三大征信机构各自输出自己的信用分数,分数越高,信用记录越好,三家的分数不能完全替代使用,但差别不大,相差在20分以内。传统模型计算的基本思想是把借款人过去的信用历史资料与数据库中的全体借款人的信用习惯相比较,检查借款人的发展趋势跟经常违约、随意透支、甚至申请破产等各种陷入财务困境的借款人的发展趋势是否相似。其主要采用的变量有:信用记录时间、信用额度、借款逾期记录、房屋按揭还款记录、用款占信用额度的比例、坏账记录等,其中付款记录和借款情况占比最大,合计占有65%的比重。大多数美国银行对个人信用评估时,会在该基础上再添加本行的其他一些侧重指标。


可以看出传统模型需要的输入信息主要是金融、财务、借贷类数据(以下简称为金融数据),输出信息是金融风险评分,输入和输出同属金融信息。欧美国家金融产业发达,征信体系也已经发展了数十年,金融数据相对充足,传统模型在欧美还是比较有效的。模型输入的约10多个变量都来自于金融行业自身,对于预测违约风险是比较有效的,属于强变量。


但是在征信体系尚处于发展初期的中国,个人的金融数据本身是非常欠缺的。目前我国金融机构在对企业与个人进行信用评分时,几乎完全依赖于人民银行征信中心掌握的企业以及个人信用记录,人行征信中心的数据又几乎完全来自于银行借贷交易数据。据人民银行征信中心统计,我国只有3亿多人以前和银行发生过借贷关系,也就是说全中国只有20%多的人口拥有相对可靠的金融数据,针对这20%多的人口,传统模型可以相对可靠地预测他们的信用风险。而对超过70%的历史上尚未与银行发生借贷关系的人口,传统模型就无法有效地评判了。这个问题如果无法解决,就会严重制约中我国金融业的发展,进而制约消费,影响到我国经济结构的转型。


(二)线上、线下融合的大数据风险建模思路


在美国,针对传统模型的不足,谷歌前工程副总裁梅瑞尔(Douglas• Merrill)与美国第一资本投资国际集团公司前高管邦德(Shawn•Budde)于2010年联合创立了一家名叫泽斯塔金融(ZestFinance)的公司。作为利用基于大数据的机器学习方法为金融机构提供客户品质分析的平台,它通过数据计算、分析和逻辑,为放款者提供承保模式,专门为那些个人信用不良或者不满足传统银行贷款资格的个人提供服务。没有该公司认为:一切数据皆为信用数据;重视数据间的关联关系而非因果关系。在该公司看来,每一条信息比如用户的笔误信息也是有用的信用信息。例如,申请人在申请信贷时输入自己姓名的方式也是一种信息:全部使用小写字母,全部使用大写字母还是采用首字母大写的方式(隐含了申请人的受教育程度以及性格的严谨性)?这样的信息也可以被用来预测信贷风险。其他类似的信息来源还包括申请人在申贷网站上停留的时间(这反映了申请人对信用申请的谨慎程度与还款诚意)、申请人是否拥有预付款或已付全款的手机等。正如创始人所说,“单独看个别信息可能不会发现什么线索,但是与其它成千上万的信息数据联系起来,就可以勾画出令人难以置信的精确图景。”


该公司采用大约70000个变量进行建模。具体分为五步。第一步是寻找并收集大量的不同弱变量。相对于费爱哲评分模型采用的强变量,这些弱变量在单独使用时效果不如强变量,但弱变量数量众多,综合效果可能会超过数量稀少的强变量;第二步是对海量的弱变量进行处理生成各种更加有效的衍生变量;第三步,在关联性的基础上将这些变量重新组合成一些比较强的变量;第四步,将这些比较强的变量放入采用数十个独立的、采用不同的机器学习算法建立的模型中进行处理,每一个独立的数据模型给出一个独立的评分;第五步,将这些评分进行加权组合,整合成最终的信用评分。这个信用评分是综合了人口统计数据、网站行为数据、社交网络数据等结构化以及非结构化大数据的一个分值。其创新的根本在于利用了非金融领域的数据来为美国的次贷人群进行金融信用评分并帮助他们获得授信。这群人由于背景不够好,很难从传统金融机构获得贷款,这会反过来又会导致金融机构无法积累与他们有关的传统信用建模方法需要的金融数据,缺乏金融数据又会导致常规金融机构无法对他们进行信用评分从而无法对其进行授信,从而形成恶性循环。


对于次贷人群来讲,该公司对传统信用评估体系有了颠覆性的改变,其大数据模型导致贷款批准更有效率,和常规的信用评估体系的模型相比,效率能够提高将近90%。同时,在风险控制方面也有极大的改进,其模型能够把相关贷款人的违约率降低将近50%。百分点正在尝试的方法与该公司的思想类似:使用线上、线下融合的海量非金融数据(消费、阅读、社交、旅游、娱乐……)进行金融建模,共包含大约500,000个弱变量。


(三)实践效果


1.百分点的数据来源。百分点在成立的五年中,通过云推荐引擎技术(跨商家、跨浏览器、跨PC与移动设备、跨微信)和大数据分析云技术成功服务了1500多家线上线下企业,包括700家各大零售商与品牌商、800家各大互联网媒体和社区,积累了上千家企业交易数据以及数亿个人用户数据,包括消费、阅读、社交等多维信息。

2.模型效果。百分点大数据模型在风险防范上已经初显效果。百分点与国内排名前十的三家全国性股份制商业银行及一家排名前三的人人贷(P2P)公司分别开展了多轮实测。其中,商业银行A个人风险评估:经过2轮共50万真实用户的测试,基于百分点用户评估报告,可以将该行线下发展的个人用户的不良率(M3不良率,下同)降低至之前的1/2,将线上发展的个人用户的不良率降低至之前的1/3。商业银行B个人风险评估:经过1轮共30万真实用户的测试,基于百分点用户评估报告,可以将该行线下发展的个人用户的不良率降低至之前的1/1.6。商业银行C个人风险评估:经过2轮共20万真实用户的测试,基于百分点用户评估报告,可以将该行线下发展的个人用户的不良率降低至原来的1/1.4;对于没有人行征信报告的用户,百分点将风险评估模型的KS值从之前的0.28提高到0.45。某领先的人人贷(P2P)公司个人以及小微企业风险评估:线上客户整体匹配率66.77%,线下客户整体匹配率43.50%。可以将线上线下客户不良率降低到以前的1/2;某小贷公司个人风险评估:基于百分点用户评估报告,已经将该公司不良率降低至原来的1/3。


我们发现,借贷申请人在某些变量上的表现具有很好的风险识别度和区分度,比如对某商业银行3、4线城市的个人用户来讲,用户在游戏、娱乐类活动上花费的时间费用越多,其信用评分越低(36分);相反,用户在教育、科学类活动上花费的时间费用越多,其信用评分越高(56分)。

基于此,百分点与B银行展开了联合建模。模型显示不同分数段的人数基本成正态分布,随着信用得分的升高,该分数段人群的不良率也基本成一条下行线。需要注意的是,为了更高地捕捉坏用户,建模前人为地提升了坏用户的占比,即真实的不良率没有图中显示的这么高。实际应用该模型时需要做一个逆变换。

某金融机构的销售终端(POS)商户贷款风险评估。不少金融机构通过分析商户的POS机刷卡流水数据来给商户进行授信,销售终端流水数据可以看做是商户的收入数据。根据台湾征信中心的量化建模经验,小微企业的企业信用40%的权重取决于小微企业主个人信用,20%的权重取决于该小微企业合作上下游企业企业主个人信用。不诚信的小微企业主可能会通过故意做大刷卡流水数据的方法进行“刷信用”,从而达到骗贷目的。通过“POS流水数据+商户户主个人数据”两类数据联合建模来预估商户的套现风险以及销售终端贷款违约风险,均发现百分点模型具有较强的指示作用,主要体现在信息的真实性和商户行为特征上。列举两个有趣而且有效的发现(即小微企业信用与小微企业主的个人行为有较强的关联):如果显示商户在游戏、动漫、娱乐等类目上消费级别高,则风险很高;如果显示商户在经管、科技等类目上活跃度较高,则风险较低。


某小贷公司手机端小额授信风险评估:该小贷公司的某几款产品只通过手机应用程序接受用户申请,贷款额度在500元至5000元之间,主要瞄准3、4线甚至4、5城市。与上面介绍的其他案例相比,该案例的独特性在于:一是手机应用程序能够获取手机的硬件编号,如果模型发现该编号的手机在一段时间内变换申请人身份信息在本机构或数家机构之间多次申请贷款,则该手机对应的申请者存在较高的欺诈嫌疑;二是手机应用程序能够获取申请者的地理位置,如果模型发现申请者在申请时的位置与他在申请表上填写的地址距离较大,那么该申请者风险较高。


三、对政府以及监管部门的期望


随着大数据时代的到来,未来征信业发展要从制度设计、技术进步、信息共享、监督管理、隐私保护等方面不断创新,促进征信业在大数据背景下更快更好地发展。尽快建立符合大数据的征信法律制度和业务规则体系,本着兼顾制度保障和鼓励创新的原则,指导和确保大数据时代征信业发展有法可依。为了促进金融行业乃至整个经济的发展,我国的隐私法以及征信法规可以向美国的“Opt-out”体系学习。美国相关法律的核心思想是:消费者在商家留下的大多数信息,如果消费者不明确选择(Opt)退出(Out)商业机构的客户关系管理计划,那么默认情况下商业机构可以二次利用这些信息来进行商业活动,从而增加商业机构的商业运作效率。美国的法律大大增强了其商业机构的竞争力。


尽快打破政府以及各个垄断资源、机构间的信息孤岛,规范和统一数据标准和格式,推进建立数据融合、共享以及对外开放的机制,降低金融行业乃至整个商业社会的征信成本A进一步推动政府与社会各界公开失信人、失信机构信息,推动全社会对失信人与失信机构进行联合惩戒,提高失信成本。

来源:信用中国

关联链接

mqu.cn site.nuo.cn