欢迎访问中企信办信用工作办公室,今天是2024年12月22日,星期日

大数据如何支撑利率市场化

以互联网为代表的现代信息科技不断迭代创新,门户、搜索、移动互联、社交网络、云计算直至今天的大数据等,逐步对人类生产工作方式产生根本影响。过去10年间,其颠覆性的影响发生在图书、音乐、商品零售等多个领域。而金融业应用互联网是从其媒介和渠道属性开始的。网络无处不在(Anywhere, Anytime, Anydevice)的优势有助于金融业低成本、便利地进入和服务新市场。数据显示,2012年末,四大行网银客户数量已经超过了4.3亿户,招行个人电子银行交易替代率达到了90.66%。交通银行电子银行分流率现已超过76%,通过人工处理的业务已经不到30%,而三年前的这一比例还在50%。在互联网金融模式下,支付便捷,超级集中支付系统和个体移动支付统一;资金供需双方在资金期限匹配、风险分担等上的成本降低,可以直接交易;银行、券商和交易所等金融中介作用在弱化,贷款、股票、债券等的发行和交易以及券款支付直接在网上进行。市场充分有效,接近一般均衡定理描述的无金融中介状态,达到与现在资本市场直接融资和银行间接融资一样的资源配置效率,且大幅降低交易成本。在已有的业务框架下,网银、电子渠道、移动支付等新科技的应用,实现了金融的延续性创新。

但是,阿里系逐步从支付、信贷到储蓄融资的三大步动作,开始用新技术定义一个全新的破坏性创新市场,让来自于网店的亿万次点击,敲碎了银行敞亮的玻璃大门,登堂入室。

挑战来自于大数据的应用

阿里金融可以为一块钱放贷,来自于对电商数据的成熟应用和对客户的精准评估,信息处理和风险评估通过网络化方式进行,市场信息不对称程度非常低。信息时代,在中国庞大的人群和应用市场下,面对开放金融市场的外部竞争环境,探索以大数据为基础的解决方案,深入洞察复杂且充满变化的市场,提升利率市场背景下差异化、个性化定价能力,是银行提高自身竞争力的重要手段。

定价、风险和欺诈等金融的核心要素,根源在于信息不对称。大数据可通过各自数据维度的全量纪录与自动化处理,消除海量用户之间的信息不对称,使信用风险减少到无穷小。因此,实施差异化利率定价的第一要素就是金融企业要有大数据运用能力,通过大数据从了解客户、感知市场、敏捷干预三个维度提升企业智商。

大数据在哪里?

曾几何时,作为行业规则的制定者,银行探测、收集、整合企业信息的能力是无人匹敌的。但互联网的出现,打破了银行原有的信息优势。在新的规则和新环境下,信息不再由用户主动且标准化的准确推送,银行要扩大触角,主动出击,全面地收集、分析、辨别庞杂纷乱的信息,改变运营思路,重新审视市场与自身。而这将是一个全新的信息掌控能力的挑战,不再是建一个网银门户,开发移动APP这样简单明确的信息技术手段。进入互联网采集信息,首先面对的是互联网自身的问题,信息过载,价值稀释。

例如,2013年1月财经金融类网站总访问次数达38亿次、9122万小时,相当于一万年。尽管这些金融信息和浏览行为本身也构成了经济价值,但价值被稀释到数十亿次点击和一万年的时长操作中。如何在大量重复的信息碎片中寻找价值,利用传统搜索技术显然不能解决问题,必须依靠大数据机器学习的手段,通过规模化的计算处理,把稀释的数据价值提炼加工出来。

大数据的前沿科技使用语义计算技术(semantic computing),对信息在特定主题中的权重,信息与信息的依赖与传播关系,一一量化描述,形成内容知识网络。

1(详见杂志原文)是一个天云大数据公司针对证券交易分析师提供的情报缩略,机器自动采集爬取网页内容,摘要核心内容形成简报,(上图右边的文字)同时基于主题的倾向性计算,将“大涨”“暴增”“下降”等语义量化成指数(上图左边的数字),与交易品种的行情拟合,从而指导操作。

2(详见杂志原文)是2012年6月11日到2012年7月10日大连商品交易所“豆一1209”舆情情感值与真实走势相关图(已经过归一化处理),来自海量网络信息的情绪指数与同期商品价格,体现的强相关性。

大数据不仅能够规模化处理数据,也能“精巧”地处理数据。通过机器学习,计算语义内容,使用客户真实消费行为内容识别客户,在传统数据中获取价值。

传统上,我们只能通过数字(消费金额)了解客户,对客户分类。现在,大数据可以通过内容识别客户,账单中除了数字,文字也是可以被计算。使用支持向量机(SVM)或隐含模型(SVD),可以把Dior香水和宝马汽车识别分类到一起。此外,还可以通过商户的消费分类,识别客户类型是经常在沃尔玛低值购物的家庭主妇,还是频繁在星巴克喝咖啡的白领,抑或是光顾特色酒吧(Babyface)的新新人类。

“你的行为会出卖你”,加拿大的家庭用品百货商场Canadian Tire公司已经使用这样的消费数据做客户的风险评估:

购买一氧化碳检测器以及烟雾警报器的顾客购买了房子,并且他们的生活态度比较谨慎,是低信用风险顾客。

购买钛合金钻头以及木工工具的顾客有着比较奢侈的业余爱好,这部分顾客的信用风险也比较低。

“风险”最高的消费是:加拿大蒙特利尔市的Sharx Pool酒吧里的消费,其中47%的顾客使用Canadian Tire公司发行的信用卡消费以后在12个月内曾经四次拖欠还款。

“安全”的顾客是:购买昂贵的鸟食以及一种新型的“屋顶雪铲”的顾客——户主用这种雪铲清除高处的积雪以免它们落到人行道上。

在大数据时代,每一个人从出生到现在的行为信息随时都可以查询到,也就有了时间序列的动态风险评价。由此可以给出任何资金需求者的风险定价,或者叫动态违约概率。一旦违约概率的问题自动解决,整个交易成本将降低。而银行寻找违约概率的交易成本很高,这样商业银行传统的风险定价有可能被大数据所颠覆。

了解客户,个性化反馈

利率差异化的市场操作,需要两个核心支撑。一是需要更深刻地了解受众,也就是贷款的个体客户。二是能形成针对性的操作。在传统的商业智能决策支持系统下,最终对市场的干预需要人制订的策略来落实,针对上百万金融个体客户,难以形成上百万的针对性策略。

传统的数据分析领域,更多的是对群体的描述,给出统计意义上的群体共性特征,再根据这些特征制定相应的决策。例如,根据消费金额划分不同人群,运营商提供不同资费套餐,银行提供不同信用额度和服务等级的信用卡。在小数据世界,有限的规则和服务套餐,可以满足需求,但随着规则和套餐的增加也会出现彼此矛盾,个性化的定制服务呼之欲出。

大数据不再是简单的数据加工提供决策的过程,不再是机器与人的交流,而更多是机器与机器之间的对话,是实时自动化处理数据的过程,是区别商业智能的一个重要因素。

例如,针对国内某大型保险公司的全量数据,天云大数据做了客户流失风险预警分析。相比小数据时代,同样的客户流失风险分析,小数据商业智能系统是给出总体用户占比的分析报告,数据向上服务供领导做决策,调整宏观经营决策风险高,需要谨慎决策制定市场行动,同时考虑团队执行等诸多问题,市场干预结果也需要数月后通过下一次分析报告才可以反映出。而大数据系统则把数据服务下沉至营销端,为2万多个保险代理提供查询5000万个体客户的流失风险概率,每一个保险员都能看到自己所负责的客户个体资料,每个客户的流失风险概率,从而做出响应动作。小数据分析得出的是大策略,业务风险高、反馈周期长,大数据则是匹配基层微观动作,风险低、反馈即时。前者服务于高层的分析报告,后者服务于基层的营销工具。

对于复杂的经济现象,yes or no的问题越来越难回答,因为维度指标越来越多。从某种意义上讲,商业智能形成的意见面向决策,没有形成闭环干预,且输出形式更多的简报(dashboard report),因此对事实描述更多是基于群体共性,而不是个体刻画,因此并没有发挥作用。大数据则强调自动化,如淘宝更强调为每一笔网购做自动推荐的生产系统。在上面提到的客户流失风险的例子中,当我们用大数据计算出每一个个体客户的流失风险概率,做个性化客户视图的时候,商业智能系统做成的却是统计指标,向上汇报做决策,而执行策略、效率以及反馈周期等形成的问题往往风险较大,其结果就是面对这样的宏观不决策不作为。而大数据则刻画客户后提供给一线销售,数据服务下沉而不是汇总上报,每一个保险员做微决策微行动,风险小、反馈及时。大数据更强调提供自动化工具,而不是统计报告。

大数据将成为新型生产资料。数据形成的将不仅仅只是报表,而是参与投入实际生产运营,在数据生产者、数据拥有者和数据最终使用者之间实现生产资料流动再加工,输出价值。正如商务部电子商务和信息化司司长聂林海说到的,通过大数据分析,银行可以对企业整个的经营过程实现全程监控,就可以最大限度地为中小企业解决贷款难问题。

使用全量数据发现已知的未知 

麦肯锡曾指出,对金融行业而言,以指数级膨胀的数据既是“甜蜜的负担”,又是“无价的宝藏”。知名评论人谢文曾说过,人们对世界的认知往往是表面的、肤浅的、简单的、扭曲的或者是无知的。而大数据时代的来临,使我们第一次有机会和条件,在非常深入的层次获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律,获取过去不可能获得的知识,挖掘过去无法企及的商机。

当数据处理技术已经发生了翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。而如今,我们需要的是全量数据。使用全量数据不用抽样建模,再回到数据仓库中验证实施。大数据利用全量数据直接做分析,首先会利用分布式数据库的稀疏表结构特性(schema free),把全量客户数据整理到一个大数据池。其次,传统抽样规则的建立过程由数据发现完成,在大宽表中找到以前靠业务经营选择的字段,即依靠机器学习建规则,再在全局数据中实施。

例如在一家大型保险公司的实例服务中,常规的统计分析软件只能对几十万用户的一种分类模型做分析,但在大数据hadoop分布式计算平台上可以把个险5000万用户做全量分析,从而得到上千个分类,发现基于业务经验所给不了的事实。这是大数据的分布式计算带来的颠覆创新。天云大数据自2011年布局大数据分布式处理平台及自然语言处理技术以来,为某保险公司实施的基于大数据平台的用户行为分析应用,支撑该保险公司的全部投保人的全量数据,包括产品类别、价值、客户关系以及行为的四大主题,对全部投保人5000余万的全量数据进行分析,实现了对个体用户的特征描述,二次险种推荐以及客户流失预警的实现。正是有了大数据平台强大计算能力,可以对以往无法处理的全量宽表数据做运算,利用机器学习分析出客户分类,进而做不同险种的交叉推荐。

在国内,目前在做大数据业务并成熟的企业必须具备多样化数据计算的能力,既要崇尚数据科学即服务(Data Science as Service)的创新理念,又要逐步实现信息表达、组织和计算方式的颠覆。

外部数据的新视角 

如果要全面地了解用户,单靠内部数据还是有些局限的,大数据时代需要数据的聚合和交叉应用,利用外部数据为内部数据提供更好的补充,而获取外界的反馈评估最好办法是直接使用外部数据。例如对于产品策略的投放效果评估,传统获取外部数据的方法是人工调查问卷,问卷采集数量有限(数千数据样本),问题的设计会引导答案,一次调查只能服务于有限的主题,反馈周期数月。而大数据使用机器自动爬取海量网络信息(数十亿条样本),通过机器学习等自动分拣处理,按照主题自动即时反馈结果。数据本不会说话,但是面对不同的人和主题时,就会发出不同的声音。

对于品牌而言,大数据可以掌握消费者对该品牌的反馈、正在进行的“实时”行为,还可以对未来行为进行预测分析。由此可以提供全新的判断,而这些判断可以催生全新的品牌战略。

例如,使用大数据的自然语言处理技术(NLP),对所有相关品牌言论进行抽取和倾向性计算,获取正面情绪(首屈一指、实质性、强大、保障、及时、快速、高回报、稳定…),以及负面情绪(欺诈、慢、擦边球、违法、恶劣、低下、骗、洗钱…),获取一定周期内的品牌形象的量化指标。如下面的某金融品牌的服务实例。(详见杂志原文)

大数据是基础设施

 大数据正在创造这样一个让人联想无限的环境。与传统的数据量(Volume),多样性(Variety),速度(Velocity)描述大数据的3V理论相比,美国伯克利大学的人、机器、算法(AMP)模型表述的三个维度,则为大数据技术的落地提供了更加明确的方向。人,机器和算法分别对应于代表商业价值的数据来源,代表信息科技的分布式计算平台和科研算法的机器学习。移动终端的普及,物联网的发展解决了数据来源的问题,使每一个人都成为了数据的贡献者。基于大数据hadoop分布式计算平台则兼顾了成本,延展性以及存储多样化数据并快速处理的能力,解决了数据的保存和并行计算的核心问题。有了数据和平台,以往我们认为深奥的数学算法以及数据科研人员走到了时代的前台,成为这个时代的名副其实的主角。通过数据科学家的努力,很多优秀的算法可以很快在大数据的平台上得以训练、改进和快速部署,从而以破坏性创新的方式颠覆了传统金融信息处理架构。

全新架构的信息技术依靠分布式计算环境,能够完成小数据时代的大型主机、UNIX小型机,关系型数据库所不能完成的任务。自2009年阿里巴巴集团高调宣布去IOE战略以来,2012年实现了用开源的MySQL数据库替换Oracle数据库。全新的IT架构,正在让阿里巴巴变得更加开放、灵活、高效。2013年6月22日,也就是阿里巴巴最后一台小机下线的第3天,EMC中国区副总裁陈毅威在新浪微博中写道:“小型机已经变成IT发展中已过去的历史。再见小机!” 这就是众多大企业鲜为人知的秘密。例如,在2012年11月11日的“双十一”促销中,淘宝取得191亿总交易额的背后,其支付宝核心数据库集群处理了41亿个事务,执行285亿次SQL,生成15TB日志。正如支付宝在新浪的官方微博中写道“支付宝安全可靠的服务背后是先进的技术”。

Hadoop分布式平台颠覆传统IOE架构不仅仅发生在淘宝、百度这样的互联网世界,也同样发生在信息化相对成熟的金融电信行业。天云大数据在联通总部溯源项目中,提供日处理300亿笔、2.5PB数据的大规模分布式系统。在光大银行,Hadoop分布式计算服务于2000年至今的全量账务数据,包括对公对私和阳光卡等全业务领域账务数据,凭借100毫秒的低延迟和高并发的卓越性能,在项目竞争中颠覆了Oracle Exadata的性能神话。

在社会信息化环境中,传统企业信息架构的互联网化进程正在加速。伴随着越来越多的行业、企业、应用的IT架构向更为开放的分布式计算环境靠拢,未来将会有更多的小型机和关系型数据库被Hadoop替代。 

大数据是继互联网之后下一个技术前沿,物理世界的三大定律解答了90%我们看到感知到的世界,而能够解答人类复杂的经济活动的诺贝尔经济理论却不到5%。放下理论与经验的宏观指导,在这个纷繁复杂参照系下,需要新的探索与发现工具,帮助我们了解经济活动的相关性,黑箱模型的输入与输出,帮助我们准确评估与定价,识别风险与欺诈;帮助我们利用工具把服务延展至新的市场,服务新的或更小的个体,普惠大众。

来源:《中国征信》杂志

关联链接

mqu.cn site.nuo.cn