中国人民银行于2006年建立了全国统一的企业和个人信用信息基础数据库(以下简称“人行征信系统”)是国家为加快社会主义市场经济建设、改善我国金融生态环境、完善金融基础设施的一项重要举措。人行征信系统的建设目标分为三期:一期目标是采集个人和企业在商业银行发生的信用信息,向商业银行提供信用报告查询服务,这期目标已圆满完成;二期目标是采集其他社会信用信息,如司法、税务、社保等,逐步完善整合海量的信用信息数据库,提供全面的信用评分和咨询服务;三期目标是在二期全面数据整合的基础上,利用数据挖掘技术对数据进行深度分析,不断开发深层次的增值服务与产品,如风险预警、决策支持、市场分析等,同时利用互联网、云计算、移动通信技术拓宽信用产品服务渠道,满足社会各界多元化的征信需求。数据仓库是对海量数据整合、保存、统计分析、数据挖掘的关键技术,征信数据仓库的建立和应用将对完成二期、三期目标起到很好的推动作用。
建设征信数据仓库的意义
数据仓库是对海量数据整合、保存、统计分析、数据挖掘的关键技术。在过去的十多年中,数据仓库技术已经在我国多个领域中取得了众多研究成果,但在征信领域的应用和实施一直是空白。在互联网、大数据、云服务技术蓬勃发展的今天,如果能够把握好当前的发展机遇,积极发展、研究数据仓库技术并将其应用央行征信系统中,就能实现征信产品的创新,提高产品竞争力与公信力,为社会公众提供更加优质的服务,加快完善我国金融基础设施建设,推动金融事业健康发展。建设征信数据仓库对于央行征信系统的意义,可主要概括为以下几个方面:一是历史数据的保存平台。目前征信系统内还保存全量的历史数据,仅有部分数据参与信用报告和其他信用产品的生成,绝大部分数据对系统的存储空间和效率产生极大的负担,需要一个系统来保存这些数据,并且可以做到随时调取、查询和分析。二是各渠道信息的采集平台。征信系统在现有金融数据基础上还要逐步征信引进其他渠道的数据,其中包括半结构化和非结构化的数据,目前征信系统仅支持结构化数据存储,需要一个平台来保存各种类型的数据。三是数据统一整合平台。不同渠道的数据在采集之后,需要一个平台进行统一整合,形成统一标准、相关联的、易用的数据模型。
征信数据仓库的实现方式
数据仓库之父比尔恩门在《数据仓库》中将数据仓库的定义为:“一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。”一是指出了数据仓库核心的业务属性,按照业务划分为不同的主题数据域来组织数据;二是指出数据仓库的数据并非元数据简单地堆积,是整合、加工后的新数据集合;三是数据应定期更新,重点是更新策略的设计;四是在数据仓库的数据分析过程中,也就是在非数据更新时段,一般来说数据是稳定的。经过多年发展后,数据仓库概念又被赋予了强调数据的生命周期管理,包含非结构化数据以及突出元数据管理三方面内容。
在过去十多年中,随着各行业的信息化建设及大数据、云计算、物联网技术的兴起和推动,信息系统对于数据仓库的需求逐步向巨量数据、非结构化、实时性发展。数据仓库不再仅仅是独立业务系统的离线数据分析系统,而是融入到了业务系统中产生实时的业务规则。由于数据仓库的理论和技术不断发展创新,数据仓库的软硬件实现也历经了多种方式。目前主流的实现方式包括事务型数据库、并行数据库、数据仓库一体机、大数据仓库、云服务数据仓库几种方式。
一般来说,小微企业可以选择事务型数据仓库,其中对于数据安全性要求不高的企业,也可选用云数据仓库模式;对于中型企业,通常选用并行数据库或中低端一体机的方式;对于大型的电信或金融企业,大多选择高端的一体机,如中国移动和工商银行选择天睿公司数据仓库方案;而对于新兴的互联网企业,特别是提供电子商务或社交服务的互联网企业通常选择具备大数据处理能力的数据仓库解决方案。
央行征信数据仓库选型分析
征信数据仓库主要数据来源于征信业务系统。征信业务系统负责征信相关数据的采集、整合、加工、生成信用产品并对外提供产品服务,包括个人征信系统和企业征信系统,其数据源分析如下:
一是数据量分析。目前征信系统含有存量数据50T,且每年新增数据为5-7T,当前绝大多数大中型金融信贷机构都已接入征信系统,新接入的信贷机构包括村镇银行、小额贷款公司等地方信贷机构及将要接入P2P等新兴信贷机构,要求系统存储具备横向扩展能力;二是数据储存结构及处理方式。金融机构数据上报按照人民银行接口规范要求,属于结构化数据。数据处理逻辑复杂,信用报告中的身份信息整合、违约率和评分等指标的加工需要大量的历史数据的关联计算,以上特点要求系统采用分布式的数据存储结构,充分采用并行计算技术提高数据处理效率;三是数据实时性要求。目前信用报告按周更新,评分、违约率等增值产品按月更新,今后可能要求按日更新;四是非结构化数据源。数据仓库的数据源还应包括社交网络、电信、电商等和信用密切相关的各种非结构化大数据。
基于以上分析,数据仓库选型应具备以下要求:一是核心数据库存储容量150T以上。考虑系统建设周期,数据仓库建成时初始入仓数据近60T,年增量为6-9T,考虑系统寿命一般为12年左右,则估算系统设计容量应为150T;二是系统架构并行数据库。考虑到信用数据需要复杂处理以及今后的高更新频度要求,建议数据仓库应用并行数据库架构以提高横向扩展性和效率;三是专用分析型数据库。应采用具备高速缓存、数据压缩等技术的专用分析型数据库,而并非传统的关系型OLTP数据库;四是采用一体机型。一体机具有较高安全性、安装维护较为简单,成本低于其它形式等优势,建议采用一体机形式;五是选取Hadoop生态系统用于非结构化数据存储和处理。系统应具备非结构化数据存储和处理能力,考虑业内的主流实现方式,选择Hadoop生态系统是合理的选择。
征信数据仓库建设的深远影响
央行征信数据仓库的建设将对我国征信服务从五个方面产生影响:一是扩大受众面。由于数据仓库内包含来自于互联网的非结构化数据,这样可以为众多原来在征信系统无金融信贷记录的信息主体提供服务;二是提高信息完整度。数据仓库可以将金融信贷信息与互联网征信信息进行整合,提高信息主体信用信息的完整度;三是提供更多产品。数据仓库作为产品研发的平台利用数据挖掘方法可以开发出更多产品为社会服务;四是提高服务实时性。数据仓库具备高效的数据处理能力,可以提升产品更新频度;五是提高央行征信服务质量。数据仓库的一部分功能用于机构内部的管理决策使用,改进服务水平,提升服务质量。
来源:信用中国