李昊:越隐秘的数据采集越不容易被欺诈
本篇文章2993字,读完约7分钟
wecash Flash Silver联合创始人李浩
2015年4月16日,互联网金融投资与M&A大会在北京中关村国家自主创新示范区会展交易中心举行(报价000931,咨询),金融网站现场直播。
wecash Flash Silver的联合创始人李浩分享了移动互联网大数据的信用评估实践。
以下是会议记录:
李浩:大家好!我来自wecash闪存银行。非常感谢您给我这个机会与您分享。wecash闪存银行是一家非常年轻的公司,今天刚刚成立一年。闪存银行是做小额信贷的草根阶层的一小部分,也是互联网极客公司的大量初创企业。
2013年,我们考虑了两个问题。首先是随着互联网,尤其是移动互联网的发展,越来越多的人使用智能手机。截至2014年底,中国有6.18亿互联网用户,越来越多的数据在互联网上生成并存储在互联网上。这是第一点。其次,从线下获得小额信贷客户的方式成本非常高。我们考虑使用移动互联网粉丝营销模式来降低小额信贷的复合成本。
为了解决这些问题,我们成立了闪存银行,其业务模式是c2b2b。之后,我们会将一些用户连接到线下p2p平台、消费金融公司、小额贷款公司以及一些共享经济场景,比如租车和租车,这样这些服务提供商就可以为一些用户提供与信用相关的服务。
今天的时间有限,所以我不会根据ppt告诉你。这里有两个要点,一个是我们使用移动互联网数据进行信用评估时要注意的地方,另一个是客户方面的一些经验。
首先,我们做了四个组合。第一种组合是在线和离线。一般来说,狭义的信用反映了客户在借贷过程中的行为。因此,在传统的金融业务中,用户主要通过信用交易数据进行评估,如中央银行的信用报告。其他数据可以有效补充信用数据。另一点是我们有很多用户,他们是没有任何信用记录的白人家庭。在中国,有8亿人在银行开户。到目前为止,中央银行的信用信息只覆盖了3亿多人,有4亿多白人家庭。为了成为这些客户,一些传统业务中的数据主要依靠离线采集方式,主要是一些流程和资质认证,这种方式现在范围比较窄。
随着移动互联网的发展,为在线数据采集创造了机会。Flash Bank通过一些开放的API和网络爬虫获取用户的在线数据,包括用户在bbs社区和本地网站上发布的信息,以及与用户相关的报告。挖掘这些信息后,就可以形成一个数据肖像,反映用户的教育背景、消费水平等信息。仅仅依靠纯在线数据来做风险控制,会出现一些实名信用报告的问题。为了克服这个问题,闪存银行结合了在线和离线数据。首先,我们做了一个社交网络组合。在线社交网络是著名的微博和微信,离线社交信息来自用户的交流记录。我们将把两个社交网络整合成一个大的社交网络。基于这些社交网络,在线数据的一些真实姓名得以实现。此外,我们的一些合作伙伴是离线教育和培训机构、旅游机构和一些零售机构,通过这些机构可以获得在线和离线数据,以进行交叉验证和补充。
同时,还有一个非常重要的数据连接离线和在线数据。通过用户授权后的全球定位系统定位,基站可以获得用户的离线位置信息,同时可以实现更准确的用户肖像描绘。
第二种组合是主动数据和被动数据的组合。当我们使用数据时,我们通过网络爬虫抓取的大多数数据都是用户主动发布的信息。例如,他需要申请一张大额信用卡,一些用户会主动回复帖子。这些数据由用户主动发布。如果用户不主动发布,信息就会丢失,无法判断。在实际业务中,我们会发现那些做销售业务的人,或者公司的高管们会有大量的网络信息暴露。
为了弥补一些难以找到的信息,我们采用了一些被动的数据。不管你喜不喜欢,只要你使用互联网,就会有数据留在互联网上,其中一些是运营商的流量数据,还有来自dsp和dnp制造商的数据。基于这些设备的数据,我们可以增加数据的覆盖范围,解决一些偏差问题,使我们的模型和策略有更好的预测和泛化能力。
主动和被动还有另一层含义,即它们是否能被用户感知。在传统业务中,当用户填写申请表时,他会觉得你在收集他的信息,还有一些别有用心的欺诈客户。他会故意粉饰他的数据,让自己看起来像个正常人。例如,当用户填写信息时,输入的时间和删除的时间,以及用户的设备id和ip的一些信息,这些信息相对难以被察觉和伪装,增强了信用变量的有效期,并提高了一些反欺诈能力。
第三种组合是个人和团体的组合。过去,在做小额信贷的时候,我们总是说我们应该做大数定律,拆分金额。一个假设是,一个人和另一个人在违约行为的概率上是相互独立的。随着互联网社区的发展,原有的大数定律将在一定程度上受到挑战。在这里,我们应用一些基于社交网络的数据,并通过我刚才提到的在线和离线相结合的社交网络将用户分成相应的组。我们认为在这个过程中,个体行为在一定时间内是会传染的。
最后一种组合是贷前和贷后的组合,因为我们现在做的主要是基于消费金融情景和信贷贷款情景的风险评估。过去人们常说我们应该把风险排除在门外。事实上,另一方面,这只是表明,一旦信用贷款被释放,将有许多限制的复苏方式。整个信用评估跨越整个信用周期。当我们过去进行信用贷款时,我们通常在每月贷款后对用户进行监控,并每月进行一次访谈。随着移动互联网的出现,贷后监控扩展到24小时。我们将相应地监控用户的行为,并在第一时间给出预警和响应。同时,我们可以有效地找到一些客户。当我们传统上首先做消费金融时,我们将面临一个问题。用户害怕失去联系,配额相对较低。只要我们能找到这个用户,我们就会还钱。在许多情况下,我们找不到该用户的位置。借助移动互联网,可以找到这个用户。例如,一个用户借钱后,他换了工作,去了另一个城市。我们合伙人的贷后部根据微信找到了一个新的办公地点,并联系了他。他立即还钱。
通过这个建设,我们现在正在做一些黑名单信息共享,提高了整个用户的默认成本,并帮助建立一个良好的信用氛围。我们显然觉得应该辩证地看待这个问题。大数据在风控制方面有其优势和优点。从根本上说,风控制是一个在开放的空解决的问题,而且没有风控制数据的最佳范围。我想如果我有这样的数据,就不会有问题,也不会有这样的问题。大数据只是扩展信用评估数据的边界,是对传统信用评估的有力补充。因此,我也希望我们从业者能够辩证地看待这种风险控制。目前,业内有些人反对大数据或只是大数据理论,这不是相对科学。
大数据在风险控制方面的优势在于其覆盖面广、更新快,可用于反欺诈和监控。同时,当用户缺少传统数据时,它可以起到替代的作用。
主要的缺点在于交易等有效数据密度低,这些数据是中性的,与客户的信用关系也不是很强。因此,当使用这些数据时,第一步是在沙子中寻找黄金。我们需要从大量数据中选择风险相对较大的变量。第二,通过多维关联,单一维度的风险控制数据不强,风险控制强的数据组合在一起会产生。
数据也严重缺乏。目前,大数据的来源,即使是一个宝藏,也不能覆盖所有用户。在建模时,基于逻辑返回的方法实际上对数据有分布式假设,这将会失败。为了解决这个问题,闪存采用了三种方法。第一种方法是选择对我们的分布假设依赖性低的方法。然后,通过短期快速迭代,对客户群进行细分,以确保客户群相对完整。然后是数据源的丰富,不同数据源之间的逻辑关联和替换,因为有许多数据具有相似的逻辑内涵。
第三点是反欺诈和隐私保护之间的博弈。数据收集越秘密,被欺骗的可能性就越小。因为时间关系,我今天就在这里分享,谢谢!
标题:李昊:越隐秘的数据采集越不容易被欺诈
地址:http://www.sac-csic.cn/syxw/4130.html
免责声明:沈阳新闻网今日新闻头条网是辽宁最具知名度和影响力的门户网站,本站部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,沈阳新闻网将予以删除。
上一篇:移动互联+理财 是未来发展趋势
下一篇:金融风险永远是第一位,要抵制诱惑