热门文章
大数据和人工智能如何改造金融业?
发布时间:2016-12-27 分类:趋势研究 来源:钛媒体
本文提出大数据和人工智能在金融领域的应用与影响,包括由此可能形成的金融科技新生态展望,特别讨论了以Palantir金融业务、Wind资讯为代表的大数据公司的服务与价值。
通过实时分析大量多样化且高速增长的数据,获得预测性洞察,各类金融市场参与者以此来提高业务效率和安全性;新的金融科技生态体系将以数据价值为核心,以数据资源或数据提供为基础,以大数据商业智能为核心价值的实现方式。
大数据产业全景与新趋势
很多文献中对大数据(Big Data)的定义不尽相同,但大数据4V特点是共识性的,即Volume:大量的数据;Variety:多样化的数据;Velocity:对高速增长的数据进行实时分析;以及最核心的Value:产生价值。
通过大数据分析,可以建立用户画像(User Profile)及进一步构建知识图谱(Knowledge Graph),前者描述实体(Entity)或概念(Concept)的性质,是对主体信息的标签化,后者表示不同实体和/或概念之间的关系。众多应用大数据分析产生了巨大价值的领域和具体场景,其中大部分都是以知识图谱作为中间环节而实现的。
图1描绘截至2016年初的大数据产业全景,出自FirstMark Capital董事总经理Matt Turck的文章Is Big Data Still a Thing? (The 2016 Big Data Landscape)。
其中,整个产业被分为基础设施(Infrastructure)、分析(Analytics)、应用(Applications)三个主要部分;
一些大公司则同时提供数据存储和分析基础设施和分析服务(Cross-Infrastructure / Analytics);还有很多开源(Open Source)框架或解决方案提供商,以及更底层的掌握数据源(Data Sources)并提供应用程序接口(APIs)的公司,还有孵化器和学校作为支持机构。
对于提供大数据分析服务的公司,Matt Turck先生提到,一个新的趋势是它们越来越专注于结合AI技术来进行分析,以获得预测性洞察。
他在文章中写道:“大批新兴的AI公司提供能够自动识别如图像这样的复杂实体的产品,或者提供强大的预测性分析(A crop of new AI companies provide products that automate the identification of complex entities such as images or provide powerful predictive analytics)”。
人工智能如何与金融相关
我们从两个相对应的角度来看AI,一是人工智能(Artificial Intelligence),二是增强智能(Augmented Intelligence),前者旨在用机器代替人类进行劳动,后者旨在让机器辅助人类工作和生活;
同时还把对AI的研究分为两部分,一是神经网络(Neural Network),二是机器人(Robots),前者代替或辅助目前只有人类能做的脑力劳动,后者用机器代替或辅助人类进行体力劳动。由此,AI技术主流的课题或细分领域可以划分为图2中的四个象限:
图2左上方的图像识别、语音识别、自然语言处理,都属于机器学习(Machine Learning)范畴,可以简单将其看作非结构化的图像、语音和文本数据转化为结构化数据的过程,这是连接大数据和人工智能的主要纽带;
右上方的商业智能(BI)指的是一整套解决方案,整合已有的数据,提供报表等以辅助商业决策制定,这是与金融关系最为直接的AI技术细分领域;
右上方的另外两个课题也与金融直接相关,例如智能投顾,既属于商业智能范畴又是个人助理的一种,而智能合约是分布式账本与AI的结合,本文不涉及。
金融科技(Fintech)的属性是为金融业务提供技术服务的基础设施,目的是用技术来提升金融效率,图2下半部分的课题也不属于本文讨论的范畴。
大数据商业智能包括什么
商业智能(BI)概念从20世纪90年代开始流行,传统的BI主要用小型机或服务器来处理结构化的数据,2011年底成熟起来的Hadoop平台,实现了高效处理非结构化数据,开启了大数据时代。
本文的“大数据商业智能”表述应用于金融领域的大数据和人工智能范畴内的技术,其具体应用又可以分为两类,一是金融信息服务,二是交易服务;同时还可以从两个层面来看这些应用,一是信息提供或数据提供,即输入层,二是执行,即输出层。由此,大数据商业智能主流的应用或细分领域可以归入图3中的四个象限:
图3上半部分的金融数据终端、金融搜索引擎、智能投顾,它们在数据和信息提供方面智能化程度依次升级:数据终端只提供对人类和机器易于分析的数据和信息;
搜索引擎基于知识图谱上已有的数据关联,实现联想和属性查找,从而减少信息中的噪声,呈现更准确和更有价值的信息;
智能投顾进一步结合投资者的风险偏好,提供量身定制的投资组合建议。
图3下半部分的自动/辅助研报生成和进行量化交易,都是通过执行层面的智能化帮助金融市场中各类参与者提高业务效率,例如,研报的自动生成是以自然语言理解,大数据分析,自然语言生成,这三个主要步骤代替初级研究员的资料整理和复制粘贴工作,从而提高相关机构的研究产出效率。
量化交易辅助在传统商业智能时代就已经流行,机器学习和知识图谱技术使交易策略模型所包含的数据维度和变量得到了极大扩展,如财经报道、政策文件、社交媒体上的文章与评论,都可以通过自然语言处理被转化为结构化数据,纳入策略模型的变量集合,在设计不同变量之间的关系时还应加入人工参与,以减少虚假关联性对决策的影响。
以下讨论Palantir Technologies和Wind资讯这两家公司的产品和服务,以及它们所代表的两类公司在新生态体系中的位置。
Palantir:最具代表性的大数据独角兽
在整个大数据产业中,Palantir Technologies是提供应用于金融领域的大数据分析服务的代表公司,它的Palantir Metropolis基于知识图谱做金融数据的大规模定量分析。这个产品目前最主要的客户是对冲基金、银行和金融监管机构。
Palantir名字出自《指环王》中的水晶球Palantír,寓意透过表象看真相。公司由Peter Thiel、Alex Karp、JoeLonsdale、Stephen Cohen和Nathan Gettings共同创立,2004年实际开始运作,现在的总部在硅谷Palo Alto。Peter Thiel是PayPal的创始人、Facebook第一位外部投资人、畅销书《从0到1》作者。
Palantir自成立以来经历了8轮融资,目前以200多亿美元的估值位列全世界估值第五高的非上市公司,仅次于Uber、小米、滴滴和Airbnb;包括BlackRock、Morgan Stanley、Founders Fund、Tiger Global Management、Discovery Capital Management、嘉实基金(博客,微博)、普思基金在内的很多知名机构参与了投资。
Palantir早期只为政府客户服务,如美国的CIA、FBI、NSA等,2010年起开始提供企业服务,例如帮助华尔街的金融公司反欺诈和网络攻击,典型客户如J.P. Morgan Chase、Bridgewater Associates,其产品在医疗、零售等领域也有所应用;截至2016年初,约75%的订单来自非政府客户。
除了传言中的帮助CIA找到本·拉登(Osama bin Laden)的藏身之地,Palantir已被证实的功绩包括帮助美国证券投资者保护公司(SIPC)发现了纳斯达克前主席麦道夫(Bernie Madoff)的庞氏骗局(Ponzi Scheme)。
公司的CEO Alex Karp表示,Palantir只会用口碑推动业务、媒体和销售,不会有市场、公关和销售团队,因为这可能让公司偏离使命。
图4是Palantir的2大产品和形成的17种解决方案。其中,Gotham主要应用于国防、反恐、危机应对;Metropolis则偏重于金融服务。
这些解决方案中与金融关系较为直接的包括金融安全角度的反欺诈(Anti Fraud)、内部威胁(Insider Threat)、Palantir Verus(针对数据滥用问题)、危机应对(Crisis Response);辅助商业决策角度的资本市场(Capital Markets)、保险分析(Insurance Analytics)、案例管理(Case Management)、智能化决策(Intelligence);以及其它定制化解决方案(Custom Solutions)。
Palantir Metropolis 技术解析
可以从后端平台和前端应用程序两个方面来看Metropolis,在后端,其整合多源的表格数据到连贯的模型中,并对模型执行复杂计算,同时共享和迭代分析产品;在前端,其提供一套集成的应用程序,让用户可以建立交互,包括自定义Metric、仪表盘、日期设置、浏览器、回归和电子表格,总结如下表:
Palantir Metropolis平台通过适配器、框架和接入其它系统的API,将不同来源的数据表示为统一的模型(Model),作为分析的基本构建块;模型是源数据集的行和列(包括描述性元数据)转化为表示实体的统一概念对象。任何用数据描述的现实世界对象都可以作为模型,Palantir Metropolis会在安装时配置解决问题所需的模型类型。
Palantir Metropolis的分析语言是Hedgehog(HHLang),分析人员可以用它描述简单的表达式和复杂的多模块计算。HHLang的语法和Java类似,第一级要素包括模型、Metrics和文档(Document);其定量分析库涵盖时间序列、回归分析、统计和高级日期/时间处理。
“Metrics是Palantir Metropolis平台执行计算的心脏(Metrics are the heart of computation in the Palantir Metropolis platform)”,公司官网写道。平台附带的Metrics包括绝对变化和相对变化,移动平均线、导数、积分及各种其它基础时间序列和数学操作,可以对模型进行合成、聚合、变换、比较计算。
在平台内置的集成开发环境(IDE)中,还可以编写复杂的自定义Metrics。IDE支持代码补全,交互调试和模块化代码设计实践。
在Palantir Metropolis前端应用程序中创建的分析产品,被存储为可共享、关联与重组分析的单元,称为文档。文档不是静态的成品,而是始终处于完善中,可以不断迭代并作为新的分析的输入;很多简单的文档链在一起构成复杂文档,企业中的用户可以共享文档与协作。
Palantir Metropolis本质上是开放平台,低级数据集成,自定义Metrics,自定义用户界面,每一层都是可扩展的。
总之,Palantir走的是人机结合路线,用分析技术来提升人类的智慧和洞察力。在Metropolis中,简单的模型被作为更复杂模型的构建块,让分析人员可以表达出任何想象的东西;交互式用户界面整体展示所有集成的可用数据,并且实时更新。
例如,银行想要避免抵押房产的不当处理、抵押房产套现行为,需要房价数据、非农劳动力供给和招聘状况、零售业状况、消费者的信用卡逾期情况等,这些来自分散的外部渠道的数据难以相互联通,使用Palantir Metropolis就可以把这些数据整合在一起,从而发现关联及进一步的趋势和异常,实现预测性分析。
Wind 资讯与中国金融信息服务业
中国金融信息服务业龙头Wind资讯(万得),在大数据产业全景中与Bloomberg(彭博)等公司同属于金融和经济(Financial & Economic Data)数据源和API提供商的代表。
Wind资讯的客户已经覆盖超过90%的国内金融机构,包括对冲基金、资产管理公司、证券公司、保险公司、银行、研究机构和政府监管部门;70%由中国证监会批准的合格境外机构投资者(QFII),其数据还经常被中外媒体的文章及研究报告和学术论文所引用。
公司成立于1994年,是中国第一家金融财经电子信息公司,成立大约10年后开始推出终端软件;其目前提供适配PC、智能手机、平板电脑的金融和经济终端,以及广泛齐全、准确、不间断的金融数据服务,公司总部位于陆家嘴金融中心。
Wind资讯共经历过6轮融资,以汉世纪、中信产业基金、高瓴资本为代表的多家知名机构参与了投资。这家公司的发展历程和团队虽然没有Palantir那样的浪漫主义色彩,但占据着金融数据源和机构投资者市场,这两侧的压倒性竞争优势。
Wind资讯的金融终端(Wind Financial Terminal)内容涵盖股票、债券、期货、外汇、基金、指数、投资组合、宏观行业、新闻与研究报告,典型用户是证券分析师、基金经理等专业金融人士;
Wind经济终端(Wind Economic Terminal)整合中国和全球的宏观和行业经济数据,并配合指标计算和图形功能,是经济学家、策略分析师、行业研究员的数据分析工具;
Wind数据服务(Wind Datafeed Service)所呈现的包括历史参考数据、实时行情数据和高频行情数据,涵盖股指期汇等品种下,包括基本资料、行情、报价、财务、权益、公司行动等类型的数据。
图5,中证登,中金公司研究部
图5是中金公司基于2016年6月末的持仓金额和对渗透率、ARPU值的假设,预测到2020年,中国金融信息服务市场的规模将达到约160亿元,对应未来5年复合增速约21%。
这份报告引用赛迪咨询的统计(以下都为约数):2015年国内这一市场(终端投资者信息增值服务产品)规模为61亿元;
中金公司还测算了主要金融数据服务商此项业务的收入和市场份额:Wind资讯(~13亿元/ 21%)、同花顺(8.1亿元/ 13%)、益盟操盘手(7.2亿元/ 12%)、指南针(5.1亿元/ 8%)、东方财富(2.5亿元/ 4%)、大智慧(2.2亿元/ 4%)。
其中,Wind资讯以服务机构客户为主,并且垄断着机构投资者市场,而另外几家公司主要服务个人投资者,或者兼顾机构和个人;还没有一家在个人投资者市场中占据垄断地位。
图6将彭博和汤森路透此项业务在2015年的收入,也纳入到与国内主要金融数据服务商的收入对比中,显示出国内2015年61亿元的整体市场规模还不到彭博同期收入(621亿元)的十分之一,说明中国金融信息服务业还处在发展早期,具有极其广阔的增长空间。
在移动互联网、互联网金融和金融科技发展的背景下,用户使用金融终端产品习惯的改变、高科技企业涉足金融服务所带来的冲击,尤其以Palantir为代表的提供金融解决方案的科技公司可能对金融信息服务业形成的改造,这些是这个细分金融行业重要的趋势。
图7,公司资料,中金公司研究部
图7是彭博、汤森路透、Wind资讯(万得)、东方财富等公司产品和服务的价格。可见,客单价的差异是造成目前国内和国外主要金融数据服务商收入差距的重要原因。
如果对比Wind资讯与Bloomberg(彭博)的产品和服务,除了Bloomberg同时提供软件和硬件,而Wind资讯只有终端软件,另一个重要的差异是Bloomberg的服务组合中包括更多基于分析的解决方案,例如ALPHA多资产组合投资分析和风险解决方案,Bloomberg企业版中的资金管理、财务、投资者关系方案等。
Wind资讯等国内公司在现有的金融数据提供基础上,可以尝试开发更多增值服务,以提高客单价和客户定位。
展望新的金融科技生态体系
很多文献中虽然对大数据分析的环节或步骤有不尽相同说法,但总体可以分为收集、处理、分析、展示;大数据产业价值链也基于此被分为这四个部分。
其中,数据收集和数据处理是通过人工和/或机器学习,将非结构化数据转化为结构化数据;数据分析对主体做标签化及构建进一步的知识图谱;数据展示通过表格和图形等,将上一步的结果呈现出来。
图8表示Wind资讯和Palantir Technologies所代表的两类公司在产业价值链中的相对位置;纵轴为大数据商业智能产业价值链的主要部分,横轴为其产品和服务的智能化程度。
Wind资讯收集和处理各个品种和类型的金融数据,但并不与其它非金融和经济的指标数据做关联,也就是不构建知识图谱;Palantir则集成金融和非金融的多源数据,基于知识图谱做数据分析和展示,从而可能帮助分析人员获得更有价值的洞察。
大数据和人工智能的连接关系意味着大数据和这个时代的商业智能具有基本相同的产业价值链结构,不同之处是大数据商业智能产业价值链在数据处理和分析部分更加智能化,在展示环节专注于金融业务需求。
Palantir金融业务和Wind资讯具有高度互补性,它们所代表的两类公司相互之间可以战略合作,共享数据资源、分析技术和客户市场,将为各自带来新增长点和竞争优势强化。
可以从垂直和水平两个视角来看这两类公司的互补性,垂直上,合作的双方可以让自身业务和市场沿大数据商业智能产业价值链进行延伸,从而获得新增长点;
水平上,双方以类组织经济或组织经济的形式,将数据提供、大数据分析,以及各自的客户市场整合为一条内部价值链,实现以更低的成本产生更高的数据价值,从而强化自身相对于产业价值链各个部分的竞争对手的优势。
通过这样的合作或联合,Wind资讯所代表的数据源和API提供商(金融信息服务公司),垂直上可以尝试在现有数据提供的基础上,增加更多数据分析和展示环节的业务,水平上可以让其数据服务进一步智能化;
对Palantir来说,垂直上为自身增加了高质量金融数据资源的获取渠道,可以优化模型和分析,水平上可以更低成本和更快速地获取金融机构客户。
Wind资讯在一年前已经有了类似的看法。2015年12月,Wind资讯董事长陆风出席了在浙江乌镇举行的第二届世界互联网大会,在“互联网+”论坛子议题“金融信息服务:市场与发展”的讨论中,他提出金融信息服务走向连接和智能时代,要把整个互联网上所有连接的数据为金融行业服务所用。
陆风认为,一方面因为互联网和大数据的发展,今天专业投资机构对数据的要求,不再限于金融和经济领域,而是走向了全社会;另一方面因为机器学习和基于语义方面的技术进步,原来的数据可能是收集很齐全的结构化数据,例如交易所、统计局的数据,现在智能的分析要求更准确、更及时、更个性化的数据来进行建模。
陆风说:“通过我们的技术,通过我们的语义,通过我们的深度机器学习做出一些智能化的客户所需求的东西,这是我们在产品上面怎么样去创新,更好服务客户的一些想法”。
如果从数据提供和数据价值两个大方面来看本文的“金融科技新生态”,那么Wind资讯所代表的金融信息服务公司是新生态体系的基础构成;Palantir Technologies所代表的大数据分析服务公司则是整个生态体系的核心价值构成。
由智能化程度(x轴)、基础或核心价值(y轴)、产业价值链纵深(z轴)三个维度,新的金融科技生态体系中不同类别的参与者都可以归入图9其中的八个象限:
图9是图8的扩展,描绘的是以大数据商业智能产业价值链为结构,实现数据价值的金融科技生态体系;不同于图1的产业全景,图9中只有这个生态体系中参与者的类别。
首先,产业价值链纵深的维度将所有参与者划分为三层,最顶层是客户,中间层是数据存储和分析(大数据)基础设施和分析服务,最底层是数据资源;
“客户”是相对的概念,中间层的参与者也是最底层参与者的客户,而最顶层的客户是最有价值的数据分析结果的购买和使用者,包括政府,银行、证券、保险、各类基金等金融机构,以及学术机构和媒体等。
进而,基础或核心价值的维度将所有参与者分为这两类,近处下方的长方体的两层都是构成生态体系基础的参与者,包括最底层以国家统计局为代表的政府机构、运营商、行业数据公司、物联网传感器、社交网络等,以及中间层的基础设施提供商;
远处上方的长方体的两层都是实现生态体系核心价值的参与者,包括中间层的分析服务提供商和最顶层的客户。
最后,在智能化程度维度上,除了顶层客户,每一层每一类的参与者被从左至右按照智能化程度从低到高排序,最底层从国家统计局到社交网络,数据资源越来越非结构化且与金融不相关,对中间层参与者的智能化要求也越高;
中间层基础构成的左边是金融信息服务公司,不做知识图谱分析,右边是大数据基础设施提供商;
中间层核心价值构成的左边是传统咨询机构,如麦肯锡、波士顿咨询,主要由人工基于准确的结构化数据做分析,右边是以Palantir Metropolis为代表的通过人机结合提供大数据分析服务的产品。
(作者:王思宇)