第8期 | 大数据的基本原理和应用模式

核心提示:大数据有三个很重要的新技术,一个是通过流计算实现实时的数据处理,二是内容计算,实现对非结构化数据的自然语言处理和文本分析;三是数据可视化。

谢国忠:IBM大中华区全球企业咨询部副合伙人、业务分析与优化服务中国区总经理

企业所面临的海量数据环境,如果从数据类型和数据形态两个维度来切,我们可以把整个企业数据分为三大类:

第一类是静态、海量结构化数据:比如企业的人、财、物系统、ERP系统、CRM系统等。这类数据往往可以通过构建“企业级数据仓库平台”来进行数据整合,通过商业智能应用来实现业务报表、决策分析和数据挖掘。

第二类是静态、海量非结构化数据:比如文本、报告、音频、视频、社交网络、邮件等。这类数据往往需要企业建立一个“非结构化数据平台”,实现非结构化数据的存储,进而实现企业搜索、文本分析和内容挖掘。

第三类是动态、海量流数据:比如网络点击流、日志文件、实时传感信息、实时位置信息、实时行情信息等。这类信息是流动着的信息,流数据就像流水一样,如果我们建一个大坝,它就能用来发电。这类数据可以通过建立“流数据平台”,实现实时的产品推荐,实时的欺诈监测,实时的质量控制等。

数据仓库平台、非结构化数据平台,再加上流数据平台,这三个平台结合在一起,我们才叫做一个大数据平台。

既然大数据有三个平台,这就决定了大数据的架构是一个混搭的架构。实时的流数据平台,实现实时的流计算。非结构化数据平台,实现内容计算。而传统的数据仓库平台,实现传统的数据挖掘、报表分析和监管的需求。

大数据来了以后,这里边有三个新的技术。一个是流计算,二是内容计算,三是数据的可视化。下面我分别进行介绍。

首先讲流计算。所谓的流计算其实是一种内存计算。实时的被抓取影像资料、网络点击流、传感数据、网络日志、时间和空间信息等,连续地注入到这个平台。这个平台是基于内存计算的。在这个平台,我们可以部署很多业务规则,比如满足一个什么业务规则,就触发什么业务结果,从而实现实时的业务分析与判断。

在电信行业,流计算的案例已经有很多,典型的应用有:基于手机的实时人口密度统计、实时异常话单检测等。在银行业,典型的案例包括:实时的信用卡欺诈侦测和实时营销与产品推荐等。

移动行业的异常话单实时监测。比如一个人打电话,一分钟内打通20个电话,并且是20个不同的人,电话响3秒钟后就挂断了。我们曾经老收到这种电话,这是一种典型的欺诈电话。有了流数据平台以后,就可以从电信交换设备中直接抓取电信信元数据,放在流数据平台里,在流数据平台部署相应业务规则。当同样模式的电话进来之后,系统就会马上跳出来,这是一个欺诈电话,从而将它阻挡或捕获。

同样的技术,可以实现实时的人口密度统计。比如说在鸟巢有一场演唱会,我们可以实时统计,使用中国移动的用户有多少人在那里,使用电信的有多少人在那里。

在银行领域,流数据平台可以用来实现信用卡的实时欺诈监测,某银行也曾考虑,利用流数据平台,来实现面对全球金融市场的、实时的报价平台。某交易所也考虑,用这种平台来实现交易所的撮合配对系统。交易所的买方和卖方,是通过价格优先和时间优先,来进行撮合配对的,这种特性,符合流计算应用的特性。

很多电商公司在使用流计算技术。京东,阿里在使用开源的Storm做流计算,做实时处理。IBM也有一个类似的流数据产品平台,叫Streams。

其次是内容计算。内容计算是自然语言处理、文本分析与内容挖掘,它针对非结构化的数据处理。比如说从网络上找到一个网络链接,通过爬虫技术,爬下这篇新闻文章,爬下来的原始文本不能进行分析。但爬下来的文本,可以做中文的分词,分词完之后可以贴标签,并进行关键词的选取,同时可以对这个文本进行归类。通过这一系列的处理以后,原始文档就变成了语义文档,就可以做很多业务含义的东西。比如词频统计,一个词的高频度的出现,它可能反映一定的业务规则。比如情感分析,中文的词语是带有情感的,比如“高兴”是一个正面的词,“讨厌”是一个负面的词,有些词是中性的,通过词的情感,可以做很多业务含义的分析。另外还可以进行词的关联分析、时间序列分析、趋势分析等。

再其次是数据可视化。大数据里面存储了海量的数据,怎么用最经济、最直观的方法,揭示数据之间的隐含关系,并用图形化的方式展示出来,这个技术叫做数据可视化。你看这个图,这是IBM中国研究院研发的一个新型的浏览器,被称之为双弧形的浏览器,它能以图形化的方式展示了数据的层级关联关系。这一张图,是百度开发的人口迁徙的图,基于百度地图LBS位置信息做出来的。这一张图,是腾讯QQ同时在线分布图,很直观明朗。还有这些图,是财新网的数字说新闻,财新网也成立了数据可视化实验室。

以上是我介绍的第二部分内容。总结一下,大数据有三个很重要的新技术,一个是通过流计算实现实时的数据处理,二是内容计算,实现对非结构化数据的自然语言处理和文本分析;三是数据可视化。太多的技术细节我就不阐述了。

本文节选自第8期清华·照澜书院《谢国忠:大数据及其在各个行业的应用与实践》。

书院活动

【每期主题】
当下商界热议的管理问题或其它值得分享的管理话题
【主讲嘉宾】
优秀公司主要负责人或某领域资深专家
【活动地点】
清华大学照澜院15号(或其他特别指定地点)
【参与对象】
企业家、企业中高层管理者、创业者、清华校友
【报名方式】
在《清华管理评论》微信公众平台(tbr2013)回复“照澜书院报名+姓名+公司+职务+手机号码+邮箱”