马云:做淘宝不是为卖货而是获得数据。今天阿里巴巴公司本质上是一家数据公司,我们做淘宝的目的不是为了卖货,而是获得所有零售的数据和制造业的数据;我们做物流不是为了送包裹,而是这些数据合在一起,我们对一个人的了解远远超过你,电脑会比你更了解你。
业界将大数据的特点归纳为4个“V”—Volume(大量)、Vvelocity(高速)、Variety(多样)、Veracity(精确)。大数据时代对人类的数据驾驭能力提出了新的挑战,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。
大数据是什么?是一种运营模式,是一种能力,还是一种技术,或是一种数据集合的统称?今天我们所说的“大数据”和过去传统意义上的“数据”的区别又在哪里?大数据的来源又有哪些?
先从“大数据”与“数据”的区别说起吧,过去我们说的“数据”很大程度上是指“数字”,如我们所说的客户量,业务量,营业收入额,利润额等等,都是一个个数字或者是可以进行编码的简单文本,这些数据分析起来相对简单,过去传统的数据解决方案(如数据库或商业智能技术)就能轻松应对;
而今天我们所说的“大数据”则不单纯指“数字”,可能还包括“文本,图片,音频,视频……”等多种格式,其涵括的内容十分丰富,如我们的博客,微博,轻博客,我们的音频视频分享,我们的通话录音,我们位置信息,我们的点评信息,我们的交易信息,互动信息等等,包罗万象。
用正规的语句来概括就是,“数据”是结构化的,而“大数据”则包括了“结构化数据”“半结构化数据”和“非结构化数据”。
由于数据是结构化的,数据分析可以遵循一定现有规律的,如通过简单的线性相关,数据分析可以大致预测下个月的营业收入额;而大数据是半结构化和非结构化的,其在分析过程中遵循的规律则是未知的,它通过综合方方面面的信息进行模拟,它以分析形式评估证据,假设应答结果,并计算每种可能性的可信度,通过大数据分析我们可以准确找到下一个市场热点。 基于此,或许我们可以给“大数据”这样一个定义,“大数据”指的是收集和分析大量信息的能力,而这些信息涉及到人类生活的方方面面,目的在于从复杂的数据里找到过去不容易昭示的规律。
相比“数据”,“大数据”有两个明显的特征:第一,数据的属性是包括结构化、非结构化和半结构化数据;第二,数据之间频繁产生交互,大规模进行数据分析,并实时与业务结合进行数据挖掘。
接下来还有一个问题,大数据的来源有哪些?或者这个问题这样来表达会更清晰“大数据的数据来源有哪些?”
对于企业而言,大数据的数据来源主要有两部分,一部分来自于企业内部自身的信息系统中产生的运营数据,这些数据大多是标准化、结构化的。(若继续细化,企业内部信息系统又可分两类,一类是“基干类系统”,用来提高人事、财会处理、接发订单等日常业务的效率;另一类是“信息类系统”,用于支持经营战略、开展市场分析、开拓客户等。)传统的商业智能系统中所用到的数据基本上数据该部分。
而另外一部分则来自于外部,包括广泛存在于社交网络、物联网、电子商务等之中的非结构化数据。这些非结构化数据由源于 Face book、Twitter、LinkedIn 及其它来源的社交媒体数据构成,其产生往往伴随着社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用。具体包括了:如,呼叫详细记录、设备和传感器信息、GPS 和地理定位映射数据、通过管理文件传输协议传送的海量图像文件、Web 文本和点击流数据、科学信息、电子邮件等等。
由于来源不同,类型不同的数据透视的是同一个事物的不同的方面,以消费客户为例,消费记录信息能透视客户的消费能力,消费频率,消费兴趣点等,渠道信息能透视客户的渠道偏好,消费支付信息能透视客户的支付渠道情况,还有很多,如,客户会否在社交网站上分享消费情况,消费前后有否在搜索引擎上搜索过相关的关键词等等,这些信息(或说数据)从不同的方面表达了客户的消费过程的方方面面。
因此,一般来说,企业用以分析的数据来源越广越全面,其分析的结果就越立体,越接近于真实。因此,大数据分析意味着企业能够从不同来源的数据中获取新的洞察力,并将其与企业业务体系的各个细节相融合,以助力企业在创新或者市场拓展上有所突破。针对“数据量”这个话题,亚马逊CTO Vogels曾经说过,“在运用大数据时,你会发现数据越大,结果越好。为什么有的企业在商业上不断犯错?那是因为他们没有足够的数据对运营和决策提供支持。一旦进入大数据的世界,企业的手中将握有无限可能。”
可以预料,在不远的未来,企业如何通过抓住用户获取源源不断的数据资产将会是一个新的兵家必争之地。在这个层面上,Facebook、Twitter、Google、Amazon,包括电信运营商等领先企业具有无可比拟的优势。
在大数据的领域里是否数据量越大越好?在大数据的具体应用面前,我们先要做的是把“大数据”这个概念忘掉,我们必须弄清楚到底想从大数据中得到什么,然后带着目的去收集有用的数据,输入至分析模型中,直接导向我们想要的结果。否则你将花费大量时间、资源成本去获取数据,分析数据。
我们需要大数据应用是能够帮助解决问题的行为洞察,而不是试图研究每一条能够得到的信息。不得不说,大数据的世界太魔幻了,里面的诱惑很多,如果你不是带着明确的目标去应用,你很有可能被陷入在五光十色的诱惑中无法自拔。即使你走进了一座金山,最后你能带走的最多也只是你能提动的一小口袋。另外,这同时也揭示,为了避免应用者困在“大数据的金山”,大数据必须往下细化,针对不同行业不同领域的特定问题制定不同的解决工具,未来大数据将会遵循消费化模式,核心基础设施将作为服务或应用程序来提供。
如果您喜欢这篇文章,就送梧桐子“”支持吧!
已获得0个“”