书城管理大数据在中国
4433900000021

第21章 大数据与思维变革(2)

在大数据时代,一些烦琐的数据管理流程可能只是一片“云”就能解决的工作。比如一个客户订单通常需要经过ERP、供应链管理、产品数据、库存等多个企业数据管理系统。这很复杂,其流程就像人的思考一样,需要不同的工序来加以实现,最后完成选择,采取行动。

而目前,中国绝大部分企业的数据化管理模式仍旧采用一个个独立分散的系统。正如某位研究大数据的人士所说:“如果能有一个合适的云存储系统,就可以将这些数据整合在一起,做到对企业运行一目了然。”

云存储便是实现这些功能的前提,它让复杂的问题变得简单了,而它也正是大数据思维的集中体现,让一切复杂的问题变得简单。我们在理解大数据时,必须汲取这种宝贵的营养,让它渗入我们新的思维中,用集中化和简单化的思考去解决问题。

让我们想一下巴菲特的忠告:简单胜复杂。巴菲特经常可以把烦琐的投资问题用最简单的逻辑解释清楚,比如他的价值投资哲学。为什么我们大部分人不爱简单爱复杂呢?越是真理越简单,越是谬论也就越复杂。这个世界上的成功之道表明,凡是真正的成功哲学,它通常不是非常复杂的,而是非常简单的一个系统。不仅在投资理念上,也在做人的哲学上,更在于企业的管理和生产控制上。比如云存储,它能够带来更为简便、精确的效果。

在办公文件的高效、规范管理上,云存储也大有可为。首先需要搭建服务器,然后再由专人进行日常维护,但投入高,操作复杂,专业性强。一项工业设计的多个修改版本,即使通过不同文件名来区分仍可能出现混淆不清甚至丢失的情况,尤其对于工业设计这样的特定行业来说,办公文件的规范管理可能更受重视。企业如果要建立自己的数据中心整合数据,只需根据自己的需要租用中心服务器的一个空间,便能实现云储存和运算服务。

巴菲特说,他的价值投资之道非常成功,却非常简单。多简单呢?简单到“三高”都不需要:一不需要高等数学,二不需要高学历,三不需要高智商。这三种复杂的东西都是无用的,因为都偏离了投资的真相。

他说:“我从来没发现高等数学在投资中有什么作用,只要你懂一些小学算术就足够用了。如果高等数学是必需的,我就得回去送报纸了,我从来没发现在投资中高等数学有什么作用。要想成功地进行投资,你不需要懂得什么专业投资理论。事实上大家最好对这些东西一无所知。投资并非智力竞赛,智商高的人未必能击败智商低的人。”

老子的《道德经》中有一句话,叫作“道可道,非常道。”又说:“吾言甚易知,甚易行。天下莫能知,莫能行。”讲的都是巴菲特所言的这个道理。有一位工业设计公司负责人对我说:“使用传统依靠文件名来区分的存储模式很容易造成版本的混淆,这其中再加上设计师人员的流动、异地协作设计等因素,经常造成设计成果的丢失。”

因此,工业设计就是一个需长期与文本资料打交道的行业。一项设计成果的最终定型要经过设计师们的反复修改,这其中经历了设计、修改、审核、讨论、再修改、再审核的多个环节后,就产生了许多设计版本。那么要想获得利润还有可能吗?很难,在这种设计思维的主导下,利润就会被压缩到最低。

对任何一个行业、一项事业来讲,要想获得最大的利润,只有两个字:简单。

可以不精确,必须尽量多

在我们从技术层面来萃取或者处理数据的时候,思维的混乱也会发生。其实,混乱的起源和类型本来就是“一团乱麻”。比如,我们在利用Twitter的信息进行情感分析来预测好莱坞票房的时候,就会出现一定的混乱。

在这其中,混乱的表现其实就是格式的不一致。我们要想达到格式一致,就需要在进行数据处理之前仔细地清洗数据,而这在大数据背景下是很难做到的。

为了规模的扩大,我们往往接受适量错误的存在,当然也包括思维的错误。正如技术咨询顾问凯艾尔先生对我说的,有时得到2加2约等于3.9的结果,也很不错了。值得注意的是,错误性并不是大数据本身固有的。它只是我们用来测量、记录和交流数据的工具的一个缺陷。

大数据也不需要进行抽样才能获得最后的结果,以得到最终的规律。因为它获得的数据是全体的样本数据,从巨大的样本数据中进行分析总结,所以它能够允许不精确,但一定要有足够多的数据量。并且,它也不需要数据的来源(比如用户)具体回答什么问题,而是实打实地去获取用户的“一切行为”,记录他们的全部信息,并一样不差地全部复制过来,变成用以分析的参考数据。

大数据不仅让我们不再期待精确性,也让我们无法实现精确性。当然,数据不可能完全错误,但为了了解大致的发展趋势,我们愿意对精确性做出一些让步。如果说哪天技术变得完美无缺了,不精确的问题也就不复存在了。错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。如今,大数据给我们带来的利益,让我们能够接受不精确的存在了。

假设你要测量一个葡萄园的温度,但是整个葡萄园只有一个温度测量仪,那你就必须确保这个测量仪是精确的而且能够一直工作。如果变成每分钟测量十次甚至百次的话,不仅读数可能出错,连时间先后都可能搞混掉。因此我们为了获得更广泛的数据而牺牲了精确性,也因此看到了很多如若不然无法被关注到的细节。如果每隔一分钟就测量一下温度,我们至少能够保证测量结果是按照时间有序排列的。

试想一下,如果信息在网络中流动,那么一条记录很可能在传输过程中被延迟,甚至干脆在奔涌的信息洪流中彻底迷失,在其到达的时候已经没有意义了。虽然我们得到的信息不再那么准确,但收集到的数量庞大的信息让我们放弃严格精确的选择变得更为划算。

再假设如果每100棵葡萄树就有一个测量仪,有些测试的数据可能会是错误的,但众多的读数合起来就可以提供一个更加准确的结果。而它提供的价值不仅能抵消掉错误数据造成的影响,还能提供更多的额外价值。因为这里面包含了更多的数据,也不会更加混乱。

凯艾尔说,我们为了高频率而放弃了精确性,结果观察到了一些本可能被错过的变化。虽然如果我们下足够多的工夫,这些错误是可以避免的,但在很多情况下,与致力于避免错误相比,对错误的包容会带给我们更多好处。

有时候,当我们掌握了大量新型数据时,精确性就不那么重要了,我们同样可以掌握事情的发展趋势。这又是一个关注焦点的转变,正如以前,统计学家们总是把他们的兴趣放在提高样本的随机性而不是数量上。因为在进行数据转化的时候,我们是在把它变成另外的事物。

然而,除了一开始会与我们的直觉相矛盾之外,接受数据的不精确和不完美,我们反而能够更好地进行预测,也能够更好地理解这个世界。因为拥有更大数据量所能带来的商业利益远远超过增加一点精确性,所以通常我们不会再花大力气去提升数据的精确性。

大数据的非标准性,迫使我们要讲究效率但可以不追求极致精确。

●要知道,95%的数据都是非标准化的,5%的数据是标准结构化数据。

●大数据处理要考虑全部数据就要接受非标准数据,不能以部分代替全局,数据分析的一个必经过程就是将混杂的非标准化数据标准格式化。

●网络上的贴标签方式就是很好的归集到标准化数据上的一个例子。因此人们需要收集纷繁复杂的数据。

☆描述性的分析

什么是描述性的分析呢?通俗来说,就是我们常看到的报表、图标、统计图等等。我们期望通过描述性分析来了解过去发生了什么,为什么发生,以及了解现在正在发生什么乃至未来会发生什么。然后进行理性的思考,我要做什么样的事情,我想要未来发生什么,能够在未来让这件事情发生。

也就是说,在最好的情况下,我们能够将描述性分析对未来做出某种预测,并且保证预测的精确性。

☆实时性

对于任意数据来说,实时性都是非常重要的。它不仅仅是一大类的思维和方法学,而且实时性一定比绝对的精确性更重要。众所周知的购物篮分析,就是基于历史的数据做出相对精确的分析。最好的时机是用户还在浏览、找东西的时候,而不是最后结账的时候,所以这是当你在超市购物的时候所能想到的一个非常实用的问题。