您好,欢迎来到 中国大学生在线

跃进的时代:向大数据迈进——读《大数据时代》有感

2016年04月21日 17:14:46 来源: 山东大学历史文化学院 作者: 字号:TT

读完了舍温伯格老师的《大数据时代》,对于其讲到的大数据时代的思维变革有了一些个人的想法,落于纸上,聊表己见吧。

首先来说,我们要步入大数据时代,我们便要逐步地、渐渐地放弃掉原有的一些固有的,存在于小数据时代的思维,熟悉新的思维,也就是我们要转变处理数据的理念。

这个时候,我们就要知晓三个more:也就是更多——不是随机样本,而是全体数据;更杂——不是精确性,而是混杂性;更好—不是因果关系,而是相关关系。那么这里的主体是什么?没错,就是数据,我们要接受由部分数据的向全体数据的转变;由精确性数据向混杂性数据的转变;由因果关系向相关关系的转变。或许这些东西在于我们看来,有些甚至是难以接受的,但是在看过《大数据时代》后,我也对于这样的三个转变也有了一些想法。

当数据处理技术已经发生了翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,“样本=总体”。这是作者舍恩伯格写于“更多——不是随机样本,而是全体数据”这一小节的序言。进入大数据时代,我们不再是去依靠一小部分数据,而是利用所有的数据。小数据时代的随机采样,它所指的是利用最少的数据去获得最多的信息,其采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。这样或许能保证准确性,但是它却忽略了一些所谓不重要,不典型数据所代表的信息,所以,如果我们将样本数量增大到全体数据时,也就是进入样本=总体的全数据模式时,我们便进入了大数据时代。大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。而当然,大数据中的“大”非绝对意义的大,指全体数据,有时并非真的“大”。书中提到一个例子,谷歌流感趋势预测并不是依赖于对随机样本的分析,而是分析了整个美国几十亿条互联网检索记录。分析整个数据库,而不是对一个小样本进行分析,能够提高微观层面分析的准确性,甚至能够推测出某个特定城市的流感状况,而不只是一个州或是整个国家的情况。这便是全体数据的魅力,它能够发现小数据时代不能发现的太多太多东西。

更杂这一点中,作者提到执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。在大数据时代,我们要接受数据的混杂性。或许我们会有疑问,数据量的大幅增加会造成结果的不准确,与此同时,一些错误的数据也会混进数据库。这样许多许多的不准确进入分析,难道不会导致结果不精准吗?但是我们从不认为这些问题是无法避免的,而且也正在学会接受它们。这就是由“小数据”到“大数据”的重要转变之一。虽然我们得到的信息不再那么准确,但收集到的数量庞大的信息让我们放弃严格精确的选择变得更为划算。就如葡萄园的温度计的例子。我们为了高频率而放弃了精确性,结果观察到了一些本可能被错过的变化。这就是大数据时代接受混杂的魅力。我们一方面没有精力和能力去详细地分析所有数据的精确性,另一方面我们也没有必要去分析。就如作者所说,大数据时代要求我们重新审视精确性的优劣。当我们掌握了大量新型数据时,精确性就不那么重要了,我们同样可以掌握事情的发展趋势。大数据不仅让我们不再期待精确性,也让我们无法实现精确性。错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。因为拥有更大数据量所能带来的利益远远超过增加一点精确性,所以通常我们不会再花大力气去提升数据的精确性。这又是一个关注焦点的转变,正如以前,统计学家们总是把他们的兴趣放在提高样本的随机性而不是数量上。如今,大数据给我们带来的利益,让我们能够接受不精确的存在了。

但是,我个人认为,在大数据时代我们要努力去接受混杂性,变得不再去竭力避免混杂性,而是把它当做分析数据的标准途径。但是,这并不意味着我们要放弃精确性。在一些领域中,我们有着无论如何不能放弃精确性的理由,混杂性和精确性不应该放弃其中的任何一个,而是应该结合起来。

在大数据时代,我们要关注到相关关系,在大数据我们不必非得知道现象背后的原因。那么什么事相关关系呢?举个例子,孙兴金同学看到“所谓父女母子一场。。。。。”提出了“所谓舍友一场。。。”。我们细细分析,阿金的思维经常让大家大吃一惊,所以前提条件为阿金有非常的思维,经常提出非一般的想法。所以当我们知晓阿金看到了“所谓父女母子一场。。。。。”的时候,我们不难想到阿金同学会想出一个非一般的想法。这就是相关关系。相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。那么构建相关关系的重点就是关联物的寻找。这一点在小数据时代也许是困难的,但是大数据时代则不然,一来关联物寻找简单;二来分析法更准确、更快,而且不易受偏见的影响。我们可以非常严肃地提出建立在相关关系分析法基础上的预测是大数据的核心。这预测依赖的是相关关系,而不是因果关系。它告诉你的是会发生什么,而不是为什么发生。相关关系能为我们提供新的视角,而且提供的视角都很清晰。而我们一旦把因果关系考虑进来,这些视角就有可能被蒙蔽掉。

同样,个人认为,大数据时代中,我们要去接受相关关系,去利用它发现很多,但这并不意味着我们要放弃因果关系,同样有太多的理由让我们不能放弃。

这三点便是大数据时代的思维变革。我们要努力接受他们,向大数据时代迈进。

[责任编辑:刘宇宏]

读后感 大数据时代

我要评论( 网友评论仅供其表达个人看法,并不表明本站同意其观点或证实其描述。)
用户名: 快速登录

全部评论0条)

关于我们 共建单位 联系方式