前 言
高中以来,数学一直是我弱项,但我喜欢与金融相关的专业。 而想要在金融行业立足,扎实的数学功底必不可少,所以我毅然选择了统计专业。
第一章
引言部分首先就提出了大数据在公共事业的各个方面所产生的作用,通过这一部分的阅读我想到了上学期学习的社会科学研究方法中的回归分析,虽然只是做了一个粗略的了解,但是,结合大数据在机票价格预测上的应用,其实就是利用了回归分析的模型,所以说,大数据就相当于湖泊中的水,我们可以将他去发电、饮用、作为一个景观,而类似回归分析这样的思路或研究方法就发挥着水坝、水管的作用,这也印证了作者之后的一个观点,即大数据使全样本数据可以循环使用,而不必像抽样调查所得到的数据那样阅后即焚。其实令我感兴趣的并不仅仅是关于大数据的叙述,而是作者在引言部分以人类学的宏观视角出发对知识爆炸所做的一番简短的陈述,在寒假的时候我阅读了最近较为火爆的《三体》,其中对人类的知识结构做了一番生动的阐述,拿物理学来说,如果没有基础物理知识作为支撑,在此基础之上的技术是具有瓶颈的,再结合到本书中说的技术爆炸,就意味着在基础领域上,出现了新的突破或新学说,从而使得技术能够进化到今天能够处理大数据的程度。所以总体来说,引言部分主要提出了数据自身的特性、数据与技术的关系,以及粗略的应用部分。
第一章节介绍大数据特性,相信早已被很多人烂熟于心,简而言之,即全数据收集、混杂性、追求怎么样。而我阅读的这一部分是全数据收集的部分。在这一部分中,我认为对大数据的“大”所做的一番解析是最为重要的一个概念区分,文中说“大”并不是单纯的样本数量大,大数据的“大”是相对意义而不是绝对意义。我总结了就是全而非多在一个数据集合中,可能只有个位数的数据,但是你全部收集了,就可称之为大数据,如果数据量级以上万计,即使样本有上千个,远远超过前一个数据集合的百倍,都不能称之为大数据,所以大数据,我认为在第一章节这一部分的语境中,就是指全数据。在互联网领域,大数据如日中天,但感觉已经没有当初横空出世时的惊世骇俗。
第三章
一个好的购物推荐系统应该只推荐一样东西,就是你将要买的东西。
大数据时代,知道“是什么”比知道“为什么”更有价值。
大数据背景下,相关关系大放异彩。相关关系的核心是指两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能会随之增加。
相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过揭示其内部的运作机制。
有时候我们只不过是被随机性愚弄了而已。某些东西看上去有前因后果,但很可能只不过巧合。
大数据下的相关关系一定是无法预测未来的,它只能预测未来的可能性,通过找到一个关联物并监控它,但这也很珍贵了。
建立在相关关系分析法基础上的预测是大数据的核心。
大数据分析的另一种方法,通过找出新种类数据之间的相互关系来解决日常需要。
在小数据时代,由于计算机能力不足,大部分相关关系分析仅限于寻找线性关系。
人类发展到现在一直都是把理论应用到实践中来分析和理解世界,但在大数据时代,我们不再需要理论,只要关注数据就足够了。这似乎暗示着“理论的终结”。但是大数据时代绝对不是理论消亡的时代,相反,理论贯穿于大数据分析的方方面面。
结 论
数字化时代使得信息搜集、归纳和分析变得越来越方便,传统的随机抽样被“所有数据的汇拢”所取代,基于随机抽样而变得重要的一些属性,如抽样的精确性、逻辑思辨和推理判断能力,就变得不那么重要,尽可能汇集所有数据,并根据这些数据得出趋势和结论才至为关键。简单说,以往的思维决断模式是基于“为什么”,而在“大数据时代”,则已可直接根据“是什么”来下结论,由于这样的结论剔除了个人情绪、心理动机、抽样精确性等因素的干扰,因此,将更精确,更有预见性。
参考文献
《大数据时代》