《bit by bit 计算社会学》读书笔记
第二章 观察行为
大数据
1.大数据定义:大量被不断创建的各种类型的数据,具有variety多样,volume大量,velocity高速
2.大数据资源:a. 由公司创建和搜集的在线数据;b.现实世界中数字设备所产生的越来越多的公司的大数据资源(例如超市的结账数据);c.政府创建的数据
3.10个共同特征
一、有利于研究的:
A.海量性:数据规模很大,但是大数据也是为了目的(a.对稀有事件的研究;b.对异质性的研究;c.发现细微的差异)服务的手段,而非最终目的;
B.持续性:大数据的持续运行、不断搜集数据,使得研究突发事件和进行实时监测成为可能;
C.不反应性:大数据中的对象不太可能改变行为,反应性是指被观察对象发现自己在被观察时就会有意识地改变自己的行为
二、不利于研究的:
A.不完整性:无论多大规模,仍可能没有你想要的信息,大数据通常缺少有关参与者的统计信息、在其他平台上的行为以及使概念化的理论具有可操作性所需的数据;
B.难以获取:研究人员很难获取公司和政府所持有的数据资源(商业、法律、伦理限制)
C.不具代表性:不利于样本外的泛华,但对样本内的对比还是很有用的。代表性数据指从明确的总体中抽取的随机样本数据,能够代表总体的属性。
D.漂移:用户漂移(使用系统的人变化),行为漂移(人们使用系统的方式变化),系统漂移(系统本身的变化)
E.算法干扰:大数据系统中的行为不是自然发生的,而是在系统设计目标的驱使下发生的。更为复杂的算法干扰是 当在线系统的设计者意识到社会理论的存在并将其录入系统的运行方式中时,会以使世界与理论更为符合的目的改变着世界,也被称为述行性。
F.脏数据:垃圾和重复数据,难以清理,为解决这个问题应该尽可能了解数据是如何创建的;
G.敏感性:公司和政府拥有的一些数据是敏感数据
4.研究策略
目的:获取有用的信息
A.计数:
判断研究重要性的方法:是否对决策者的重要决定有显著影响或能否为期提供可观的信息。
B.预测和临近预测:
临近预测是现在和预测的结合,利用预测出的观点了解世界的现状,试图预测现在,比如流行病学。
C.近似实验:
使用近似实验代替无法开展的实验,在进行这样的实验时,需要面临是否是自然随机事件,
适用于根据非实验数据进行因果推断的策略是:
自然实验
在日常生活情境中进行的心理实验。主要特点是:①主动性:按照研究的目的有意控制或变化某一条件,以引起特定的心理现象,再对其进行考察或作定量分析;②自然性:让被试处于日常活动的环境中,并尽量不让其觉察到实验者的意图以及自己是实验的对象。
优点:前一特点使其有可能避免观察法等待考察现象出现需时过长或难以分辨结果的多因性等缺点,后一个特点使其有可能排除实验室实验中因人为的实验环境或紧张气氛影响被试心理表现等,兼具观察与实验室实验的优点。
缺点:自然实验的结果不如在实验室中采用各种精密仪器、设备所作的记录精确。
对非实验的数据进行统计调整(排除接受研究和非接受研究的人在研究开展前就存在差异的影响)
↑调整方法:匹配与删减 对非实验数据的人进行两两配对,除了一个接受研究一个未接受研究以外,其他方面都要很相似,所以要删除没有明显相似点的个体数据。