一、统计学概述
1、 概念:
统计学是一门收集、处理、分析、解释数据并从中得出 结论的科学
2、核心:数据
统计学的对象是数据
3、统计学分析数据的方法
描述性分析方法
总体规模、对比关系、集中趋势、离散程度、偏态、 峰态、......
推断性分析方法
估计、假设检验、列联分析、方差分析、相关分析、 回归分析、......
4、基本概念
1. 数据的形式
数据的形式有两种:数字和文字
数字: 严格的数学上的符号,可以进行比较、加减乘除等运算,常常用阿拉伯数字表示;
文字: 不可运算,如男、女等。
两者本质区别:是否可运算
Q1:阿拉伯数字一定是数字吗?
阿拉伯数字不一定是数字。 如:在处理数据时,我们有时候把男记作1、女记作0, 此时的1和0是数字吗?实际上,阿拉伯数字符号只是一个代替的符号而已,数字常可以用阿拉伯数字符号来表示。 有时候,阿拉伯数字符号也可以用来表示文字。
2、数据的分类
分类标准:计量尺度
分类型数据(categorical data)
(1)定义:对事物进行分类的结果 例如:人口按性别分为男、女两类; 学校的专业分为经济学、会计学、统计学
(2)特点:数据表现为类别,用文字来表述
顺序型数据(rank data)
(1)定义:对事物类别顺序的测度 例如:产品分为一等品、二等品、三等品、次品等。 (2)特点:数据表现为类别,用文字来表述
分类数据和顺序数据都需对事物进行分类,不同的是顺序数据的类别可以进行排序,因此, 顺序数据比分类数据级别高一些。有时候我们把这两类数据统称为定性数据。
数值型数据(metric data)
(1)定义:对事物的精确测度 例如:身高为175cm、168cm、183cm,人的年龄18 岁等。 (2)特点:结果表现为具体的数字。
与定性数据对应的,有时候我们把数值型数据称为定量数据。
link
定距可以做加减,不能做乘除;如果该数值类型数据中0并不是表示没有,而是具有独有的含义,比如0摄氏度、公元0年,诸如此类的数值型数据划归为定距型数据
区间(分组的数值型数据)仍属于数值型
不同类型数据之间往往可以进行转换(高级→低级,反之不行)
低级数据的方法高级数据可以用,但高级数据的方法低级数据不可以用
数据的其他分类
- 按来源不同分:直接来源(一手数据、原始资料)、间接来源(二手数据、次级资料)
- 收集方式不同分:观测的数据 实验的数据
- 按与时间的关系不同:截面数据 时间序列数据 混合数据(面板数据)
- 一种特殊的数据:虚拟变量数据
3、总体和样本
总体(population)
指研究的所有元素的集合。其中每个元素称为个体。
如:现研究全校学生的平均年龄 总体是:全校所有学生
【问题】实际中,总体的个体往往难于一一研究,如何解决? ——抽取样本
样本(sample)
从总体中抽取的一部分元素的集合
如:为研究全校学生的平均年龄,由于总体太大,而从中抽取100人进行研究,该研究中的样本是抽取的这100个学生。
构成样本的元素的数目称为样本容量。
4.参数和统计量
参数(parameter)——针对总体
指研究者想要了解的总体的某种特征值,
主要有总体均值()、标准差()、总体比例()等
统计量(statistic) ——针对样本
指根据样本数据计算出来的一个量,即样本的某个特 征值;
常见的统计量有样本均值(x)、样本标准差(s)、样本 比例(p)等。
利用样本的统计量推断总体的参数
5、变量
概念
指描述事物某种特征的概念,如商品销售额、受教育 程度、产品的质量等级等。
变量与数据的关系
变量的具体表现称为变量值,即数据。
变量的分类:
根据变量的数据计量尺度不同来分:
A.分类变量(categorical variable) :说明事物类别的一个名称
B.顺序变量(rank variable) :说明事物有序类别的一个名称
C.数值型变量(metric variable) :说明事物数字特征的一个名称