抽样分布的问题-如何抽样

jmpamao

5280

收藏 2012-11-16

悬赏 50 个论坛币已解决

题目来源于：商务与经济统计 by 安德森，Electronics Associates 公司的抽样问题
问题：
      1、如何抽样？文件中有2500行数据，抽取30个数据
Salary Training
1  55769 No
2  50823 Yes
3  48408 No
.....
30 51767  No

   2、500个简单随机样本样品均值和样品比率的抽样分布

EAI.XLS
大小:(136 KB)

马上下载

需要写代码
如果能把500个样品均值和样品的比率的直方图近似正态画出来更好

最佳答案

qoiqpwqr 查看完整内容

对行数进行抽样

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

qoiqpwqr

2012-11-16 22:18:34

jmpamao 发表于 2012-11-17 09:19
sample 的话，怎么抽取，两列呢，比如
salary training
..... yes

对行数进行抽样

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jmpamao

2012-11-16 23:17:48

顶一下抽样分布的理解与使用能力，重中之重了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

qoiqpwqr

2012-11-16 23:44:17

直接用sample就好了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jmpamao

2012-11-17 09:19:21

qoiqpwqr 发表于 2012-11-16 23:44
直接用sample就好了

sample 的话，怎么抽取，两列呢，比如
salary  training
..... yes
.....    no
..... yes
......

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jmpamao

2012-11-18 02:11:21

#2500 salary and training
x <- read.csv("EAI.csv",header=T)
x <- x[-2501,]

mean(x$Salary)  #总体均值
sd(x$Salary) #总体标准差
p <- length(x$Training[x$Training == "Yes"] )/2500 #总体比率

#一个点估计
x1 <- x[sample(rownames(x),30),]
mean(x1$Salary)
p1 <- length(x1$Training[x1$Training=="Yes"])/length(x1$Training)

#500样品容量为30的简单随机样品均值和p比率的直方图
op <-par(mfrow=c(2,1))

x.salary <- function(){
  a <- x[sample(rownames(x),30),]
  xn <-mean(a$Salary)

  return(xn)
}
x.sal <-replicate(500,x.salary())
hist(x.sal,probability =T,col="lightblue")
lines(density(x.sal))

p.training <- function(){
  a <- x[sample(rownames(x),30),]
  pn <-length(a$Training[a$Training=="Yes"])/length(a$Training)
  return(pn)
}

p.tra <-replicate(500,p.training())
hist(p.tra,probability= T,col="lightblue")
lines(density(p.tra))
par(op)
有错误，x.salary 和p.training, 不关联，X随机抽取后，没有关联到P， x,p 相互独立，再改改看

附件列表

抽样分布.png

原图尺寸 6.99 KB

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

jmpamao

2012-11-18 02:16:36

qoiqpwqr 发表于 2012-11-17 11:36
对行数进行抽样

qoiqpwqr 帮我看看此程序有没有问题？
另外为什么hist图中， density的ylim很怪！
谢谢

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

qoiqpwqr

2012-11-18 03:02:55

jmpamao 发表于 2012-11-18 02:16
qoiqpwqr 帮我看看此程序有没有问题？
另外为什么hist图中， density的ylim很怪！
谢谢

没有问题。

hist中的y轴是因为你设置了prob=T
可以把它改成F看看不同的地方。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jmpamao

2012-11-18 11:36:14

qoiqpwqr 发表于 2012-11-18 03:02
没有问题。

hist中的y轴是因为你设置了prob=T

prob=F, 是频数， prob=T 是相对频率，上面的图，1,2,3,4。。。都大于1了，所以疑惑，x和p 也不关联，我再想想

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jmpamao

2012-11-18 12:56:40

#2500 salary and training
x <- read.csv("EAI.csv",header=T)
x <- x[-2501,]

salary.training <- function(){
  a <-x[sample(rownames(x),30),]
  xn <-mean(a$Salary)
  pn <- length(a$Training[a$Training=="Yes"])/length(a$Training)
  return(c(xn,pn))                 #关联 x, p
}

sal.tra <- replicate(500,salary.training())
s.t<-matrix(sal.tra,ncol=2,byrow=T)
s.t <- as.data.frame(s.t)

op <-par(mfrow=c(2,1))
hist(s.t$V1,prob=T,col="lightblue",xlab="salary")
lines(density(s.t$V1))

hist(s.t$V2,prob=T,col="lightblue",xlab="training")
lines(density(s.t$V2))
par(op)

附件列表

抽样分布.png

原图尺寸 10.57 KB

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

qoiqpwqr

2012-11-18 13:48:26

jmpamao 发表于 2012-11-18 11:36
prob=F, 是频数， prob=T 是相对频率，上面的图，1,2,3,4。。。都大于1了，所以疑惑，x和p 也不关联， ...

prob = T的话，得到的histogram的总面积是1

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

最佳答案

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群