全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
2016-9-19 21:04:41
用R做大量数据的回归分析的时候才发现的问题。随机生成了1000000个自变量x和因变量y进行逻辑回归,result<-glm(y~x,family=binomial),为什么得到的result变量竟然有400多m!难道其中是包含了每一步中间过程迭代的结果吗?如果是的话,要怎么只得到想要的部分(系数和P值)呢?
PS,因为电脑的内存有限,在做这样的百万级别的数据分析时发现内存不足了,希望能得到解决的方法
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-9-22 18:06:54
您好!我做题组方面的研究,但是不擅长算法和写语法问题。我有一批这样的实证数据,4个题组,每个题组有5道题。我用的是双因子模型,采用SCORIGHT3.0估计出了每个题组的题组效应,但是需要以下这些指标来评价参数估计精度:Bias,绝对偏差MAE,误差均方根RMSE,估计值和真值之间的相关系数,95%置信区间对真值的故该比例(CP),95%置信区间的长度,这个需要另写语法,这些拟合指标的语法用R怎么写呀,或者你有推荐的R包可以参考么?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-9-23 15:39:30
大神您好,我有个问题想打扰您一下,请问用R语言怎样对几十个m*n矩阵进行分类,具体说就是96个4*10000的矩阵进行分类?最好用三种不同的方法。我想用支持向量机,可惜刚接触,一窍不通,需要大神慷慨相助,再次谢谢您了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-9-24 16:47:05
对一组300个样本点的数据进行核密度估计,得到的是核宽bw,和512个按升序排列的x点及512个y值,如何得到原样本点对应的概率密度估计值呢?是只能找到样本点所属的概率区间?还是通过得到的核宽,自己编写核函数求样本点对应的概率密度值呢?望楼主赐教啊!!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-9-30 10:41:01
请问,R运行函数polygenic_hglm时报错“Error in .local(x,...):cs sqr failed"该怎么解决啊?是什么原因造成的呢?谢谢了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-9-30 15:28:20
请问现在Rweibo还能用吗?如果不能了还有什么其他的方法能够抓取微博的文本数据呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-9-30 18:23:42
cbw1243 发表于 2016-6-26 09:15
暑假漫长,生活没有挑战。在此征集各类R语言疑难杂症,欢迎各位骚扰。
提出给力问题的,将予以100论坛币奖 ...
想问一下楼主,有啥入门书籍推荐没????这个问题不难,不要嫌弃
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-10-1 08:50:39
楼主,请问R怎么做面板,特别是个体效应模型,比如固定效应个体模型?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-10-10 11:48:07
R语言登录网站,爬取数据!要那种登录后才能看到数据的网站
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-10-11 16:54:58
求助一下吧。

我有一个df, 里面有FactVal, PredValue_Fix,分别是实际值和预测值。现在我算命中率。
用sqldf,写了这样的sql,这个sql在mysql里肯定没问题。但是貌似sqldf这个包不支持 if或者iif函数。
请问肿么办呢。 我希望用sql解决问题,又不想把数据导到数据库里,在dataframe 和database里倒来倒去。

sum_df = sqldf('select FactVal,sum(IF(FactVal=PredValue_Fix,1,0)) as HitNum, sum(IF(FactVal<>PredValue_Fix,1,0)) as NoHitNum from Fact_Pred group by FactVal')
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-11-2 19:31:16
请问:怎么用R语言将character类型的时间数据(如:19:30)转化成时间类型的数据。我的目的是想要用转化好的时间数据用来数据分析。因为character类型无法用来比较时间长短。求帮
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-11-2 21:53:18
你好,REmap包为什么在3.3.1上安装不了呢?是不是需要特定的环境。了解到这是基于Echart的一个包,可以做出漂亮的地图效果。但是苦于一直安装不了,可以帮忙解决一下吗,谢啦。。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-11-4 09:25:12
您好,RSclient安装后,本机可以建立连接,但远程另一台电脑输入本机IP却无法连接。

IP、端口号均正确,被连接电脑的Rserve正常运行且允许远程连接。

请问问题可能出在什么地方?
谢谢~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-11-5 08:57:28
大神,请教个问题,如何将使用RHS比色卡标识的颜色变量转换为连续变量进行分析?文献里一般都是统一色系的深浅进行评分赋值,但是我研究的花色变异有不同色系。
我的想法是把RHS颜色转化为电脑里的RGB系统,变成R,G,B三个连续变量。 不知道可行不?
但是R里面没有可以实现RHS比色卡转化的包,是否要通过拾色软件手动转化?或者R里有没有拾色包? 还有就是转化为R,G,B三个变量后,分析后如何将结构返回真实颜色?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-11-5 21:44:29
cbw1243 发表于 2016-6-26 09:15
暑假漫长,生活没有挑战。在此征集各类R语言疑难杂症,欢迎各位骚扰。
提出给力问题的,将予以100论坛币奖 ...
你把R语言的精华传授给我吧
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-11-6 00:59:01
vicki_1991 发表于 2016-11-2 21:53
你好,REmap包为什么在3.3.1上安装不了呢?是不是需要特定的环境。了解到这是基于Echart的一个包,可以做出 ...
显示的错误是什么?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-11-6 01:00:24
qiu435 发表于 2016-11-5 08:57
大神,请教个问题,如何将使用RHS比色卡标识的颜色变量转换为连续变量进行分析?文献里一般都是统一色系的深 ...
就我所知,R在处理图像的能力上还没有这么高端
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-11-6 01:00:58
TorchJU 发表于 2016-11-2 19:31
请问:怎么用R语言将character类型的时间数据(如:19:30)转化成时间类型的数据。我的目的是想要用转化好的 ...
先把character转换成numeric,然后as.date
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-11-6 01:06:38
philomochi 发表于 2016-9-19 21:04
用R做大量数据的回归分析的时候才发现的问题。随机生成了1000000个自变量x和因变量y进行逻辑回归,result
glm里默认是不trace这个iteration的过程的,glm回归过程中会生成较大的矩阵,存在data.frame里就显得比较大了。可能的办法是自己写程序,存在matrix里,计算出回归结果
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-11-6 08:20:43
cbw1243 发表于 2016-11-6 01:00
就我所知,R在处理图像的能力上还没有这么高端
好吧,太遗憾了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-11-6 21:07:01
cbw1243 发表于 2016-11-6 00:59
显示的错误是什么?
今天我又试了一下能下载了,然后baidumap又下载不了了,感觉应该是github这个网站的缘故吧
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-11-6 21:14:36
vicki_1991 发表于 2016-11-6 21:07
今天我又试了一下能下载了,然后baidumap又下载不了了,感觉应该是github这个网站的缘故吧
显示的是这个,大神有什么好的解决办法吗?

Downloading GitHub repo badbye/baidumap@master
from URL https://api.github.com/repos/badbye/baidumap/zipball/master
Installing baidumap
"C:/PROGRA~1/R/R-33~1.1/bin/x64/R" --no-site-file --no-environ --no-save  \
  --no-restore --quiet CMD INSTALL  \
  "C:/Users/Vicki/AppData/Local/Temp/Rtmpiiq4RC/devtools34e87afa3363/badbye-baidumap-e078ef8"  \
  --library="C:/Users/Vicki/Documents/R/win-library/3.3" --install-tests

* installing *source* package 'baidumap' ...
** R
** preparing package for lazy loading
Error in loadNamespace(j <- i[[1L]], c(lib.loc, .libPaths()), versionCheck = vI[[j]]) :
  there is no package called 'bitops'
ERROR: lazy loading failed for package 'baidumap'
* removing 'C:/Users/Vicki/Documents/R/win-library/3.3/baidumap'
错误: Command failed (1)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-11-7 01:47:55
vicki_1991 发表于 2016-11-6 21:14
显示的是这个,大神有什么好的解决办法吗?

Downloading GitHub repo badbye/baidumap@master
github里的程序经常有bug。
这个显示 ‘bitops'这个包没有找到,试试先下载这个包,再下载baidumap
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-11-7 18:11:09
cbw1243 发表于 2016-6-26 09:15
暑假漫长,生活没有挑战。在此征集各类R语言疑难杂症,欢迎各位骚扰。
提出给力问题的,将予以100论坛币奖 ...
大神,1.将10个表串联?
2.用jsonlite转csv,本来要循环的,但是最后只下了一个表...求帮助
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-11-7 22:14:14
小白求助,如何将数据框转化成列表,并且把数据框里面的NA去掉
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-11-7 22:44:08
比鲁斯 发表于 2016-11-7 18:11
大神,1.将10个表串联?
2.用jsonlite转csv,本来要循环的,但是最后只下了一个表...求帮助
循环 for后面的语句你是怎么写的
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-11-7 22:44:56
jxapp_6451 发表于 2016-11-7 22:14
小白求助,如何将数据框转化成列表,并且把数据框里面的NA去掉
用is.na识别na,然后删除
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-11-8 00:13:02
Hi,cbw1243, 您好!
最近一直在折腾一份非平衡面板数据的回归分析,有一个错误一直调试不好,特来求助。

我的数据集结构如下:
> str(stockbrcha)
Classes ‘plm.dim’ and ‘data.frame’:        27496 obs. of  25 variables:
$ tic               : Factor w/ 2946 levels “A”,”AA”,”AAL”,..: 1 1 1 1 1 1 1 1 1 1 …
$ date              : Factor w/ 16871 levels “1/25/09 2:35”,..: 773 808 833 846 869 922 942 957 985 1014 …
$ IS_EFFECTIVE      : num  1 1 1 1 1 1 1 1 1 1 …
$ MATERIAL_WEAKNESS : num  1 0 0 0 0 0 0 0 0 0 …
$ SIG_DEFICIENCY    : num  0 0 0 0 0 0 0 1 0 0 …
$ NOTEFF_ACC_RULE   : int  1 0 0 0 0 0 0 0 0 0 …
$ NOTEFF_FIN_FRAUD  : int  0 0 0 0 0 0 0 0 0 0 …
$ NOTEFF_OTHER      : int  5 0 0 0 0 0 0 5 0 0 …
$ IC_OP_TYPE        : int  1 1 1 1 1 1 1 1 1 1 …
$ AUDITOR_FKEY      : int  1 1 1 1 1 1 1 1 1 1 …
$ AUDITOR_AGREES    : num  1 1 0 0 0 0 0 0 0 1 …
$ COMBINED_IC_OP    : num  0 1 1 0 1 1 1 1 0 1 …
$ IC_IS_EFFECTIVE   : num  1 1 1 1 1 1 1 1 1 1 …
$ AUDIT_FEES        : num  10730000 7176000 6142000 6647000 5663000 …
$ NON_AUDIT_FEES    : int  3761000 5616000 970339 758000 2599000 1037000 820000 390000 1011000 2352000 …
$ BENEFITS_FEES     : int  0 0 0 0 0 0 0 0 0 0 …
$ IT_FEES           : int  0 0 0 0 0 0 0 0 0 0 …
$ TAX_FEES          : int  308000 742000 662039 503000 169000 742000 720000 285000 245000 265000 …
$ AUDIT_RELATED_FEES: int  3443000 4863000 253300 252000 2422000 288000 97000 105000 762000 1695000 …
$ OTHER_FEES        : int  10000 11000 55000 3000 8000 7000 3000 0 4000 392000 …
$ mean              : num  1176 1176 1176 1176 1176 …
$ sd                : num  202 202 202 202 202 …
$ shape             : num  16.9 16.9 16.9 16.9 16.9 …
$ rate              : num  0.0141 0.0141 0.0141 0.0141 0.0141 …
$ ddate             : Factor w/ 16871 levels “1/25/09 2:35”,..: 773 808 833 846 869 922 942 957 985 1014 …

需要执行的命令如下:
> stockbrcha = plm.data(stockbrcha, indexes = NULL)  %把数据转化成适合面板分析的数据
> form = stockbrcha$mean ~ stockbrcha$IS_EFFECTIVE+stockbrcha$MATERIAL_WEAKNESS+stockbrcha$SIG_DEFICIENCY+stockbrcha$AUDITOR_AGREES+stockbrcha$COMBINED_IC_OP+stockbrcha$IC_IS_EFFECTIVE+stockbrcha$AUDIT_FEES %回归公式
> ptest = plm(form,data = stockbrcha,effect = “individual”, model = “within”) % 固定效应面板分析

执行错误如下:
series IC_OP_TYPE, IT_FEES are constants and have been removed
Error in names(y) <- namesy :
  ‘names’ attribute [27496] must be the same length as the vector [0]


我也traceback()了一下,显示:
> traceback()
4: pmodel.response.pFormula(formula, data, model = model, effect = effect,
       theta = theta)
3: pmodel.response(formula, data, model = model, effect = effect,
       theta = theta)
2: plm.fit(formula, data, model, effect, random.method, random.dfcor,
       inst.method)
1: plm(form, data = stockbrcha, effect = “individual”, model = “within”)
BUT我看不懂……

一开始我以为是因为我有的变量缺失值太多,导致各个变量之间长度不一。所以我就把缺失值全都填补了,可是错误仍然存在。也用length()命令查询过所有的变量,长度明明都是27496啊。

我需要用公式里的七个自变量来预测因变量Y,之前我已经执行过类似的公式,当时面板分析是可以做的,没有error,只是R方太低,所以我就换了一个因变量。

google了很多网页,情况都跟我的不同。特发帖求助,先谢过!
Any help will be highly appreciated!
THX!

Lijuan Huang
Xidian University
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-11-9 21:35:48
cbw1243 发表于 2016-11-7 22:44
用is.na识别na,然后删除
比如

> list(a,b,c)
[[1]]
[1] 120 124 130 136

[[2]]
[1] 122 120  NA  NA

[[3]]
[1] 128 130 134  NA

我想转换成

> list(a,b,c)
[[1]]
[1] 120 124 130 136

[[2]]
[1] 122 120

[[3]]
[1] 128 130 134

这要怎么做
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-11-11 11:18:26
大神,你好,我现在写了一个脚本文件,但是希望分两次执行。比如说先运行脚本文件中的前几行,然后在console中运行几行后,再运行脚本文件中剩余的部分。相当于在运行脚本时有一个交互的过程,请问如何实现?非常感谢~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群