如果想要研究诺贝尔奖获得者的年龄与发表论文数之间的关系,有很多问题都不懂。建立了这样一种面板数据
获奖者序号 year y(发表论文数) x(年龄)
获奖者1 1981 3 35
获奖者1 1982 5 36
获奖者2 1973 4 27
获奖者2 1974 5 28
....... ...... ...... ......
获奖者30 1992 1 33
获奖者30 1993 2 34
类似这种的面板数据。我的问题是
(1)如果选取的时间范围为1970-2019,有的科学家并没有在每一年都有y(发表论文数),可以说这个面板数据在分类上属于非平衡面板数据?
(2)被解释变量y是计数变量,那么是否可以说明该面板是非线性面板?
(3)看有的文献加入了自变量的二次项,甚至三次项,想知道为什么?那么在我这个研究当中可以加入年龄的二次项或者三次项吗?
(4)获奖时的年龄是否可以作为一个变量因素?
(5)看有的视频做了单位根检验和协整检验,进而又做了豪斯曼检验,判断是固定效应模型还是随机效应模型。但是我看《高级计量经济学及STATA应用》中的非线性面板负二项回归实操时并没有做单位根检验,这是为什么?同时使用了聚类稳健标准误,这又是为什么?那么在我这个研究获奖者的年龄与发表论文数之间的关系研究中,应该具体怎么操作?
纯小白,看了半天视频和书都已经迷糊了。想弄清这些基本问题!