根据福布斯最近发布的全球明星收入top100的数据,我们要分析几个问题:1)收入和年龄的关系;2)各国总收入和人次比例;3)男女比例;4)各行业summary数据
载入包
读入数据
如果不是特别需要读取数据时最好设置stringsAsFactor参数为FALSE,因为一旦默认将字符转化为了因子你可能会碰到各种报错,当你碰到factor字符出现的错误时你就要考虑一下自己是不是将因子当成字符了。
绘制收入和年龄的关系图
 
从年龄上分析,收入前一百名明星中多集中在20-50岁以下,尤其是女性群体,演艺和竞技圈确实不属于高龄人群统治的领域,毫无疑问这是一个靠脸(体力)吃饭的领域,而我国中医行业恰恰相反,中医必须老龄化才吃得开,真正是一个疗效只看皱纹的行当,当然前提是如果有疗效的话。
绘制性别饼图
 
这里需要注意一点ggplot默认情况下(stat = "bin")bar的高指的是观测值个数,所以你要指具体的数值需要设置为identity。pie图不是很满意有空再修改。 收入前一百名中,男性收入占总收入的75.29%,尽管近年来女性地位提升很高,也许在精神世界的地位更高,但好像每一个行业实际上仍然是男性主导者一切。
[size=14.6666669845581px]相关数据和代码:http://pan.baidu.com/s/1g6kQa   密码:微信索取
关于我们,关注理性与文艺,用数据创作内容性的精致阅读,这里是数据分析挖掘人员与文艺青年的集结地,不做培训,不做鼓吹,只踏踏实实的做一个又一个数据驱动的文章,并设计机器人减轻数据分析的负担,无论你感兴趣还是想参与都可以关注,请加微信公众号大音如霜
