您好:
我目前有1万家酒店,有酒店的位置数据(经纬度),有消费者对于酒店的评论和评论时间,有商家对于消费者评论的回复和回复时间,还有是否为连锁酒店、连锁酒店类别的数据。我以四个酒店为示例数据,麻烦帮忙用python解决一下这个问题,感谢费为500个币。
现在我想计算如下变量:
1.与当前酒店距离小于等于500米的酒店的数目(Number of neighbor);计算邻居中连锁酒店的数目(chain numberof neighbor),计算邻居中是同一家连锁酒店的数目(same chain number of neighbor),计算邻居中非同一家连锁酒店的数目(different chain number of neighbor)。
注:这里每个酒店都有很多条评论,要按照酒店ID的数目作为酒店的数目,即我给的数据样本一共有51个评论,但是酒店数目是4家,每个酒店的邻居数目应该为0-3个。示例数据表中chainornot代表连锁是否为连锁酒店,1表示是连锁酒店,compony为连锁酒店的类别,如果都为1代表为1公司的连锁酒店,如果为2代表另一家连锁酒店。当然实际数据类别会有多种。
2.在当前酒店回复评论之前,该酒店的过往平均评分(AverageRating)
注:假如商家在2014年9月5日0(replytime)点回复的评分,那么,在这个时间以前,商家有2条评论,分别为 3 5,那么平均评分为4分。如果9月5日0点有一条评论,不将其计算在内。
3.计算当前酒店回复评论之前,其所有邻居的过往平均评分的平均值(AverageRatingofNeighbor),所有邻居的最高分(MaxRatingofNeighbor)、最低分(minRatingofNeighbor)、高于当前酒店评分的邻居数目(HigherNeighborNum)、低于当前酒店评分的邻居数目(LowerNeighborNum)
注:在2014年0点以前,每个邻居都有过往的平均评分,我们要将这些平均评分都计算出来,然后计算这些邻居平均评分的平均值、最大值、最小值,并与当前酒店的平均评分比较,计算出高于当前酒店平均评分的邻居的数目和低于当前酒店平均评分的邻居数目。