再次补充一下数据库的内容,可以以这张截图为参考,该截图中所有的点击和下单的数据都是针对同一个sku_id。这个标注了1的,就是这个人在3.31下单的时候,商品A的折扣是0,但其实有很多人在3.31也点击了商品A但没买的,比如剩下两个画红圈的部分,是他们的clickdate(由于没有买所以orderdate是缺失值),我现在想做的是:希望能把圆圈1那里显示的商品A在3月31日的折扣0全部填充到其他所有用户在3月31日点击过这个商品A的数据里
如题,我现在merge了两张表,一张是click表的数据,只记录user的clickdate和sku_id,另外一张表是order表,记录了user下单的时间(orderdate)和商品id(sku_id)和该商品的原价,折扣,最后价格等,现在我想要根据order表中的折扣数据(即direct_discount_per_unit)去填充click表中的折扣缺失值,由于折扣可能在不同的时候变化比较大,所以我现在希望做的是:先比较orderdate和clickdate是否相等,如果相等,则用当天order表中的折扣数据填充对应click表中sku的折扣,如果order表里一个sku在一天内有多个折扣则用均值mean填充click表中的折扣。现在主要的问题是我不太懂如何去表达orderdate和clickdate是否处于同一天这个条件命令,希望能得到各位老师的回答,谢谢!
另外,现在已经尝试过bys sku_id: egen discount=mean(direct_discount_per_unit) if orderdate==clickdate,但是该命令做出来只能够把同一个用户对应的clickdate和orderdate相同的填充出来,但我想要的结果是,假设有一个用户在3.20下单商品A,就有该日的discount数据,假设为10,那么不管是哪个用户,只要是在3.20号点击了A商品但没下单的折扣数据,全部都填充为10