和各位大牛讨论一个问题:
我在做文本挖掘,每次提取一段时间的搜索日志,数据清洗之后,用apriori算法,会得到如“联想-华为”,“腾讯-百度”这样的规则。
每个规则都有相关指标如Lift,Support,Confidence,Transaction Count。
我想给这些规则打一个分数R,用来做排序,比如如果R(联想-华为)>R(联想-神州数码),那么我就认为“联想-华为”这条规则更重要。
这个分数是用上述哪个指标,或者哪些指标折算来比较合理呢?
我现在倾向于使用transcation count/sample size,因为这样来的最直接,不知还有更合适的吗?
望不吝赐教!