具体问题是这样的:有一个过滤器是专门用来过滤垃圾邮件的,而它内置了大概1万条左右的过滤规则,每条规则都有一个得分权重,主要是对经过过滤器的邮件进行规则扫描,然后把该邮件命中的规则权重得分依次相加得出最后总分来评判是否为垃圾邮件。(例如:命中了a,b,c,d四个规则,则将其得分权重相加得出总分,如得分超过12则为垃圾邮件,否则为正常邮件)现在我想通过统计分析来达到两个目的:
1.分析出哪几个规则对最后的总体得分具有显著性影响,没有影响的规则可以将其权重设为0(这样可以降低系统的扫描时间,提高效率)。
2.如何通过分析来调整各个规则的得分权重,目的是为了减少邮件的误判率。(例如某些规则权重过高,导致最终得分过高,把正常邮件判定为垃圾邮件。)
请赐教。