出自论文: Scatter/Gather: A Cluster-based Approach to Browsing Large Document Collections【1992】←google学术上可搜索到
page 322
1)在"4 Definitions"中,提到"let V be the set of unique words occuring in C",是怎么发现那些unique words 的呢?
2)比较两篇文章用了两篇文章的字符出现频率向量的余弦,可是,如果两篇文章的特殊字符(unique words)是不同的怎么办?这个余弦的计算难道要把全部进行分类的文章的所有关键字先统计下么?
英语文章读起来真是各种抓狂,坐等高人解答……