论文部分内容阅读
为解决高频特征对文章的主题信息反映不够全面,无法获得高质量聚类结果的问题,同时为获得聚类后各类别反映信息的精确描述,采用词汇链反映文章所描述的主题信息,并依据文本间词汇链的相似度进行聚类.将聚类后属于同一类别并反映相同主题信息的词汇链进行融合,通过分析各词汇链所描述的主题信息在不同类别内的分布来抽取能够充分反映各类别主题的关键词集合.实验证明该方法比应用高频特征进行聚类的效果好,同时由于分析了主题信息在各类别内的分布情况,使抽取的类别关键词能够很好地体现每个类别所侧重描述的信息.