论文部分内容阅读
提出一种新的文本段落聚类策略,该策略采用多特征融合思想尽可能多地挖掘段落内的特征,并采用累积Logistic回归分析方法来拟合这些特征与段落相似度之间的内在关联,使得段落相似度计算的结果更为理想。最后采用层次聚合聚类算法中的complete—link方法对段落集合进行聚类处理:通过网络真实文本进行了段落相似度度量实验和段落聚类实验,实验结果显示了方法的可行性。