论文部分内容阅读
信息资源通过Internet的全球化共享使科学技术在各种领域的研究进展和成果日益多的得到关注。在管理有关学术研究方面的信息时需要对各种领域的专家信息及其研究项目内容信息进行有效和有序的管理,其中最关键的技术是对文本信息的处理,而文本相似度的计算是其中非常基础的问题。本文在实现文本相似度计算的过程中针对包括常用的文本特征选择方法不完善和文本表示模型考虑因素不全面等问题做了以下工作: 1.在文本预处理阶段,基于最大匹配算法并结合统计策略建立了一个分词系统。该系统的分词词典被建立成了双层哈希结构并通过结合统计策略为系统添加了对未登录词的自动识别功能。该方法不仅提高了分词精度还因词典的合理有效存储加快了预处理的速度。 2.在特征选择时,通过建立领域特征词集合对原始特征进行二次选择。该方法是根据词在不同类别中互信息的表征差异,通过计算词与不同类别的互信息的差值来实现的。它在一定程度上抑制了单纯使用互信息时因出现一个词在多个领域中有较大的互信息而产生的特征“噪声”。 3.在相似度计算时,结合文本分类对以词作为最小单位生成的TF-IDF项进行领域信息的加权并引入了分类的后验概率作为一个衡量领域类别信息加权可信度的指标,使分类与加权形成一个自适应的模式。该方法弥补了传统TF-IDF忽略词包含的领域信息(即一个词对特定领域类别的表征能力)这一不足。 最后采用复旦大学搜集的语料和广西开发院科技项目评估系统中专家的真实信息作为实验对象,对比了基于传统互信息和基于建立领域特征词的方法进行文本分类的效果,并对基于传统的TF-IDF和基于加权领域信息的TF-IDF的文本相似度计算方法进行了测试。试验结果表明:在分词系统与评估标准相同的情况下,基于建立领域特征词的特征选择大大地提高了分类的正确率。同时,利用基于领域信息加权的TF-IDF方法表征文本也比单纯采用传统的TF-IDF的方法更有效。