论文部分内容阅读
本文在对检索系统关键技术进行研究的基础上,主要实现了一个以统计分词改进算法为基础的网络信息检索系统。该系统通过网页内容提取技术对网页进行处理,形成纯文本形式,并通过中文自动分词技术对其进行分词处理,提取出特征索引词,提供给检索模块,实现对信息的检索。
对几种分词算法进行了详细介绍与研究,并在比较分析的基础上,提出了一种统计分词的改进算法,这种算法不仅可以提高未登录词的识别能力,同时引入了串匹配分词算法,降低了高频冗余词对文本特征索引词提取的干扰,为信息检索提供了良好的处理依据,增强了检索性能,改进分词算法本身也具有良好的扩展性和应用性。
介绍和比较了几种常见的检索模型,并在对它们进行研究分析的基础上,采用了较为成熟的布尔检索模型实现检索系统,并通过建立索引文件,加速了对表征文本内容的词组匹配,实现对信息进行检索的目的。
最后的试验结果表明,改进的分词算法,在准确率和召回率上,基本可以满足信息处理分词要求,而检索系统本身,也已达到一般信息检索的要求,并具有可扩展性和广泛应用性等特性。