论文部分内容阅读
分散在互联网上的信息资源极其丰富,但表现形式却各不相同,如何全面准确地从中查找特定信息一直是网络应用服务的重要研究内容。传统的搜索引擎使用简单的关键词匹配查找信息,尽管在一定程度上能够满足用户的需要,但是用户的信息需求通常比较复杂,很难用关键词清楚描述,有时还需要使用大粒度的文字进行检索。在实际生活中,信息需求往往要经过分类、比较等多种手段才能明确,并进一步得到满足。如何最大可能地满足用户的各项信息获取要求,成为信息检索领域最热门的话题之一。本文构建了知识服务平台,并研究和实现了平台中机器自动服务模块的段落搜索引擎系统。课题的主要研究工作包括:1)提出了知识服务的概念。知识服务,不仅要进行信息服务、信息检索,而且还要进行知识增值服务,提供信息交流、知识创新的场所,构建起网络信息与知识转换的平台,为实现网民随时随地查找信息、学习知识、发表个人见解创造条件。2)根据以上概念构建了知识服务平台。在平台中利用自然语言处理技术对杂乱无序的网络信息进行搜集、分类、整理并加以组织,使之成为井然有序的知识体系。3)实现了知识服务平台机器自动服务模块中的段落搜索引擎系统。它将文档库中的文档采用窗口固定长度分段,并使用TF/IDF值抽取出查询段落中的关键词组,按照权值大小排序后在文档库中检索。在文档分段时比较了两种不同的方法:窗口重叠固定长度分段和窗口不重叠固定长度分段。在两种分段方法的比对实验中,窗口不重叠固定长度分段的搜索时间较少,准确率略低于窗口重叠固定长度分段。而在检索使用的关键词排列组合上比较了5关键词排列和10关键词依次递减排列方法,5关键词排列组合将获得更少的检索时间,而采取10关键词排列组合会返回更多的搜索结果。4)提出了针对段落搜索这种大粒度查询要求的搜索引擎系统评测指标。段落召回率和段落准确率两个指标分别评价了查找相似段落和检测疑似抄袭的系统效能。另外,系统响应时间评价了段落搜索引擎的时效性。