知识服务平台构建与段落搜索

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xuzhangzhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分散在互联网上的信息资源极其丰富,但表现形式却各不相同,如何全面准确地从中查找特定信息一直是网络应用服务的重要研究内容。传统的搜索引擎使用简单的关键词匹配查找信息,尽管在一定程度上能够满足用户的需要,但是用户的信息需求通常比较复杂,很难用关键词清楚描述,有时还需要使用大粒度的文字进行检索。在实际生活中,信息需求往往要经过分类、比较等多种手段才能明确,并进一步得到满足。如何最大可能地满足用户的各项信息获取要求,成为信息检索领域最热门的话题之一。本文构建了知识服务平台,并研究和实现了平台中机器自动服务模块的段落搜索引擎系统。课题的主要研究工作包括:1)提出了知识服务的概念。知识服务,不仅要进行信息服务、信息检索,而且还要进行知识增值服务,提供信息交流、知识创新的场所,构建起网络信息与知识转换的平台,为实现网民随时随地查找信息、学习知识、发表个人见解创造条件。2)根据以上概念构建了知识服务平台。在平台中利用自然语言处理技术对杂乱无序的网络信息进行搜集、分类、整理并加以组织,使之成为井然有序的知识体系。3)实现了知识服务平台机器自动服务模块中的段落搜索引擎系统。它将文档库中的文档采用窗口固定长度分段,并使用TF/IDF值抽取出查询段落中的关键词组,按照权值大小排序后在文档库中检索。在文档分段时比较了两种不同的方法:窗口重叠固定长度分段和窗口不重叠固定长度分段。在两种分段方法的比对实验中,窗口不重叠固定长度分段的搜索时间较少,准确率略低于窗口重叠固定长度分段。而在检索使用的关键词排列组合上比较了5关键词排列和10关键词依次递减排列方法,5关键词排列组合将获得更少的检索时间,而采取10关键词排列组合会返回更多的搜索结果。4)提出了针对段落搜索这种大粒度查询要求的搜索引擎系统评测指标。段落召回率和段落准确率两个指标分别评价了查找相似段落和检测疑似抄袭的系统效能。另外,系统响应时间评价了段落搜索引擎的时效性。
其他文献
随着互联网行业的快速发展,如何快速高效处理大规模实时数据成为当前研究重点。可持续Top-K查询算法主要是用于流数据的应用上,基于某种函数关系实时选取得分最高的K项。这种算
人脸分析是近年来计算机视觉与模式识别领域里的热点研究问题之一,因为它在身份认证、视觉监控、人机交互、娱乐动画、以及多媒体等领域有着广泛的应用前景。人脸分析的研究
随着软件技术的发展,软件测试受到越来越多的重视。在软件测试中,测试数据的选择是进行结构测试的一个难题,测试数据直接关系到错误能否被预期测出。对于测试数据自动化生成
随着计算机和网络的普及,越来越多的人们通过网络进行交流,即时通讯软件已经成为网民最常用的网络工具之一。目前比较流行的即时通讯软件如:QQ,MSN和雅虎通等,这些主流的即时通讯
对于遍布全球各地的各类企业而言,企业应用数量与规模的增长总是伴随着旨在提供信息交换渠道的计算与网络础架构的不断扩建。企业内部会有多种为了不同目的而建置的信息系统,
在模式识别领域中,如何利用已有样本进行训练并提取特征,使各类样本具有异于它类样本的特征成为迫切需要解决的问题。目前虽有许多成熟的特征提取方法,但在某些情况下这些方
资源共享成为网络生活的主题,随之而来的多媒体数据安全问题成为目前一个相当重要而又富有挑战性的研究课题。密码学方法加密了多媒体对象的内容,使之变成密文,在一定范围内
随着无线通信技术的发展和便携设备的不断普及,人们对于低成本、易用的无线网络的期望与日俱增。而无线自组网络(Ad Hoc Network)以其优越的自组织特性成为最理想的候选技术之一
交互式电子白板技术自上世纪90年代出现以来,至今已经有20多年的历史,它广泛的应用于教学、办公、商务等领域,并且都取得了非常好的效果。由于传统的电子白板技术一直以来都需要
随着计算机技术和Internet网络的高速发展,从互联网上下载所需要的资料已经成为人们工作、生活中的重要组成部分。如何实现又快又好的下载是倍受关注的技术难题。当前大多使