实时在线相似检索系统的设计与实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户:dffg21f
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似检索有着广泛的应用,特别是在知识产权保护和信息检索领域。而本文着重介绍了相似检索在抄袭检测这一领域的应用。   学生作业抄袭检测的应用场景下,相似检索系统须具备检索以及数据更新的实时性,返回结果的高准确率的特征。因此我们需要扩展相似检索系统,使得其具备快速检索的能力,特别是在大数据量的应用场景下。   然后本文引入快速检索模块,它由三种实现策略:倒排索引、簇剪枝以及多维索引。常用的倒排索引,其索引更新策略是定时增量更新或定时重建,这就不能满足系统实时性的需求,因此提出并实现了一种实时搜索引擎构建的方式。   对于具体的抄袭检测应用,我们分析了代码这种非自然语言文本形式的特点,并结合实时的相似检索系统架构,提出一种基于代码结构的特征指纹,并使用该指纹用于快速检索模块的筛选候选相似集的过程,然后使用经典的RKR-GST算法用于计算程序代码之间的相似度计算,同时利用RKR-GST算法找寻出的Tiles,对代码的相似区域用不同的色彩进行高亮显示,便于用户观察比对。   同时,我们也实现了对文档的相似检索服务,直接使用搜索引擎,进行相似文档的检索,效果并不理想,因为单词的粒度太细,它舍弃文档的结构信息。于是我们提出了一种基于SpotSigs算法的斑指纹,该指纹包含一定的结构信息,同时粒度介于词与段之间,用于相似检索的筛选效果好。最后针对文档,提出了一种结合基于向量空间模型和结构特征的相似度计算方法。
其他文献
在这篇文章中,我们研究一种新型的空间查询,叫做聚集k最远邻居查询(Aggregate k Farthest Neighbor Query,简称AkFN Query).给定一个数据点集P和一个查询点集Q,AkFN查询返回P
随着计算机技术的不断发展,各种应用需求的不断提高,目前应用服务系统及其所依存的网络环境变的越来越复杂。在应用需求提高的同时,用户对应用服务提供的稳定性要求也日益提
无线传感器网络(WSN),是一种分布式的,使用无线通信方式传递数据的网络,包含大量低性能、低成本的传感器节点,具有一个或多个中心,并且网络中传感器节点可以通过一些算法进行
近些年来,我们亲眼目睹了互联网大数据的发展的迅猛势头,信息时代所产生的数据呈现爆炸式增长。在面对错综复杂的海量数据,如何给用户推荐他们理想的物品是目前学者们研究的
心脏是人体最重要的功能器官之一。近年来心脏疾病已成为人类健康的重要威胁。心肌纤维的收缩力与舒张力和心脏的泵血功能有着密切的联系。心肌纤维结构的改变会导致心律失常
网络的快速发展,使得人们对软件应用的处理效果和性能要求越来越高。P2P下载技术被广泛应用到各类流行下载软件中。作为P2P技术中重要技术之一的DHT技术,其改进和优化越来越
近年来,音频处理技术的飞速发展和因特网的迅速普及使得数字音频作品的获取、编辑和发布变得十分容易。音频作品的知识产权保护已成为一个急待解决的问题。数字音频水印技术
随着IT技术的迅猛发展,市场分工精细化、服务专业化促使传统服务业悄然发生变革。面对互联网中越来越多的服务资源提供方和不断增长的需求客户群体,哈尔滨工业大学企业与服务
人脸检测与跟踪技术是人脸识别,视频检索,虚拟游戏和图形控制的一项关键技术,对进一步推动人脸识别技术的发展具有重要的意义,已成为计算机视觉研究的一个热点。本文利用图像
计算机技术、通信技术和传感器技术的发展,极大的推动了无线传感器网络的快速发展。成本低、部署方便、感知能力强、自组织等特性,使得无线传感器网络在军事、环境、医疗科学