一种改进的基于内容的快速网页查重算法

来源 :全国第八届计算语言学联合学术会议 | 被引量 : 0次 | 上传用户:hy3508
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页查重就是将大量网页集合中重复的网页找出来,并加以选择,使用户不用处理大规模重复信息,在节省时间的同时,提高信息检索等的应用效率.快速高效的网页查重算法无论对于采集器,还是web检索系统都十分重要.本文在对已有的文本查重算法进行比较研究的基础上,提出了一种基于特征码和词频的快速网页查重算法,该算法将特征码算法和传统的分类算法结合起来,在检索速度和效率上都取得了比较好的实验结果.
其他文献
针对ZigBee技术的特点和优势,基于JN5121无线微控制器和ZigBee技术搭建井下瓦斯监控和人员定位系统.提出了节点硬件设计方案,分析了ZigBee协议栈和操作系统的工作原理以及应用程序代码的设计流程.该系统不仅能够实时监测井下瓦斯浓度,而且能够对井下人员进行定位,为矿井工作人员的人身安全提供了保障,也能方便矿井实施生产指挥与调度.该系统还具有低功耗、低成本、灵活组网、高可靠性等优点,具有广
移动通信终端作为一种特殊的分布式嵌入式系统,其计算能力和存储能力是十分有限的.如何在计算能力和存储能力十分有限的情况下,通过增加其有限的开销的情况下,解决通信公司和用户都十分希望解决的移动通信盲区问题,具有十分重要的意义。提出了移动新的基于带宽共享的移动通信终端通信方式,它能够在增加有限的计算能力和存储能力开销的情况下,解决移动通信系统的盲区问题,使得移动通信系统的接通率在理论上能够达到100%,
由半导体激光准直光源、望远镜、二维光电位敏探测器和微处理器构成了激光自准直仪,用来测量某物体的微小倾斜.在被测物体的上表面固定一个平面镜,来自激光准直仪的光束照射到镜子上,物体的微小转动使反射光束偏转,偏转角被望远系统放大,在PSD表面产生横向位移.PSD输出的代表反射面转动角度的电信号被微处理器处理和显示.本仪器可以测量微小的二维角位移.
视频监控系统是一种先进的、防范能力强的综合系统.文中介绍了由压缩编码芯片ZC0301、微处理器S3C2410A组成的嵌入式视频监控系统,结合基于WEB服务器的B/S(Browser/Server)服务机制、IPicture接口技术和ActiveX控件技术详细介绍了嵌入式视频监控系统客户端部分的设计与实现.
应用Xscale处理器、嵌入式Linux与开源路由协议软件aodv-uu,使用IEEE 802.11b无线网卡,设计并实现了一个无线多跳网络实验床.通过该实验床能进行无线多跳网络的网络安全、入侵检测、应用层协议等一些需要实际数据传输与实际算法运行的研究,并大大促进无线多跳网络的研究工作.
嵌入式操作系统是操作系统研究领域的一个重要内容,近年来由于Linux操作系统的发展和成熟,许多企业和科研机构把目光转向嵌入式Linux的开发和研究上.嵌入式Linux是嵌入式操作系统的一个新成员,Linux以其自身良好的特性被广泛地用在嵌入式系统中.Boot Loader是操作系统和硬件的枢纽,负责初始化硬件和引导操作系统的内.U-boot是一款功能强大的Boot Loader.文中主要介绍了嵌入
便携式网络监测终端可以实现对网络进行方便快捷的监测和维护.文中研究了基于ARM9便携式网络监测系统设计与实现的一系列关键技术.着重阐述了系统的设计思路、主要功能模块的设计与实现,并对其中的一些技术难点进行了深入的分析说明.
文中在研究嵌入式系统,单片机系统以及二维图像处理的基础上,讨论了三维图像采集系统的构建,并在嵌入式微处理系统云台上对实时拍摄的大量二维图像数据进行三维重构.提出基于二维图像的定标算法,实现标志点的自动识别和匹配,并根据标志点进行图像整合,从而得到三维效果,并应用OpenGL构建具有人机交互的可视化界面,展现物体的真实三维图像.将嵌入式系统,单片机以及三维图像处理有效结合,充分发挥单片机系统简单便携
目前,企业的客服中心在客户服务和产品咨询上起着重要的作用,但是企业需要承担大量的相应开销,而且电话咨询的方式给用户带来了很大的不便.针对这一问题,本文研究了基于常问问题集的问答系统在企业在线客服中的应用,文中提出了基于常问问题集的在线客服系统的框架,并针对系统中的句子相似度计算进行了详细的讨论和分析.最后,针对金山在线客服系统实际应用,进行了详细的实验及分析.通过实验表明,基于常问问题集的问答系统
本文的目的是构建一个面向信息处理的形式化的汉语语义描述系统.这个系统以Fillmore框架语义学为理论基础,包含框架语义构造式和框架两个子系统,从而把句法语义的构造跟词汇语义信息联系起来,系统表示汉语语义.框架语义构造式包括基本构式和复合构式,我们归纳了150个汉语顶层框架的基本构式,各种句式的复合框架构式:初步构建了24个顶层框架,29个框架参与元素,并建立了框架之间的多种联系.