利用关键词倒排表实时检索中文网页

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:nbywfcom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究了基于关键词倒排表的中文网页快速检索方法。在建立大量网页语料库的前提下,利用关键词词典和优化后的前向最大切词算法脱机生成网页关键词特征向量,然后对网页特征向量作维数压缩生成压缩格式的网页特征表,最后利用网页特征表根据关键词在所有网页中出现的频率统计生成关键词倒排文件。实验中,通过对比访问网页库、特征表和倒排文件三种不同的数据来源,分别实现了中文网页的关键词检索,比较了三种数据源检索的实时性。实验表明,基于关键词的倒排表检索算法大大优于其他两种方法,具有很好的实时性。
其他文献
经济负荷分配(Economic Load Dispatch,ELD)是电力系统中一种重要的优化问题,它可归为一类高维、离散、非线性的多约束函数优化问题。针对这类问题,提出了一种基于线性截取策略的
针对遗传算法所存在的早熟和收敛速度慢等问题,基于低等生物的分裂生殖现象,提出了分裂算子的概念,并将该算子引入到传统遗传算法和自适应遗传算法中,对这两种遗传算法进行了改进
建立公立医院财务会计内部控制制度,对于维护国有资产的安全与完整具有重要的意义。而加强财务会计内部控制,不仅要健全制度,还应建立部门之间的监督制约体系
螺旋桨在水中工作时,如出现吸气现象,不仅造成桨之推力下降、船舶航速降低,还会使桨和主机处于不利的工作状态,造成效率下降、振动加剧、产生噪声,严重时会损坏桨、轴系、主
给出了一个基于音节混淆网络的语音文档内容检索系统,提出了一种基于两阶段解码的查询自动扩展方法,首先通过Viterbi解码算法在混淆音节网格上计算混淆音节的似然得分,然后利
在人类视觉系统特性基础上提出了一个改进的各向异性平滑方法。加入图像四阶偏微分信息避免"阶梯效应",扩展演化方向,改进数值模型。实验结果表明,该方法在噪声消除和边缘保留方面能获得较好的效果。
随着科研体制改革的不断深入,科研单位的基建财务管理面临新形势的考验,有待革新。进一步强化基建财务管理工作.已成为保障科研单位基本建设效益的关键
检索是获取信息的重要方式。传统检索只停留在关键字异同的逻辑层面,忽略了语义层面的信息。以本体的知识组织体系为基础,以检索应用为目标,提出面向本体的文档和查询的语义向量
竞争优先权作为制造战略的重要组成部分,是一整套相互协调且不可跨越的制造目标,是制造企业获得竞争优势的重要手段.本文针对国际背景下制造企业的实际情况,针对不同规模企业