【摘 要】
:
目前随着网络信息的爆炸式增长以及信息多元化的发展,快速有效地获取所需的信息变得越来越困难,通用搜索引擎已不能适应用户对信息检索的准确性要求,消除搜索引擎结果中的冗
论文部分内容阅读
目前随着网络信息的爆炸式增长以及信息多元化的发展,快速有效地获取所需的信息变得越来越困难,通用搜索引擎已不能适应用户对信息检索的准确性要求,消除搜索引擎结果中的冗余信息正成为研究热点之一。聚类技术是消解搜索引擎结果中冗余信息的关键技术之一,对于提供搜索结果的关联性和搜索信息的有效性起着至关重要的作用。本文作者的主要研究工作概述如下:1)分析了搜索引擎的发展现状和当前消解冗余信息的不足之处,通过构建消解搜索引擎结果中冗余信息的技术框架,研究了消解冗余信息的方法。2)设计和实现了关于搜索引擎结果信息的分词处理,特征提取和消解冗余信息的处理流程。其中,分词处理采用改进的正向最大匹配切分(MM)算法并进行歧义校正,特征提取采用向量空间模型进行特征词表示。3)针对基于中心点的K-Means聚类算法的不足,提出了改进算法,并结合搜索引擎评价标准对该改进算法的效果进行了评价。实验表明,改进后的算法可以有效地改善聚类的性能,提高冗余消解的效率。本文研究和实践的消解搜索引擎结果冗余信息的算法,技术路线及其实现过程在提高搜索引擎反馈信息的准确性和查询效率方面具有很好的可借鉴性。
其他文献
固态盘(Solid State Disk, SSD)以闪存作为存储介质,拥有高性能、低功耗、低噪声等诸多优点,是传统磁盘的理想替代品。随着容量的增大,价格的下降,固态盘将会被广泛地应用。
代数曲面在表示具有复杂拓扑的光滑外形方面以及相关的几何计算、外形分析方面具有优势,是主流参数表示形式——非均匀有理B-样条的有益补充,张量积代数B-样条曲面(简称ABS曲面
无线传感器的特性决定了传感器网络路由算法不同于传统网络路由算法。传感器网络对服务质量严格要求的业务(如实时多媒体业务、网络电话等)出现,就需要无线传感器网络能够提供
桌面虚拟化技术是目前虚拟化领域的研究热点。围绕着桌面虚拟化的用户体验,学术界和工业界都做了相当多的研究工作。但目前,在桌面虚拟化技术方面依然存在着很多需要解决的问
风险评估是每个软件风险管理计划的一个必要过程。在软件开发阶段早期执行风险评估可以更有效地提高系统资源的分配率。为了改善软件丌发过程,提高软件产品的质量,必须能够在
随着手机用户对手机功能要求的不断提高,普通手机已经不能满足用户的需求。但当前流行的智能手机价格比较昂贵,都是面向高端市场的,很难大众化,针对大众市场的智能手机研究还处于
IPTV作为国内三网融合的典型应用正在高速发展,但是随着用户数量的激增及用户体验要求的提高,基于传统C/S体系结构的IPTV其效率和经济性都大大降低,而P2P架构通过去中心化的
肺癌是死亡率最高的癌症,对肺癌的早期诊断能极大提高患者的存活率。肺结节是肺癌早期的重要征象,基于CT图像的肺结节良恶性判断是当前计算机辅助诊断方法研究的热点,其中对
原子团簇基态结构的预测是团簇研究的核心问题之一,其结果直接影响着对团簇性质的讨论。现在通常采用简化的势能函数模型来描述原子间的相互作用,并通过求解该势能函数的最小