搜索引擎中搜索结果组织的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:Tiffany100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎是信息网络时代人们不可缺少的获取信息的重要工具,人们通过输入查询来获取搜索结果,从而从网络上的离散海量数据中获取想要的信息。然而当前搜索引擎返回的结果数量庞大,人们要获取想要的信息仍然比较困难。用户的需求是以最快的速度获得与查询最相关并且最权威的网页信息。围绕这两个需求高效的组织查询结果是搜索引擎亟需解决的问题。本文就是在这样的技术背景下展开研究,研究对象是两种主要的搜索结果组织技术:网页排序和搜索结果聚类。 首先,以Web挖掘的三个方面Web内容挖掘、Web结果挖掘和Web使用挖掘为主线,对主流网页排序算法PageRank,HITS及其派生算法进行了详细综述,并提出网页排序算法的发展趋势,即综合使用网页的多方面信息用于排序、结合Web使用信息设计个性化的排序算法。 在PageRank框架下,综合使用网页内容和链接结构信息,修改经典的随机访问模型,提出扩展的PageRank算法来解决用户对搜索结果的相关性和权威性两方面需求。修改后的随机访问模型,增强了网页权威性和内容相关性在权值分配中的重要性。最终开发了网页排序算法实验平台,验证了算法的有效性,相同条件下可以获得比。PageRank更好的排序结果。 中文网页信息处理时中文分词是必不可少的重要步骤之一,针对基于字典的中文分词算法对歧义词和未登录词分词效率低的问题,提出基于字典和后缀数组的分词算法,实验表明本算法可以有效提取高频未登录和歧义的词和短语。 对传统的聚类算法和文本聚类算法进行了综述性研究,指出用于搜索结果聚类算法的特别要求,实时性,即高效性,和能够准确的提取聚类描述。 最后,提出基于关联规则挖掘的搜索结果聚类算法,将网页集看作事务集,将网页中的每个词看作事务项进行关联规则挖掘。最后将此聚类算法用于设计开发的元搜索引擎系统,实验结果表明此算法可以有效地进行网页聚类,可以较容易地提取较准确的聚类描述,并且容易实现层次聚类。
其他文献
INMARSAT航空卫星通信系统不仅为飞机提供可靠的话音和数据通信业务,而且可传输有关空中交通控制、飞机操作控制等信息,从而显著改善飞行安全条件。本文在对航行卫星系统协议
AnyBus技术由HMS公司于1993年提出。AnyBus不是一种现场总线,可以说是一系列支持所有工业现场网络的产品总称。AnyBus技术和相关产品可分成嵌入式AnyBus技术、AnyBus网络产品
随着电子测试技术的不断发展,测试技术正向自动化、智能化、数字化和网络化的方向发展。其中数字存储示波器作为测试技术的重要工具而被广泛使用于各个领域,同模拟示波器相比具有许多优点,并有逐步取代传统模拟示波器的趋势。目前,国外在数字存储示波器领域的技术已经非常成熟,并且占领了绝大部分的国内市场份额。而国内的数字存储示波器的研制尚处于起步阶段,目前还没有十分成功的产品。本项目来源于同企业合作的开发项目,目
目的探讨Amplatzer室间隔封堵器(AVSO)介入治疗膜周部室间隔缺损(PMVSD)的临床疗效。方法应用AVSO介入治疗72例PMVSD病人。结果手术技术成功率93.1%(67/72例)。PMVSD大小(4.7
随着信息技术特别是网络技术的发展,电子媒体的传播极为迅速。但随之而来的盗版和侵权行为也日益猖獗。同时也出现了多种保护电子媒体信息安全的技术。数字图像加密及水印技术
近年来,随着人们对网络带宽需求的增加和通信业的飞速发展,网络传输能力发生了巨大的变化,然而,此时接入网并没有出现太大的变化,成为了整个网络的发展瓶颈。基于以太网的无
随着互联网的飞速发展,消费类电子、通信、电视电影广播、计算机技术日益紧密地结合起来,计算机与通信、娱乐业融合的趋势不可逆转,使得基于互联网的数字视音频产业成为本世纪初
波形设计是现代雷达理论的重要分支。低空隐身目标的出现,促进了抑制杂波波形设计的发展,而反辐射导弹的出现,促进了低截获概率(LPI)雷达信号的研究。现代雷达除了探测目标外
本文采用有限元分析法,推导了TE单模微波谐振腔有限元数值模拟的数学模型,运用基于有限元法的ANSYS软件进行数值模拟,分析和讨论了微波加热块状或柱状介质时谐振腔和介质内电磁
多天线发送多天线接收(MIMO)和正交频分复用(OFDM)两种技术的结合被认为是未来无线宽带通信最有效的传输技术之一,既可以很好的解决未来宽带无线通信系统中信道的多径衰落和带