搜索引擎结果的结构化处理

来源 :中国科学院声学研究所 | 被引量 : 0次 | 上传用户:wusuowei2100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网搜索是计算机领域的一个重要的的工作。在快速而准确的查找的用户所需求的文档的同时,如何更合理的展现出搜索的结果,也是搜索引擎重要的一个方面。输出结构化的搜索结果是一种比较理想的目标。但是动态的对搜索结果进行分类,并输出动态的类别标签,是对传统文本分类研究的一个挑战。   本文研究的目的是在利用现有的分类方法、先验知识的同时,探索和改进更适合帮助输出结构化搜索结果的文本处理方法。   本文在元搜索的基础上,设计了一个搜索后处理的流程,来实现对搜索结果的动态归类。采用文本聚类的方式,动态的划分搜索结果,并设计了从类别里面提取动态类别标签的算法。本文也基于HNC的理论,借用了语境框架的概念和思想,设计了伪语境框架的结构。在伪语境框架知识库和其它可以获得的知识的指导下,也同样完成了搜索后处理的实现。   本文随后比较了以上两种方法之间的优劣。一般而言,聚类的方法具有更强的动态性,而先验知识的方法具有更好的准确率。   在研究中,本文取得了如下成果:   1.提出了搜索后处理来实现结构化搜索结果的基本流程;   2.设计并实现了用热点发现的算法实现聚类结果中提取类别标签的方法,以应用在搜索结果的类别导航中;   3.基于HNC语境框架理论,建立了适合于动态分类标准的分类所参考的先验知识库结构,并探索了利用语境框架这种先验知识对搜索结果进行领域和情景的二层分类方法。
其他文献
雷竹(Phyllostachys praecox f. prevernalis)是浙江西北地区的主要笋用竹种之一,由于其出笋早、产量高、笋味好而在我国得到广泛栽培,并且通过科技人员的大量试验研究,覆盖早
CP43和CP47是PSⅡ中位于类囊体膜上的两种内周天线色素蛋白复合体,它们都是由六个跨膜的α-螺旋和五个膜外环组成。CP43和CP47的主要功能是把光系统Ⅱ(PSⅡ)外周天线色素蛋白
学位
医学超声成像技术广泛应用于医疗超声设备中,是临床上三大影像检测手段之一。医学超声成像系统的重要组成部分包括超声换能器和与其相匹配的收发电路系统。二者对医用超声成像
学位
学位
SAR图像的线状目标提取对地图更新、目标识别、影像匹配等方面具有重要的辅助意义,是图像目标检测的一个重要内容。而随着高分辨率SAR图像的出现,线状目标表现出新的成像特征,传
古尔班通古特沙漠位于新疆准噶尔盆地腹地(44°11′~46°20′N,84°31′~90°00′E),面积达4.88×104km2,海拔在300~600m之间,是我国最大的固定半固定沙漠。古尔班通古特沙漠(以下简
随着计算机的便携化以及随身数码设备功能的多元化,人们越来越迫切的要求摆脱传统输入设备(键盘、鼠标等)的束缚,代之以更加便于使用的、自然的、人性化的输入方式。语音信号处
学位
近年来,山东半岛的养殖刺参不断发生大规模的疾病,给刺参养殖业造成了巨大的经济损失。为了尽快查清引起刺参发病的原因,进而寻找防治疾病的方法,笔者经过近两年(2002—2004)的时
网络处理器是新一代用来执行数据处理和转发的高速可编程处理器,Intel公司则是网络处理器的领导厂商之一。IXP2850是Intel公司在IXP1XXX基础上研发的第二代网络处理器之一,它代
真实场景的三维重建已经成为计算机视觉和计算机图形学研究的焦点之一,在文物保护、虚拟现实、城市规划以及电影娱乐等领域有着越来越广泛的应用。   激光扫描建模技术可以