搜索引擎结果的结构化处理

来源 :中国科学院声学研究所 | 被引量 : 0次 | 上传用户：wusuowei2100

【摘要】

：

互联网搜索是计算机领域的一个重要的的工作。在快速而准确的查找的用户所需求的文档的同时，如何更合理的展现出搜索的结果，也是搜索引擎重要的一个方面。输出结构化的搜索结果

【作者】

：

赵然

【机构】

：

中国科学院声学研究所

【出处】

：

中国科学院声学研究所

【发表日期】

：

2009年期

【关键词】

：

搜索引擎

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网搜索是计算机领域的一个重要的的工作。在快速而准确的查找的用户所需求的文档的同时，如何更合理的展现出搜索的结果，也是搜索引擎重要的一个方面。输出结构化的搜索结果是一种比较理想的目标。但是动态的对搜索结果进行分类，并输出动态的类别标签，是对传统文本分类研究的一个挑战。　　本文研究的目的是在利用现有的分类方法、先验知识的同时，探索和改进更适合帮助输出结构化搜索结果的文本处理方法。　　本文在元搜索的基础上，设计了一个搜索后处理的流程，来实现对搜索结果的动态归类。采用文本聚类的方式，动态的划分搜索结果，并设计了从类别里面提取动态类别标签的算法。本文也基于HNC的理论，借用了语境框架的概念和思想，设计了伪语境框架的结构。在伪语境框架知识库和其它可以获得的知识的指导下，也同样完成了搜索后处理的实现。　　本文随后比较了以上两种方法之间的优劣。一般而言，聚类的方法具有更强的动态性，而先验知识的方法具有更好的准确率。　　在研究中，本文取得了如下成果：　　 1.提出了搜索后处理来实现结构化搜索结果的基本流程；　　 2.设计并实现了用热点发现的算法实现聚类结果中提取类别标签的方法，以应用在搜索结果的类别导航中；　　 3.基于HNC语境框架理论，建立了适合于动态分类标准的分类所参考的先验知识库结构，并探索了利用语境框架这种先验知识对搜索结果进行领域和情景的二层分类方法。

其他文献

开花及不同栽培措施下雷竹植株的生理生态变化研究

雷竹（Phyllostachys praecox f. prevernalis）是浙江西北地区的主要笋用竹种之一,由于其出笋早、产量高、笋味好而在我国得到广泛栽培,并且通过科技人员的大量试验研究,覆盖早

学位

雷竹内源激素氨基酸营养成分开花栽培措施生理生态变化

理化因子诱导的CP43和CP47结构与功能变化规律的研究

CP43和CP47是PSⅡ中位于类囊体膜上的两种内周天线色素蛋白复合体，它们都是由六个跨膜的α-螺旋和五个膜外环组成。CP43和CP47的主要功能是把光系统Ⅱ(PSⅡ)外周天线色素蛋白

学位

盐酸胍

硅微压电超声换能器匹配电路的关键技术的研究

医学超声成像技术广泛应用于医疗超声设备中，是临床上三大影像检测手段之一。医学超声成像系统的重要组成部分包括超声换能器和与其相匹配的收发电路系统。二者对医用超声成像

学位

医学超声

双Buck多电平逆变技术研究

学位

高分辨率SAR图像线状地物提取算法的研究

SAR图像的线状目标提取对地图更新、目标识别、影像匹配等方面具有重要的辅助意义，是图像目标检测的一个重要内容。而随着高分辨率SAR图像的出现，线状目标表现出新的成像特征，传

学位

线状目标多尺度分析对象分割算法纹理检测空间结构特征目标轮廓合成孔径雷达

荒漠地表生物结皮中藻类区系与生态学研究——以古尔班通古特沙漠为例

古尔班通古特沙漠位于新疆准噶尔盆地腹地(44°11′～46°20′N，84°31′～90°00′E)，面积达4.88×104km2，海拔在300～600m之间，是我国最大的固定半固定沙漠。古尔班通古特沙漠(以下简

学位

古尔班通古特沙漠生物结皮藻类种类组成生态分布生物量

传声器阵列技术及其在语音识别系统中的应用

随着计算机的便携化以及随身数码设备功能的多元化，人们越来越迫切的要求摆脱传统输入设备(键盘、鼠标等)的束缚，代之以更加便于使用的、自然的、人性化的输入方式。语音信号处

学位

语音识别

养殖刺参（Apostichopus japonicus）主要细菌性疾病的病原学研究

近年来，山东半岛的养殖刺参不断发生大规模的疾病，给刺参养殖业造成了巨大的经济损失。为了尽快查清引起刺参发病的原因，进而寻找防治疾病的方法，笔者经过近两年(2002—2004)的时

学位

刺参水产养殖烂边症化板症腐皮综合症细菌

基于网络处理器的IPSec VPN研究与实现

网络处理器是新一代用来执行数据处理和转发的高速可编程处理器，Intel公司则是网络处理器的领导厂商之一。IXP2850是Intel公司在IXP1XXX基础上研发的第二代网络处理器之一，它代

学位

网络处理器网络处理器网络安全协议网络安全协议虚拟专用网虚拟专用网IPSecVPN网关IPSecVPN网关

结合二维图像和三维扫描信息的场景几何重建

真实场景的三维重建已经成为计算机视觉和计算机图形学研究的焦点之一，在文物保护、虚拟现实、城市规划以及电影娱乐等领域有着越来越广泛的应用。　　激光扫描建模技术可以

学位

场景几何三维重建二维图像三维扫描信息激光扫描立体匹配

搜索引擎结果的结构化处理

与本文相关的学术论文