面向企业信息的Web聚焦搜索的设计与实现

来源 :南京师范大学 | 被引量 : 0次 | 上传用户：candry

【摘要】

：

从海量网络资源中获取企业基本信息,为企业的客户关系管理、潜在竞争对手发现等提供信息支持,对于企业的生存和发展壮大具有重要意义。鉴于通用搜索引擎处理这类问题时存在的

【作者】

：

范欣

【机构】

：

南京师范大学

【出处】

：

南京师范大学

【发表日期】

：

2013年期

【关键词】

：

聚焦搜索聚焦爬虫信息抽取联合概率模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

从海量网络资源中获取企业基本信息,为企业的客户关系管理、潜在竞争对手发现等提供信息支持,对于企业的生存和发展壮大具有重要意义。鉴于通用搜索引擎处理这类问题时存在的局限性,本文设计实现了面向企业信息的聚焦搜索来满足此类需求。Web中的企业信息页面可以分为两大类：企业信息以结构化表格形式呈现的POI页面、企业信息以非结构化文本形式呈现的TOI页面。两类页面结构差异较大,聚焦搜索过程需分开进行。聚焦爬虫和信息抽取是实现聚焦搜索的两个核心任务,围绕聚焦搜索的这两个核心任务,且面向企业信息的两种不同表现形式,本文主要展开了如下几个方面的研究工作：1、面向POI的聚焦爬虫。现有聚焦爬虫研究多是面向主题的,对于面向POI的用户需求目前还较缺乏相关研究。本文利用朴素贝叶斯与支持向量机等分类器模型,通过设计有效的特征模板,实现了面向POI的聚焦爬虫。实验结果表明利用爬虫对面向POI的用户需求进行聚焦是可行的。2、面向TOI的聚焦爬虫。现有聚焦爬虫在处理文本页面时,大多直接对页面内的所有文本进行处理,这就引入了较多的噪音内容。本文采用改进的页面相关性分析算法,仅获取与主题最相关的五块文本,对不同块赋予相应的权重,利用分类模型方法判断整体的相关性,实现了面向TOI的聚焦爬虫。实验也采用朴素贝叶斯和支持向量机分类模型,实验结果与基于页面全部文本实现的聚焦爬虫Baseline系统相比,收获率平均高出20%左右,最高差值可达51.35%,充分说明了改进的页面相关性算法是非常有效的。3、企业信息抽取。以聚焦爬虫获取的相关网页集为数据源,抽取POI域、TOI域内的企业信息。POI域内的企业信息布局规范,结构规律性较强,因此仅采用包装器方式对相对简单的POI域进行信息抽取。对于相对较复杂的TOI域内的企业信息,本文采用统计学习模型将任务分解为两步进行抽取：先判断一个句子是否包含槽信息,然后判断句中短语所属的槽类别,根据句子和短语的联合概率确定最终的槽填充内容。实验定义了8种企业属性作为待填充槽,各类槽的平均F-measure达到93.8%,比基于规则方法实现的Baseline系统结果平均高出7.6%,充分显示了算法的有效性。

其他文献

嵌入式浏览器图像处理技术研究

随着信息技术和互联网技术的快速发展,嵌入式系统已广泛应用于消费电子和通信领域;嵌入式浏览器已成为最主要的应用软件,甚至有可能是唯一的、直接支持的应用软件。作为基于

学位

嵌入式系统嵌入式浏览器多线程解析

基于JXTA的协同工作系统及安全问题研究

随着P2P技术应用日益增多，加强对该项技术的研究已成为当务之急。本课题基于目前理论架构相对比较完整的P2P平台技术JXTA，研究了如何在该平台下进行应用开发，并讨论了P2P技术普

学位

PZPJXTA协同工作安全PZPCW

大规模语义数据分析系统

随着语义万维网的迅猛发展，越来越多的数据以RDF的形式发布出来，如何对这种语义数据进行存储、管理、查询以及有价值信息的挖掘，已经成为一个热门的话题。传统的三元组库设计实

学位

大规模分布式存储与查询语义数据分析SPARQL

基于内容和协作的科技文献过滤方法研究

面对因特网上日益增多的在线可读文本，文本过滤旨在帮助用户获取自己感兴趣的文本，实现信息服务的个性化，因此它具有广泛的应用背景和较高的实用价值。文本过滤的形式可大致

学位

文本过滤内容过滤协作过滤结合过滤用户兴趣模型向量空间模型

手持移动平台上对等信息共享系统的研究和实现

在过去的几年中,对等网络(Peer-to-Peer,简称P2P)已经成为一种计算和应用的潮流.越来越多的互联网用户通过Napster,Gnutella,BT下载这样的P2P软件相互交流共享文件,而通过类

学位

P2P手持移动设备信息共享

新型网络数字视频监控系统的研究

近年来,随着多媒体技术、计算机网络与通信技术的快速发展,传统的视频监控系统也朝着新的方向进行着不断地更新与发展.进而出现了集多媒体技术、计算机网络与通信技术于一体

学位

视频监控线程池视频压缩多播运动检测

基于Linux系统的IP传真的传输技术研究

在过去的十年中,传真是商务活动中必不可少的通信工具。随着Internet日益蓬勃发展,基于PSTN的传统传真方式将难以满足人们希望使用方便、价格低的传真服务的要求。而现今IP传

学位

IP传真套接字VoIP嗅探器

基于UML的PHS营业系统设计与实现

在软件工程研究的发展中，面向功能的结构化方法和面向对象方法最被广泛应用。传统软件开发方法的基本技术是结构分析和结构设计技术，它是围绕实现处理功能的“过程”来构造系统

学位

统一建模语言面向对象方法系统分析关系数据库

基于MPEG-4的多媒体网络教学系统

信息时代给人类社会带来了新的挑战和机遇，传统的以教师、课堂、课本为中心的教学模式将越来越不适应信息社会的需要。随着计算机技术和网络技术的飞速发展，利用网络进行教学已

学位

MPEG-4流媒体技术SMIL网络教学系统

预测RNA二级结构的快速计算方法的研究

DNA是遗传信息的载体,遗传信息的作用通常由蛋白质的功能来表现,但DNA并非蛋白质合成的直接模板,合成蛋白质的模板是RNA。RNA二级结构预测问题是计算机科学和生物信息学的基

学位

RNA二级结构伪结点动态规划热动力学堆迭

面向企业信息的Web聚焦搜索的设计与实现

与本文相关的学术论文