面向企业信息的Web聚焦搜索的设计与实现

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:candry
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从海量网络资源中获取企业基本信息,为企业的客户关系管理、潜在竞争对手发现等提供信息支持,对于企业的生存和发展壮大具有重要意义。鉴于通用搜索引擎处理这类问题时存在的局限性,本文设计实现了面向企业信息的聚焦搜索来满足此类需求。Web中的企业信息页面可以分为两大类:企业信息以结构化表格形式呈现的POI页面、企业信息以非结构化文本形式呈现的TOI页面。两类页面结构差异较大,聚焦搜索过程需分开进行。聚焦爬虫和信息抽取是实现聚焦搜索的两个核心任务,围绕聚焦搜索的这两个核心任务,且面向企业信息的两种不同表现形式,本文主要展开了如下几个方面的研究工作:1、面向POI的聚焦爬虫。现有聚焦爬虫研究多是面向主题的,对于面向POI的用户需求目前还较缺乏相关研究。本文利用朴素贝叶斯与支持向量机等分类器模型,通过设计有效的特征模板,实现了面向POI的聚焦爬虫。实验结果表明利用爬虫对面向POI的用户需求进行聚焦是可行的。2、面向TOI的聚焦爬虫。现有聚焦爬虫在处理文本页面时,大多直接对页面内的所有文本进行处理,这就引入了较多的噪音内容。本文采用改进的页面相关性分析算法,仅获取与主题最相关的五块文本,对不同块赋予相应的权重,利用分类模型方法判断整体的相关性,实现了面向TOI的聚焦爬虫。实验也采用朴素贝叶斯和支持向量机分类模型,实验结果与基于页面全部文本实现的聚焦爬虫Baseline系统相比,收获率平均高出20%左右,最高差值可达51.35%,充分说明了改进的页面相关性算法是非常有效的。3、企业信息抽取。以聚焦爬虫获取的相关网页集为数据源,抽取POI域、TOI域内的企业信息。POI域内的企业信息布局规范,结构规律性较强,因此仅采用包装器方式对相对简单的POI域进行信息抽取。对于相对较复杂的TOI域内的企业信息,本文采用统计学习模型将任务分解为两步进行抽取:先判断一个句子是否包含槽信息,然后判断句中短语所属的槽类别,根据句子和短语的联合概率确定最终的槽填充内容。实验定义了8种企业属性作为待填充槽,各类槽的平均F-measure达到93.8%,比基于规则方法实现的Baseline系统结果平均高出7.6%,充分显示了算法的有效性。
其他文献
随着信息技术和互联网技术的快速发展,嵌入式系统已广泛应用于消费电子和通信领域;嵌入式浏览器已成为最主要的应用软件,甚至有可能是唯一的、直接支持的应用软件。作为基于
随着P2P技术应用日益增多,加强对该项技术的研究已成为当务之急。本课题基于目前理论架构相对比较完整的P2P平台技术JXTA,研究了如何在该平台下进行应用开发,并讨论了P2P技术普
随着语义万维网的迅猛发展,越来越多的数据以RDF的形式发布出来,如何对这种语义数据进行存储、管理、查询以及有价值信息的挖掘,已经成为一个热门的话题。传统的三元组库设计实
面对因特网上日益增多的在线可读文本,文本过滤旨在帮助用户获取自己感兴趣的文本,实现信息服务的个性化,因此它具有广泛的应用背景和较高的实用价值。 文本过滤的形式可大致
在过去的几年中,对等网络(Peer-to-Peer,简称P2P)已经成为一种计算和应用的潮流.越来越多的互联网用户通过Napster,Gnutella,BT下载这样的P2P软件相互交流共享文件,而通过类
近年来,随着多媒体技术、计算机网络与通信技术的快速发展,传统的视频监控系统也朝着新的方向进行着不断地更新与发展.进而出现了集多媒体技术、计算机网络与通信技术于一体
在过去的十年中,传真是商务活动中必不可少的通信工具。随着Internet日益蓬勃发展,基于PSTN的传统传真方式将难以满足人们希望使用方便、价格低的传真服务的要求。而现今IP传
在软件工程研究的发展中,面向功能的结构化方法和面向对象方法最被广泛应用。传统软件开发方法的基本技术是结构分析和结构设计技术,它是围绕实现处理功能的“过程”来构造系统
信息时代给人类社会带来了新的挑战和机遇,传统的以教师、课堂、课本为中心的教学模式将越来越不适应信息社会的需要。随着计算机技术和网络技术的飞速发展,利用网络进行教学已
DNA是遗传信息的载体,遗传信息的作用通常由蛋白质的功能来表现,但DNA并非蛋白质合成的直接模板,合成蛋白质的模板是RNA。RNA二级结构预测问题是计算机科学和生物信息学的基