垂直搜索中信息属性抽取和分类模型研究与实现

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:navigate
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的普及和发展,互联网已经成为人们生活、学习、工作、娱乐的重要途径。互联网作为信息载体,近年来以惊人的速度在增长,信息量以TB计算,拥有上千万个网站、数十亿的用户,而且这个数量还在不断的增长。Web的发展改进了人们的生活方式,越来越多的人通过网络来发布信息和搜索信息。由于Web信息抽取可以将网络上网页的主题内容提取出来,并以统一的结构形式存储,因此整个互联网将会变成一个巨大的数据库,从而为互联网上海量数据的再利用提供了可能,构建垂直搜索引擎就是应用之一。与主题相关的Web文本信息的抽取是影响垂直搜索性能的关键技术,垂直搜索中的Web信息抽取是从具有相同主题、分散存放、表现各异的半结构化信息中抽取出特定的结构化信息,重新形成结构良好、便于检索和表示的数据,因而Web信息抽取技术成为当今研究的热点。本文对基于神经网络的信息抽取方法进行研究,分析其缺陷,并提出改进方法。文中对改进方法进行了详细阐述,并通过实验验证该方法的可行性。改进的方面有:1)在过滤原则中加入了相关度计算,即将每行文本的文字内容与标题的相关度作为神经网络的一个训练参数。2)在对页面文档进行信息统计前,先将网页代码中书写不规范的代码行进行合并,以提高算法的处理效率。3)采用BP神经网络作为训练模型,依靠其多次反复修改权值和阈值的特性,获得更合理的阈值。另外,本文在改进算法的基础上结合文本分类知识设计了一个信息抽取和分类模型,并在此模型的基础上实现了一个信息抽取和分类系统。该系统主要实现如何将Web文档中的正文内容抽取出来,并根据抽取结果对被抽取Web文档进行分类。
其他文献
随着高等教育改革的不断深入和网络技术的推陈出新,各高校都加大了对教学参考资源的建设力度。高校教学参考资源平台的建立是一个数字资源整合、系统整合和服务整合的过程,平台
机会网络是传统移动自组织网络的一种重要的演变,在机会网络中,由于节点的移动,网络稀疏或者信号衰减等原因,无法保证通信源节点和目的节点之间存在一条完整的路径。然而应用
GPU(Graphics Processing Units)是由NVIDIA公司研发的一种专门用在移动设备上的微处理器。GPU不仅促进了图像处理等应用领域的发展,而且为图形学以外的其他领域提供了良好的
为了保护少数民族文化遗产,本文利用三维建模软件Multigen Creator和实时仿真软件Multigen Vega开发了一个少数民族文字“女书”虚拟碑林园视景仿真漫游系统,研究了视景仿真
随着计算机科学技术的发展,二维条码技术在物流、自动化生产、国际贸易、电子商务等各领域被广泛应用。二维条码以其信息量大、面积小、防伪和抗污染能力强在信息采集、信息
计算机接口技术的迅速发展,促进了电子测量仪器的发展,新的总线逐步应用到仪器领域。新总线的优良特性为测试工作带来便利,同时也使自动测试系统向混合总线测试系统发展。本文介
无线传感器网络涉及传感器技术、嵌入式技术、通信技术、分布式信息处理技术以及微机电技术等众多学科,已被广泛应用在军事、医疗、交通、环保等领域。在救灾、探矿等领域中,
随着网络技术地持续发展,以网络为媒介的分布式远程教学正在走出传统教学的框架,逐步改变了“教”与“学”的方式。体现以学生为主体、老师为主导,构建学生充分参与及自主学习的
本文主要研究抗打印扫描的数字图像水印算法,通过分析抗打印扫描数字水印算法的研究现状,设计一种较为完善的抗打印扫描的数字水印系统,并使之能够有效的应用于硬拷贝图文的
随着航运船舶数量的逐年增加,人们对船舶航行安全的要求也在不断提高。对船舶设备运行状态进行实时监控是确保船舶安全运行的主要技术手段之一。由于船舶设备数量大、型号多