Web中的非结构化文本信息管理元数据技术研究

来源 :石家庄铁道学院 石家庄铁道大学 | 被引量 : 0次 | 上传用户:xiaoqingxiaoming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet发展进程的加快,网络信息资源在数量上呈爆炸式增长。现有的搜索引擎大多是基于文本和关键字的通用检索,存在查询方式单一、查准率低、用户满意度差等诸多问题。为了解决这些问题,本文利用元数据对Web中非结构化文本进行描述性标记来达到提高信息检索质量的目的。 本文的主要研究工作包括以下三个方面: 其一,对Web中非结构化文本信息特点进行分析后,参考国内外各种网络信息资源元数据模型,完成了Web中非结构化文本信息元数据的标准化工作,并确定了元数据的核心集。 其二,研究了Web中非结构化文本信息元数据的自动抽取技术。通过网络蜘蛛程序提取标题、URL、作者、日期等元数据。在对关键词元数据提取过程中,采用ICTCLAS中文分词系统,实现了分词系统的JAVA调用。对分词系统中N.最短路径的粗分模型进行了改进,通过过滤无覆盖型歧义切分结构的切分方案,使得剩余粗分结果数量大大减少。 其三,在元数据标准的基础上,对如何有效的进行元数据的存储和资源搜索进行了深入的研究。基于元数据的搜索能提供比基于关键词的Web全文搜索引擎更为精确和语义更强的索引。本文实现了基于元数据的Web信息检索方法。
其他文献
本文介绍了一种新型的演化算法-微粒群算法(PSO),研究了其在QoS组播路由问题中应用。PSO是一种全局寻优技术,适合于在复杂而庞大的搜索空间中寻找最优解,它原理简单,易于并行,广泛
网格是继万维网之后出现的一种新型的网络计算平台,是把地理位置上分散的资源集成起来的一种基础设施,网格将通过通信手段连接起来的资源无缝集成为一个有机整体。对于网格及应
基于WEB的饮水安全信息管理系统(WSIS)受陕西省水利厅委托开发,用于全省饮水安全项目信息的采集、管理与决策支持,对于提高群众饮水安全的监督管理水平具有非常重要的实际意
随着社会经济的不断发展,洪水灾害所造成的经济损失和社会影响与日俱增,因此,防汛减灾是世界各国普遍关注的问题。防汛决策支持系统是防汛减灾指挥系统的核心,它在信息、通信和计
命名图(Named Graphs)可以作为语义网中信任问题的解决方法之一。采用命名图的形式发布本体,同时在用户使用时加入相应的信任策略选取信任本体,可以在一定程度上保证信息来源
自计算机网络诞生以来,安全就一直是一个非常关键的问题。由于P2P(Peer-to-Peer)网络包含了许多不同于传统的客户端/服务器模式的新的安全问题,因此P2P网络的安全已成为一个研
随着信息技术的飞速发展,计算机软件在社会各个领域的普及程度越来越高,同时社会对计算机软件也提出更高的要求,软件的规模和复杂度越来越高,面向网络的分布式软件系统是软件发展
在许多公司内部,存在着使用多年、积累了丰富的数据,从过去到当前一直发挥着重要作用的遗留系统。由于需求改变、平台升级以及新技术出现使得我们不得不对一些过去证明是成功的
随着军用航空技术的迅猛发展,飞行员感受和所需管理的各种信息爆炸性增加,以CCD作为传感器的各种地基、空基摄像系统的应用也越来越广泛。由于空间目标往往是淹没在复杂的环境
近年来,互联网中的VoIP业务得到广泛应用,通话模式已由PCTOPC的方式逐渐发展为PCTOPHONE或者PHONETOPHONE,给电信运营企业的传统电信话音业务带来了新的市场的同时,也带来了巨大