论文部分内容阅读
随着Internet发展进程的加快,网络信息资源在数量上呈爆炸式增长。现有的搜索引擎大多是基于文本和关键字的通用检索,存在查询方式单一、查准率低、用户满意度差等诸多问题。为了解决这些问题,本文利用元数据对Web中非结构化文本进行描述性标记来达到提高信息检索质量的目的。
本文的主要研究工作包括以下三个方面:
其一,对Web中非结构化文本信息特点进行分析后,参考国内外各种网络信息资源元数据模型,完成了Web中非结构化文本信息元数据的标准化工作,并确定了元数据的核心集。
其二,研究了Web中非结构化文本信息元数据的自动抽取技术。通过网络蜘蛛程序提取标题、URL、作者、日期等元数据。在对关键词元数据提取过程中,采用ICTCLAS中文分词系统,实现了分词系统的JAVA调用。对分词系统中N.最短路径的粗分模型进行了改进,通过过滤无覆盖型歧义切分结构的切分方案,使得剩余粗分结果数量大大减少。
其三,在元数据标准的基础上,对如何有效的进行元数据的存储和资源搜索进行了深入的研究。基于元数据的搜索能提供比基于关键词的Web全文搜索引擎更为精确和语义更强的索引。本文实现了基于元数据的Web信息检索方法。