论文部分内容阅读
新闻是一种极其重要的信息资源,对新闻信息进行加工处理,使之机读化、数字化将大大推动全社会的信息化进程。本论文对新闻信息的特点、利用价值和社会影响力进行了深入的阐述和分析,并回顾了国内外文献自动标引技术的发展历史和现状,分析了国内新闻数据库产品普遍存在的问题,提出了要满足新闻信息标引要求,需要采用计算机自动标引。 为了实现新闻信息的自动标引,作者以新华社电讯稿(经贸类)为例,在分析、综合国内外自动标引方法和技术的基础上,提出了基于多词表的综合抽词技术,即避开现有汉语歧义切分中的一些技术难点,采用构建相关词表实现对新闻信息进行自动抽词和标引。并详细介绍了各种词表的功能、构建和在标引中的具体应用,相关词表包括:特例词表、停用词表、同义词表、关键词表、主题词表、自由词表、人名机构表、分类主题词表和词素表等。设计了“特例词表处理——停用词表处理——抽词处理——词汇增补”的抽词方法和规则。在主题词标引上,提出了识别同义词的“词素相似度和字面相似度相结合的方法”。在基于词串的分类技术中,采用“基于标引经验数据的词串聚类”方法,并对实现的算法和规则进行了介绍。 随后作者利用C语言、VFP6.0等工具设计并开发了一个包括数据导入、自动抽词、自动主题与分类标引、词表维护等功能,用以处理新华社电讯稿的自动标引实验系统。并经过一定量原始新闻数据的自动标引测试,从系统标引效率、标引准确性和兼容性等方面对实验系统性能进行了全面的评价;并进行了实验系统与人工标引的对比实验。还对本系统所存在的问题和不足进行了客观的分析。 本系统标引实验表明:采用编制各种自然语言和受控语言词表可以有效地解决自动标引中的抽词以及标引词的确定问题。采用基于标引经验的自动分类方法可以有效地完成由词串向分类号的转换。