经济新闻自动标引系统的研究

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:ijlusr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新闻是一种极其重要的信息资源,对新闻信息进行加工处理,使之机读化、数字化将大大推动全社会的信息化进程。本论文对新闻信息的特点、利用价值和社会影响力进行了深入的阐述和分析,并回顾了国内外文献自动标引技术的发展历史和现状,分析了国内新闻数据库产品普遍存在的问题,提出了要满足新闻信息标引要求,需要采用计算机自动标引。 为了实现新闻信息的自动标引,作者以新华社电讯稿(经贸类)为例,在分析、综合国内外自动标引方法和技术的基础上,提出了基于多词表的综合抽词技术,即避开现有汉语歧义切分中的一些技术难点,采用构建相关词表实现对新闻信息进行自动抽词和标引。并详细介绍了各种词表的功能、构建和在标引中的具体应用,相关词表包括:特例词表、停用词表、同义词表、关键词表、主题词表、自由词表、人名机构表、分类主题词表和词素表等。设计了“特例词表处理——停用词表处理——抽词处理——词汇增补”的抽词方法和规则。在主题词标引上,提出了识别同义词的“词素相似度和字面相似度相结合的方法”。在基于词串的分类技术中,采用“基于标引经验数据的词串聚类”方法,并对实现的算法和规则进行了介绍。 随后作者利用C语言、VFP6.0等工具设计并开发了一个包括数据导入、自动抽词、自动主题与分类标引、词表维护等功能,用以处理新华社电讯稿的自动标引实验系统。并经过一定量原始新闻数据的自动标引测试,从系统标引效率、标引准确性和兼容性等方面对实验系统性能进行了全面的评价;并进行了实验系统与人工标引的对比实验。还对本系统所存在的问题和不足进行了客观的分析。 本系统标引实验表明:采用编制各种自然语言和受控语言词表可以有效地解决自动标引中的抽词以及标引词的确定问题。采用基于标引经验的自动分类方法可以有效地完成由词串向分类号的转换。
其他文献
“最后一公里”是“宽带中国”战略的重要一环.其速率的提升是有效提升国内宽带接入水平的直接体现。去年以来,国内运营商相继开启了大规模光纤到户(FTTH)接入网建设,这在网络覆盖
介绍了3种有关恶臭的测定方法及其发展趋向,即色谱质谱法(GC/MC)、电子鼻法(electronicnose)和嗅觉测定法(ol-factometry).目前世界上广泛采用以臭味浓度作为恶臭污染的控制指标.嗅觉测定法是广泛接受的臭味测定方法.本文
通过对FTTH(Fiber to the home,光纤到户)发展必需性的分析,以及国内外发展状况的举例,引出目前FTTH发展的困难。试图通过对困难的陈述,引发各业界对FTTH发展的改革和创新。
将精氨酸布洛芬微丸灌装成胶囊,不仅可以提高药物的溶解度,还可以缩小药物的体积,可以有效解决患者的服用顺从性差的缺点。本文主要研究了离心造粒法制备精氨酸布洛芬微丸的
本文介绍空心聚合物纳米球的发展现状 ,着重阐述空心聚合物纳米球的化学制备方法 ,对各种制备方法进行了比较 ,并介绍了空心聚合物纳米球的表征、性能检测技术以及应用现状和
目前,湿法石灰石-石膏烟气脱硫系统(即FGD系统)在火电厂脱硫系统中占绝大比例。FGD系统采用化学方法除掉烟气中的二氧化硫的方式,其中pH值是一个重要的参数,关系到化学反应的
罂粟碱和中药罂粟壳作为临床上的常见药物及作为食品添加剂的非法使用,吸引了众多研究人员对罂粟碱检测方法的研究。本文概述了罂粟碱的结构特点和作为药物的使用情况,系统介
通过对重庆四面山营销现状的研究,总结出重庆四面山应当扬长避短,通过加强网络营销意识、搭建完善的网络营销平台体系、充分利用政策和技术支持、加强企业间合作,以及开展电
问题链是师生质疑、释疑的过程,化学问题链设计应遵循过渡性、兴趣性、渐进性和整体性原则。文章结合具体案例,从多方面探究问题链在元素化合物教学中的运用。