文本信息自动标引技术研究与改进

被引量 : 4次 | 上传用户:Vivian496
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动标引就是指利用计算机自动给出能表达文本信息内容的主题词或关键词的过程。为了适应信息资源快速增长的需要,和解决传统人工标引的费用高昂、效率低下、一致性差等缺陷,自动标引的研究成为必然趋势且具有重大意义。根据标引词来源的不同,自动标引方法分为关键词自动抽取标引和自动赋词标引两种方法。目前国内外的研究主要集中于自动抽词标引,即利用计算机自动从文本信息中提取出可以表达文本核心内容的主题词成为标引词。本文在研究、分析和总结前人的自动抽词标引方法的基础上,选择文本信息计算机自动抽词作为标引词的技术进行了研究,并完成了以下工作:(1)阐述了自动标引技术的研究意义。它是检索系统的基础,以及自动摘要、自动分类、自动聚类、机器翻译等自然语言处理领域的技术前提。介绍了标引词、关键词、关键短语、主题词、术语和受控词等自动标引相关的概念,确立关键词、关键短语或主题词为自动标引主体。概要介绍了计算机自动标引技术的流程步骤,及每一步骤的处理要求和相应方法。最后简要描述了中文自动标引分词技术的几类方法原理。(2)针对英文自动标引系统中的抽取候选关键词这一过程进行研究,引入了核心单词集这一概念。在研究核心单词集和关键词集之间关系的基础上,结合n-gram法,提出了由核心单词定位潜在候选关键词,再根据核心单词前后拓展树生成侯选关键词这一算法思想。并与n-gram法生成候选关键词进行结果比较,将传统的n-gram法生成候选关键词集缩小到原来的2/7,并且没有增加计算复杂性。(3)针对中文信息的自动标引技术研究中TF-IDF统计加权法的不足,考虑到词语的其他统计信息(词性、位置信息和互信息)对候选关键词成为最终标引词的权重计算的影响,在TF-IDF算法的基础上增加这些统计信息,提出了改进的自动标引多特征融合方法及其计算公式。最后进行了数值实验,并就自动抽词标引实验准确率、召回率和综合指标F等技术参数进行了对比分析。结果表明,改进的自动标引多特征融合算法较已知TF-IDF统计加权法提高了查全率和查准率。
其他文献
2013年作为世界第一外贸大国的中国,美国不仅是我国的重要进口国,也是我国的第一大出口国。但在美国以“中美贸易不平衡”为由的政治炒作和施压下,中美贸易不平衡问题,逐渐已
炎炎夏日,犬类容易烦躁。最近许多媒体都关注了流浪狗伤人问题,其实除了流浪狗,有饲主的狗伤人的情况也不少见,这类事件处理不当还特别容易引发舆论争议。比如最近南京一男子因孩
报纸
目的:了解广州市东山区 2~ 12岁儿童的睡眠时间及其相关因素.方法:于 2003年 6-9月间在广州市东山区随机抽取两所小学及两所幼儿园共 1 734名儿童,在严格质量控制的条件下由专
<正>托辊是胶带输送机的主要部件,需要数量多,质量要求高,且又是易损件,更换数量大(约占托辊总数25%),所以如何合理选择托辊是个重要问题。目前设计胶带输送机多是根据“带式
信访制度应定位为"宪政体制下的辅助政治制度",强化信访中的纠纷调解和权力救济职能,弱化权力监督职能,整合简化机构,落实职责权力,转变民意上达为民意表达的途径,疏通信访渠
随着中国资本市场的快速发展,金融投资者和研究人员关注的焦点从指数化投资转移到了量化投资。量化投资策略实际上是一种借助数量化工具的主动投资管理策略,预期收益率和风险
润滑系统的性能对于主减速器的稳定性和可靠性具有至关重要的影响。采用基于计算机技术的润滑系统设计和性能仿真方法,能够显著的提高设计效率,具有很大的研究价值。本文对基
目的 探究超声内镜结合微创技术在诊断及治疗上消化道黏膜下肿瘤的应用价值。方法 对经电子胃镜发现的156例上消化道黏膜下肿瘤患者行超声内镜检查,其中145例根据超声内镜下病
对中药桃仁、杏仁、白扁豆、马钱子、斑蝥、水蛭的生药及其不同炮制品进行了聚丙烯酰胺凝胶电泳(PAGE)分析,探讨了不同炮制方法对生物蛋白质数量及种类的影响,并绘制了20个样品的电泳鉴
针对炉体高热负荷区域,基于铜冷却壁的优良性能,开发了一种炉体新型冷却结构,即在炉体高热负荷区采用铸铁冷却壁热面镶嵌铜冷却条。这种炉体新型冷却结构在1080m~3等多座高炉