文本信息抽取模型及算法研究

被引量 : 0次 | 上传用户:singularity1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从20世纪60年代以来,作为自然语言处理领域的一个重要研究分支,文本信息抽取理论的研究受到了国内外研究者的广泛关注,得到了不断的发展,取得了许多研究成果。但是,在文本信息抽取中还存在许多关键的问题,例如,文本信息抽取性能不高、抽取模型的适用性不强、训练文本的人工标记工作量大等问题,有待进一步通过研究加以解决。本文通过规则和统计的方法,研究文本信息抽取的模型和算法,以进一步提高模型的抽取性能,增强模型的适用能力,减少模型的训练对人工标记文本的依赖程度,提高模型主动学习的能力,解决文本信息抽取中的一些关键问题。本文的主要研究工作包括以下几个方面;(1)在分析基于页面标志信息和基于文本模式信息两类算法的基础上,提出了一种新的包装器归纳学习算法。新算法综合了上述两类算法的优点,不但能利用页面的标志信息进行信息定位,而且能利用文本的模式信息进行信息抽取,并对抽取结果进行必要的过滤,因而,新的算法具有更高的抽取精确度与更强的信息表达能力。(2)为了解决变化的WEB页面导致包装器失效的问题,使包装器模型能自动适用变化的WEB页面的信息抽取。论文基于以下的观察;尽管页面有多种多样的变化方式,但是许多重要的页面特征信息在新页面都得到了保存,例如文本模式信息、注释信息和超级链接信息等。提出了一种基于页面特征的包装器平衡算法,新算法首先从包装器正常工作时被收集起来的训练样例中学习得到WEB页面的模式信息、数据项注释信息以及可能的超级链接信息等特征信息,然后充分利用这些特征信息在变化的WEB页面中定位目标信息,以自动修复失效的包装器。对实际WEB站点信息抽取的实验表明,新算法能有效地维持包装器的平衡。(3)提出了一种基于聚簇隐马尔可夫模型的文本信息抽取算法。对于网上不同来源的格式不同的文本,在以往的抽取方法中,将所有的训练文本混合训练一个统一的隐马尔可夫模型,一般难以得到较优化的抽取模型,影响了抽取性能。因此,论文考虑将聚簇分析应用到文本信息抽取中,首先,对聚簇分析中的K-平均方法进行改进,以提高聚簇性能;然后,对训练文本的Markov链模型进行聚簇,用各个簇的文本训练出不同的抽取模型;最后,应用各模型分别进行文本信息抽取,并通过比较得到最优的抽取结果。仿真实验结果表明,对不同来源的文本信息的抽取,新的抽取模型和算法具有良好的适用能力和更高抽取性能。(4)研究了基于隐马尔可夫模型文本信息抽取中的信息熵模型。首先,考虑特征信息对提高文本信息抽取性能的作用,提出了一种基于最大熵隐马尔可夫模型的文本信息抽取算法,该算法通过最大熵模型,将文本的上下文特征信息和文本词汇本身包含的特征信息加入到模型的训练和文本信息抽取中,提高了抽取性能;其次,为了解决从大段文本信息中抽取关键信息的问题,将互信息模型应用到基于隐马尔可夫模型的文本信息抽取中,通过点互信息定量描述文本信息的隐马尔可夫模型中非相邻状态之间的转移概率,实现了对文本中关键信息的抽取,并得到了较好的抽取效果。(5)研究了文本信息抽取中的二阶隐马尔可夫模型。在一阶隐马尔可夫模型中,假设状态的转移概率和观察值的输出概率只依赖于模型当前的状态,一定程度制约了信息抽取的精确度。二阶隐马尔可夫模型合理地考虑了概率和模型历史状态的关联性,对错误信息的识别能力更强。论文在一阶模型的ML(ML,MaximumLikelihood)算法的基础上推导了二阶模型的ML算法;提出了基于二阶隐马尔可夫模型的文本信息抽取算法;分析了二阶隐马尔可夫模型在提高信息抽取正确率上的有效性。仿真实验结果表明,新的算法比基于一阶隐马尔可夫模型的算法具有更高的抽取精确度。(6)研究了结合最大熵模型和二阶隐马尔可夫模型的文本信息抽取方法。在基于二阶隐马尔可夫模型的文本信息抽取中,虽然提高了模型对错误信息的识别能力,提高了信息抽取的正确率,但是信息抽取的召回率没有提高,因此,在该方法中,通过最大熵模型,在基于二阶隐马尔可夫模型的文本信息抽取中加入文本的上下文特征信息,进一步改善二阶隐马尔可夫模型的抽取性能,在进一步提高文本信息抽取正确率的同时也提高了召回率。(7)提出了一种文本信息抽取的主动学习算法。在只有部分标记训练文本的情况下,通过主动学习算法,将最有价值的训练文本挑选出来进行标记。该算法能应用到基于包装器模型和基于隐马尔可夫模型的文本信息抽取中,在不影响抽取性能的前提下,能有效降低模型的训练对已标记训练文本的依赖程度,很大程度减少人工标记训练文本的工作量。总之,论文通过规则和统计的方法分别从上述各个方面对文本信息抽取的模型和算法进行了深入研究。解决了文本信息抽取中存在的关键问题,提高了文本信息抽取的精确度和召回率;增强了抽取模型对不同格式的文本以及不断变化的WEB页面的适用能力;提高了模型主动学习的性能,降低了模型的训练对已标记训练文本的依赖程度,减少了人工标记工作量;取得了相关的研究成果。
其他文献
目的建立测定西罗莫司滴眼液含量的高效液相色谱方法。方法采用Diamonsil C18(250mm×4.6mm,5um)为色谱柱;乙腈-甲醇-水(7.5:62.5:30,v/v/v)为流动相,柱温50℃,检测波长276nm,流速1.2ml/min
改革开放20多年来,我国经济建设取得了辉煌的成就。但在人口老龄化日趋严重、家庭养老模式作用逐渐削弱、土地保障功能下降的社会背景下,农民的养老问题越来越突出,已经成为关系
<正> 国内专题论述腕关节舟状骨折伤的文献甚为少见,这与该类骨折伤不易愈合的特点很不相称。由于此类骨折后的误诊和随之而来的处理不当,往往丧失有利的治疗时机,以致长时间
目的:制备可生物降解的温度敏感型PEG-PCL-PEG三嵌段共聚物水凝胶药物缓释载体,装载药物5-Fu,观察5-Fu水凝胶药物缓释体系经腹腔注射治疗小鼠恶性腹腔积液的疗效。材料和方法:采
美国是世界上广告业最发达的国家。美国广告文化的起源可以追溯到1704年由约翰·坎贝尔创办的第一份定期印制的报纸《波士顿新闻信札》。在这份报纸的第三期上,刊载了美洲第一
大学生消费问题是目前社会关注的热点,帮助大学生养成良好的消费行为是高校全面素质教育的重要内容。本论文主要以哈尔滨市三所高等学校的全日制本科生为研究对象,通过问卷调查
在世界经济一体化的背景下,股票市场关联和国际化成为全球经济发展的必然趋势,并有加快融合的迹象。我国股票市场发展虽然历史不长,但波动性显著,在世界经济一体化和股票市场
随着经济的高速增长,各种矛盾和制约因素也不断积累,依靠高投入、高消耗来维持经济增长的方式迫切需要改变,而创新是最根本和有效的战略选择。目前,提高自主创新能力己经成为调整
《国家中长期教育改革和发展规划纲要(2010-2020)》明确指出:"学前教育建立政府投入、社会举办者投入、家庭合理负担的投入机制。"《湖北省学前教育三年行动计划(2011-2013年
<正>产品介绍冰糖葫芦老少皆宜,它具有开胃、养颜、增智、消除疲劳、清热等作用。如今,经过人们的不断探索,已做出多种不同的口味和形状,更受消费者的喜爱。在传统冰糖葫芦的
期刊