论文部分内容阅读
当今社会,电子信息数量急剧增长。对信息的浓缩和查询等问题的研究工作显得尤为重要。自动文摘可以降低人工文摘的成本,缩短文摘加工和处理时间,为用户快速、准确和廉价的获取信息提供方便,加快了人们获取相关资源的速度。本文提出了一种基于最大熵的自动摘要方法,该方法最初通过对训练集文本进行人工摘要和句子特征标注,训练得到基于最大熵的自动文摘系统。进入摘要阶段后,首先对待处理文本进行句子特征抽取;然后利用基于最大熵的自动文摘系统产生文摘候选句;最后对候选句进行冗余消除,得到最终文摘。在句子特征抽取方面,本方法使用了综合的句子特征,包括F-词频特征、T-标题特征、L-位置特征、S-句法结构特征、C-线索词特征、I-指示词特征等。这些特征分别从不同的程度表征了文章的中心主题句,但都不够全面和准确。许多研究者试图将以上各种特征“有机”的结合起来提高文摘质量,即以W=f (F, T, L, S, C, I)作为计算句子权值的公式,实践证明,对于函数f的确定不够理想。本文根据最大熵原理,设计了一种自动文摘方法,在文摘句的选取方面充分结合了以上几种特征。通过实验表明,该方法是有效的。实验和示例结果显示新的方法具有较好的实用效果。文章的后面部分给出了本文摘系统的总体设计和主要模块的描述。本文的主要研究内容如下:1.对国内外自动文摘的现状进行了分析,研究了自动文摘现有的技术方法,并对现有的文摘方法进行了总结和分类,重点对文摘句的各方面特征进行了总结研究。2.研究了最大熵模型的基本原理,对最大熵的历史,最大熵的应用,最大熵的数学表示、特征函数、参数估算等内容做了深入的研究。3.结合最大熵原理和自动文摘技术特点,提出了基于最大熵的自动文摘思想,设计了最大熵模型在自动文摘中的使用模式。4.利用文摘句的多方面特性,设计了最大熵的自动文摘句子特征提取规则,研究了不同特征组合的对文摘结果的不同影响。5.设计实现了基于最大熵的自动文摘实验系统,将实验结果与基于贝叶斯原理的文摘系统进行了对比研究,分析了基于最大熵的自动文摘系统的效果。