论文部分内容阅读
随着Web 2.0的发展,众多基于Web 2.0的应用应运而生,BLOG(博客)就是主要代表之一。随着BLOG数据的急剧增加,用户如何才能快速有效地获取和利用这些资源,已经成为迫切需要解决的一个问题,而自动摘要是目前解决这一难题的关键技术。作者研究了BLOG文档自动摘要技术,在借鉴现有文档自动摘要技术和本体技术的基础上,提出了基于本体的BLOG文档自动摘要解决方案。本文的关键研究内容概括如下:利用Agent的自治能力和合作能力,本文将本体技术和文档自动摘要技术结合起来,提出了基于本体的BLOG文档自动摘要系统架构O-BSSA,用于指导BLOG文档自动摘要的生成。该架构采用Multi-Agent结构,实现了BLOG文档的采集、预处理、建模、主题结构分析、自动摘要等功能,具有高并行性、高可靠性和高可扩展性。在系统架构O-BSSA的指导下,本文对BLOG文档自动摘要的核心技术,包括BLOG文档建模技术、主题结构分析技术以及自动摘要技术,进行了深入的研究。在BLOG文档建模阶段,本文提出了基于BLOG特征的关键词权重计算方法。该方法以传统的关键词权重计算方法TF*IDF为基础,综合考虑了BLOG文档的结构特征、标签特征和评论特征,使得该关键词权重计算方法更适用于BLOG文档这种新的信息发布模式。在此基础上,本文采用应用广泛的向量空间模型(VSM)表示BLOG文档的空间信息,采用潜语义分析方法提取BLOG文档特征项,实现了BLOG文档建模。在BLOG文档主题结构分析阶段,本文利用BLOG本体定义的同义词和概念的上下位关系进行语义归结,构建主题段落的概念层次树,以概念统计代替关键词统计进行主题概念的提取,分析BLOG文档的主题结构。该方法借鉴了传统的基于相似度的结构分析方法,又充分利用了本体的概念语义描述能力。在BLOG文档摘要生成阶段,本文通过加权的方法来体现句子中包含的特征项的重要性、句子所在段落的重要性和段落所在主题的重要性等因素对句子权重的影响,计算句子的重要性。在摘要句选择时,本文根据句子的权重,按照摘要压缩比选择各个主题的摘要句。该算法在摘要长度有限的前提下,可以有效避免语义相似的句子重复进入文摘,并使得BLOG文档中的多个主题均可在文摘中得以体现,最终生成的BLOG摘要也更加简洁精炼。最后,在理论研究的基础上,本文初步实现了一个基于本体的BLOG文档自动摘要原型系统,并对本文提出的关键算法进行了实验分析。结果表明,基于本体的BLOG文档自动摘要方法在摘要的冗余率、覆盖率和准确率方面都有较大的改善。