基于本体的BLOG文档自动摘要关键技术研究与实现

被引量 : 0次 | 上传用户:leon7779
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web 2.0的发展,众多基于Web 2.0的应用应运而生,BLOG(博客)就是主要代表之一。随着BLOG数据的急剧增加,用户如何才能快速有效地获取和利用这些资源,已经成为迫切需要解决的一个问题,而自动摘要是目前解决这一难题的关键技术。作者研究了BLOG文档自动摘要技术,在借鉴现有文档自动摘要技术和本体技术的基础上,提出了基于本体的BLOG文档自动摘要解决方案。本文的关键研究内容概括如下:利用Agent的自治能力和合作能力,本文将本体技术和文档自动摘要技术结合起来,提出了基于本体的BLOG文档自动摘要系统架构O-BSSA,用于指导BLOG文档自动摘要的生成。该架构采用Multi-Agent结构,实现了BLOG文档的采集、预处理、建模、主题结构分析、自动摘要等功能,具有高并行性、高可靠性和高可扩展性。在系统架构O-BSSA的指导下,本文对BLOG文档自动摘要的核心技术,包括BLOG文档建模技术、主题结构分析技术以及自动摘要技术,进行了深入的研究。在BLOG文档建模阶段,本文提出了基于BLOG特征的关键词权重计算方法。该方法以传统的关键词权重计算方法TF*IDF为基础,综合考虑了BLOG文档的结构特征、标签特征和评论特征,使得该关键词权重计算方法更适用于BLOG文档这种新的信息发布模式。在此基础上,本文采用应用广泛的向量空间模型(VSM)表示BLOG文档的空间信息,采用潜语义分析方法提取BLOG文档特征项,实现了BLOG文档建模。在BLOG文档主题结构分析阶段,本文利用BLOG本体定义的同义词和概念的上下位关系进行语义归结,构建主题段落的概念层次树,以概念统计代替关键词统计进行主题概念的提取,分析BLOG文档的主题结构。该方法借鉴了传统的基于相似度的结构分析方法,又充分利用了本体的概念语义描述能力。在BLOG文档摘要生成阶段,本文通过加权的方法来体现句子中包含的特征项的重要性、句子所在段落的重要性和段落所在主题的重要性等因素对句子权重的影响,计算句子的重要性。在摘要句选择时,本文根据句子的权重,按照摘要压缩比选择各个主题的摘要句。该算法在摘要长度有限的前提下,可以有效避免语义相似的句子重复进入文摘,并使得BLOG文档中的多个主题均可在文摘中得以体现,最终生成的BLOG摘要也更加简洁精炼。最后,在理论研究的基础上,本文初步实现了一个基于本体的BLOG文档自动摘要原型系统,并对本文提出的关键算法进行了实验分析。结果表明,基于本体的BLOG文档自动摘要方法在摘要的冗余率、覆盖率和准确率方面都有较大的改善。
其他文献
2005年,中宣部、中央文明办、教育部、共青团中央《关于进一步加强和改进大学生社会实践的意见》中明确指出:“大学生社会实践的工作原则是:坚持以人为本,牢固树立实践育人的
进入21世纪以来,随着多媒体和信息技术的不断发展,远程交互教学模式己成为现代远程教育的一种发展趋势。通过比较法、实验法、讨论法等方法对远程交互教学系统技术方案进行了研
本文从象似性研究出发探讨手语语言学和认知语言学的双向性,意指两个学科间概念和方法的交流,以达成二者之间的互补和整合,乃至重塑。一方面,认知语言学加深了对手语语言属性
成立至今,拉手网的注册用户数量已经突破300万,月均访问量突破3000万,开通服务的城市超过100个,2010年交易额接近10亿元人民币,并且仍以每月100%的速度成长。在不到一年的时
把负载敏感系统引入篦冷机后,其推动部分功率损耗明显降低,仅电耗降低幅度就达31.7%,液压系统发热量减少。由于负载敏感系统特别适用于工作压力有较大变化的工况,且能够显著
本文分别分析了语言学与语文学、文学史与文学批判、历史、心理学、哲学、人类学、教育学等学科之间的内在联系,并提倡精通专业知识的同时,广泛涉猎各个学科的知识。
本文重点研究上海二期课改教材中的“高一文明史”,该教材作为共和国历史上使用时间最短的中学历史教科书,具有非常特殊的研究价值。本课题通过对国内外现有研究成果的分析,
随着知识经济时代的到来,现代市场经济变成了以人力资源和知识资本为中心的新经济。在激烈的竞争中,人力资本成了人类财富增长和经济进步的源泉。企业之间的竞争从根本上说就
稳健的财务对高校的发展具有重要的作用,降低财务风险是实现高校可持续发展的必备条件。本研究基于高校财务风险预警指标的构建原则,用AHP法建模分析广西地方本科院校的财务
<正> 扁桃体癌的发病居上呼吸道最常见肿瘤的第二位。本文旨在评价扁桃体癌治疗方法:放射、手术或两者联合应用的效果。对1959~1980年间122例扁桃体鳞状细胞癌的资料进行研究