基于引用聚类的多文档自动文摘技术研究

来源 :大连海事大学 | 被引量 : 7次 | 上传用户:haidi99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的普及带来了网络电子期刊文献的剧增,这给研究人员(尤其是初级研究人员)高效准确地从海量信息中挖掘所需要的信息带来了巨大挑战。因此,如何对领域知识进行自动概括以提高研究人员获取信息的效率变得日益重要。多文档自动文摘是自然语言处理中的一个重要研究课题,它可以实现对同一主题的多篇文献的汇总和压缩,通过提供一个简洁、全面的文摘,来减少研究人员阅读文献的时间并避免信息超载的发生。为了对研究人员所关心领域的相关文献进行概述,本文在现有的多文档文摘技术的基础之上,研究了基于引用聚类的多文档自动文摘技术,着重在引用聚类和文摘生成的研究。在引用聚类部分,基于向量空间模型,通过采用不同的文本表示方式和文本相似度计算方法,得到了引用聚类的六种聚类指标,即文献摘要相似性指标、基于查询的文献摘要相似性指标、文献引用上下文相似性指标、基于查询的文献引用上下文相似性指标、文献共引互信息指标以及文献共引位置临近性得分指标。在此基础上,根据文献的引用位置与其主题间的相关性特点,提出了一种基于引用位置距离的聚类评价方法,并基于该方法对六种聚类指标的聚类效果进行了比较。引用聚类的目的是为了对与研究人员信息需求相关的多篇文献按照主题的相似程度进行分组管理,为之后的研究做铺垫。在文摘生成部分,为了对主题簇中多篇文献的主要内容进行浓缩、提炼,采用不同的多文档文摘技术(LexRank、Query Sensitive LexRank、MMR以及LexRankMMR),根据句子的重要程度,从每个簇的候选句子集中抽取重要性高的句子生成不同长度的段落以对每个簇中的多篇文献进行概括描述。之后通过实验对生成段落的质量以及由生成段落组成的文摘的质量进行了评价。
其他文献
铲斗液压缸和斗杆液压缸应合理匹配,但一直缺乏可供执行的具体要求,本文以匹配曲线的形式提出了在铲斗机构设计后,随之设计斗杆机构时应满足的设计要求,并分析了实现合理匹配
<正> “学术腐败”指的是学术研究者进行的剽窃抄袭、弄虚作假、偷天换日、移花接木的活动,目的就是让自己的利益最大化。腐败现象的具体表现,就是学术评奖中的既当“裁判员
<正> 非典型肺炎患者主要表现为急性起病,以发热为首发症状,体温38℃~40℃(发烧体温越高,病情发展将越重,偶有畏寒)。同时伴有头痛、关节酸痛和全身酸痛、乏力,可有胸痛或腹
光学相关探测就是采用光学的方式实现相关运算,并从混乱的背景中识别出待探测的目标,主要有匹配滤波器和联合变换相关器两大类系统,本文采用的是后者。当把目标图像和参考模
目的:探讨针刀在治疗脊柱侧弯中的应用。方法:回顾2005年6月采用针刀治疗4例脊柱侧弯的患者,其中男3例,女1例,年龄17~55岁,平均年龄32岁。均采用针刀治疗。结果:根据术前术后的症状、
(一) 秀婷按下门铃,等了一分钟没动静,便用钥匙打开房门,边喊着:“爸——妈——”没人答应.她进了屋,先把犄角旮旯都侦察一遍,确实没人,才返身回到门口,向尽美和媛媛招招手,示意
期刊
目的探究护理干预对骨科术后下肢深静脉血栓形成的预防作用。方法选取2015年4月~2017年4月在本院接受骨科手术治疗的80例患者,采用数字随机分组法,将80例患者平均分为护理干预组
随着我国经济不断发展,企业的财务工作也需要新的法律法规进行完善。当前企业沿用的财务会计审计方式遵循我国2007颁布的新会计准则《企业会计准则》,新的准则较高程度地提高
计算机断层成像技术(CT)作为一种重要的医学成像技术,具有微创和图像空间分辨率高的特点,深受医生的青睐,在临床应用中扮演着不可替代的角色。自从2005年西门子公司率先推出