文档融合关键技术研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:Amjf123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文档融合是组织文本及整合信息的关键技术,也是自然语言生成的重要基础。该技术旨在整合跨多个文档的重要信息,生成简洁流畅的摘要,不同于传统意义上的文摘生成任务,该摘要既要覆盖主题文档集合中的共同信息,也要体现重要的差异性信息,它不仅仅是关键内容的提炼,更强调相关内容的整合。其中,如何获取文档集合中主题概念及这些主题概念所延伸出的主题发展,将整个集合中的关键信息按一定逻辑有条理的排序,基于不同的主题内容对篇章或语句进行聚类组织等都是重要的研究课题。本文主要从三个方面探索文档融合任务涉及的关键技术,具体内容如下:1.文档融合任务整合同一事件或对象的相关信息,以新闻事件为例,不同新闻报道所描述的同一新闻事件,基于不同视角所呈现的信息不同,后续报道中还会出现伴随事件发展而产生的新的相关信息。为有效去除冗余信息,获得主题及主题相关信息,本文提出一个基于模糊多重集理论的对象合并框架,基于合并函数将文档集对应的多重集以及单篇文档中概念对应的模糊多重集合进行合并操作,然后利用有效性评价函数评价并优化合并函数,从而获得关键概念及其相关词。2.文档融合需要逻辑通顺的内容排布,以句子为处理“粒度”,在文档集合中抽取出蕴含关键概念及发展线索的语句,利用排序融合技术对这些句子进行排序,形成逻辑通顺、可读性强的新的篇章结构。本文提出利用主题句子聚类以及图模型对待排序语句进行组合及建模,将语句排序问题转化为连续型Hopfield神经网络所擅长的路径优化问题,在主题簇对应的图中节点间寻找到一条最短路径,最后将路径输出顺序作为最优的排序方案。3.文档融合需要解决基本的主题内容划分问题,由于缺乏领域背景知识,对于特定事件或特定领域的主题聚类仍然存在困难,体现在这类聚类问题中难以有效提取相关特征。本文提出基于领域本体获取领域知识从而指导特征选择,利用向量空间模型对这些特征进行表示,通过矩阵变换得到模糊等价关系矩阵实现聚类。该方法是一种无监督的方法,不需要预先对数据进行人工标注,无需训练过程,因此在组织特殊领域文档时具有较高的灵活性和自动化处理的能力。
其他文献
由供电线引起的塔机故障分析安徽省建筑机械厂周质诚塔式起重机除自身出现电气、机械故障外,供电线(这里指从配电房至塔机主电源电缆之间的线路)配置不当同样会引起塔机的各种故
目的 研究在军事训练所致关节脱位合并多韧带损伤患者中应用关节镜结合微创切口治疗的作用。方法 选取2016年1月至2016年12月该院收治的军事训练所致关节脱位合并多韧带损伤
小柴胡汤加味治疗颈部淋巴结肿大乔艳贞,乔艳华,乔振坤编者按:自1996年第一期以来,本刊开办了“经方荟萃”栏目,旨在宏杨仲景学术思想,揭示经方深逻内涵,体现古方新用、活用,提高学者辨证
学生核心素养主要指'学生应具备的,能够适应终身发展和社会发展需要的必备品格和关键能力'。《中国学生发展核心素养》报告对学生核心素养进行了明确的定位和合理的
摘要:目的:为了深化高校实践教育体系改革,加强生产实习基地建设,探索实习轮岗制度的利弊。方法:实习前调研了解学生对实习体系的看法及建议,改革现有实习模式,学生完成实习后,再次调研收集学生对实习改革的收获与建议。结果:调研反映出目前学生实习的相关情况:学校的实习安排与学生意向较为一致,学生参加生产实习主动性高,更期望去外企实习,同时更期望以灵活的轮岗方式参与其中,实习考核内容更加集中而有效。结论:生
目前,我国高等级公路建设、农田水利建设、机场建设等所需的大马力平地机主要依赖进口。为改变这一状况,满足国内用户日益增长的对大功率平地机的需求,我公司引进开发生产了870型平
本文对工程机械液压系统现有速度控制方案进行分析,提出了采用数字控制式流量阀对系统流量进行调节,从而达到对系统速度的控制,为工程机械自动控制开辟了一条新途径。
目的探讨免辅助切口自制套管器在腹腔镜辅助降结肠癌根治术中的临床应用价值。方法选取2014年1月至2015年6月接受免辅助切口腹腔镜降结肠癌根治术治疗的6例患者进行总结分析,
为了落实"立德树人"的根本任务,构建"三全育人"的高校教学体系,高校"课程思政"教学改革势在必行。文章阐述了"课程思政"与专业课相结合的重要性,并以理工科基础专业课"物理化