基于人物角色事件的传记生成方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:liuwenting02
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
日常生活中,人物信息是人们最为关注的信息类型之一,有着重要的社会价值。传统的人物传记虽然提供了丰富的人物信息,但受材料和人力的制约已无法跟上信息时代大数据流的脚步。网络正逐步取代传统媒介,成为人们获取人物信息的主要渠道。借助搜索引擎可以实现网络中海量信息的筛选与定位,但返回的人物信息大多是分散且不完整的,同时夹杂着广告推送和重复网页等干扰信息,人们仍需耗费时间和精力去分析整理。因此,将信息过滤,将无结构的网络信息结构化,构建基于网络信息的人物传记有着十分重要的意义。针对这一问题,本文构建了人物信息的离线语料库,并以此展开后续的研究工作。本文的主要研究工作如下:(1)研究分析了人物传记自动生成方法,借鉴传统人物传记的模式中板块式和双线复调式的思想,给出了一种基于人物角色事件的传记模型。在众多的人物事件中,根据人物角色的不同,可以将人物事件分成不同的类别,每类事件分别作为描述时的一条主线,可以清晰地展示出人物的特点,并使人物事件的条理性更强。(2)分析人物传记构建所需材料,从网络中爬取并整理出相关的初始语料信息。针对语料信息中新闻报道精炼、结构简单的特点,设计了一种基于词语指纹的网页去重方法实现语料信息的净化。利用滑动窗对文本中的高频词汇切割分组,对得到的各词语片段进行哈希映射,获得的哈希码集合作为网页文本的词语指纹,根据词语指纹的匹配情况实现网页文本的去重,文中实验验证了该方法的可行性。(3)提出了一种基于事件描述特征的人物事件提取方法,根据描述同一类型事件常常使用相同词语的特点,将这部分词语赋予更高的权重并构造权重矩阵,获得事件描述特征,结合自适应邻域的聚类方法完成不同角色事件的凝练,最后对不同类型的角色事件进行时序摘要提取。本文实验中,利用事件描述词特征的事件凝练效果明显,查准率、查全率和F-score可分别达到93%,89%和89%。(4)借助可视化工具对获得的人物角色事件时序摘要进行可视化展示,选择适合描述事件时序摘要和事件描述词关系的隶属网络模型,构造二者间的关联矩阵,实现不同时间段、人物分饰不同角色时事件的可视化,借助中心度评测方法分析了其中事件描述词的参与情况及其对人物角色特点的意义。
其他文献
咨询 我公司属于一家外资企业,采用的记账本位币为人民币,我没有做过外资企业的账。请指教以下问题:1.10月1日收到外资企业第一次投资款200万港币,10月6日第二次投资款300万港币。
本文在世界政治、经济、社会、科技迅速发展的背景下,分析公共行政改革和创新过程及其问题。实现公共行政创新目标和公共利益最大化,关键是政府、非政府组织和公民有序参与三者
去年12月底,皖北的冬天北风凛冽,天寒地冻,而亳州市谯城区十五届人大常委会第二十六次会议的会场却温暖如春,暖意融融。“刚才刘景才等4名市人大代表进行了述职,根据票决情况,他们
<正>1958年,澳大利亚议会通过一项决议,要在维多利亚州首府墨尔本建立第一所大学,并决定以著名的澳大利亚人约翰&#183;莫纳什(John Monash)为其命名。从1961年克雷顿校区(Cla
期刊
目的 探讨纤支镜术后实施氧疗对保护呼吸的有效性分析。方法 对2017年1月-2017年8月在我院住院患儿中行纤支镜检查者随机分为治疗组和对照组,对照组进行术后心电指脉氧监测及
本文在成功努力补偿法的基础上提出了结构变量"REDD+机制"政策评估方法,使之适用于森林覆盖率持续增加的国家。将经济发展、人口增长、初始森林面积、农产品出口价格和林木产
作者在《温州都市报》担任时政要闻部记者10多年,摸索发现广告中蕴含着丰富的新闻线索,如果用心去挖掘,就能采写出大量新闻甚至精品。作者结合多年新闻实践道出从培训、服务
长期以来,各类学生在学习各种文化课时,对教师的讲授记下笔记,便于课后复习、理解、巩固,都被认为是正常的,是顺理成章的事。而对体育课也要记笔记,则被认为是新奇的事,不可
直面食品安全七大问题为让群众吃得放心,去年初,宿州市埇桥区人大常委会把调研全区贯彻执行《食品安全法》情况列入常委会工作要点。6月上旬,区人大常委会组织部分组成人员、人
现代商务谈判中,存在着大量的讨价还价情况,其最终目标是在谈判参与方中取得均衡。通过分析纳什均衡的经典案例、纳什讨价还价的基本模型,在"一对多"商务谈判案例的基础上,建