论文部分内容阅读
日常生活中,人物信息是人们最为关注的信息类型之一,有着重要的社会价值。传统的人物传记虽然提供了丰富的人物信息,但受材料和人力的制约已无法跟上信息时代大数据流的脚步。网络正逐步取代传统媒介,成为人们获取人物信息的主要渠道。借助搜索引擎可以实现网络中海量信息的筛选与定位,但返回的人物信息大多是分散且不完整的,同时夹杂着广告推送和重复网页等干扰信息,人们仍需耗费时间和精力去分析整理。因此,将信息过滤,将无结构的网络信息结构化,构建基于网络信息的人物传记有着十分重要的意义。针对这一问题,本文构建了人物信息的离线语料库,并以此展开后续的研究工作。本文的主要研究工作如下:(1)研究分析了人物传记自动生成方法,借鉴传统人物传记的模式中板块式和双线复调式的思想,给出了一种基于人物角色事件的传记模型。在众多的人物事件中,根据人物角色的不同,可以将人物事件分成不同的类别,每类事件分别作为描述时的一条主线,可以清晰地展示出人物的特点,并使人物事件的条理性更强。(2)分析人物传记构建所需材料,从网络中爬取并整理出相关的初始语料信息。针对语料信息中新闻报道精炼、结构简单的特点,设计了一种基于词语指纹的网页去重方法实现语料信息的净化。利用滑动窗对文本中的高频词汇切割分组,对得到的各词语片段进行哈希映射,获得的哈希码集合作为网页文本的词语指纹,根据词语指纹的匹配情况实现网页文本的去重,文中实验验证了该方法的可行性。(3)提出了一种基于事件描述特征的人物事件提取方法,根据描述同一类型事件常常使用相同词语的特点,将这部分词语赋予更高的权重并构造权重矩阵,获得事件描述特征,结合自适应邻域的聚类方法完成不同角色事件的凝练,最后对不同类型的角色事件进行时序摘要提取。本文实验中,利用事件描述词特征的事件凝练效果明显,查准率、查全率和F-score可分别达到93%,89%和89%。(4)借助可视化工具对获得的人物角色事件时序摘要进行可视化展示,选择适合描述事件时序摘要和事件描述词关系的隶属网络模型,构造二者间的关联矩阵,实现不同时间段、人物分饰不同角色时事件的可视化,借助中心度评测方法分析了其中事件描述词的参与情况及其对人物角色特点的意义。