【摘 要】
:
网络技术的迅猛发展及互联网的普及,使得人们越来越依赖于网络信息的交流与共享,从互联网上获取人物信息的需求也逐步提高,然而海量的网络数据使得人物信息表现为零乱、碎片
论文部分内容阅读
网络技术的迅猛发展及互联网的普及,使得人们越来越依赖于网络信息的交流与共享,从互联网上获取人物信息的需求也逐步提高,然而海量的网络数据使得人物信息表现为零乱、碎片化,现有的人物画像方面的工作也主要集中于人物属性的抽取,用户迫切地希望能够方便快捷的获得人物全方面的信息。论文研究以新闻为处理对象的人物画像挖掘技术,重点对人物社会关系抽取、人物参与事件追踪、人物热度及情感分析三个方面进行了研究。在人物社会关系抽取方面,论文首先通过同义词词林扩展种子词典的方法来建立人物关系词库,避免了人工收集词典所造成的效率低下的问题;其次提出了基于规则匹配与句法树结合的人物关系抽取算法,有效克服了规则匹配所导致的召回率低的弊端,在实验中该算法的平均F值达到了82.61%,与其他方法相比优势明显。在人物参与事件追踪方面,论文主要在文本特征表示、特征降维及相似度计算上进行了改进。论文提出使用标题、人名、内容三重向量来表征文本,并采用三重向量相似度的加权求和值作为文本相似度,在文本聚类时引入时间衰减因子,保证了事件的时间性质。在热度及情感分析方面,首先分析了影响人物热度的各个因素,并给出了热度值具体的计算公式;其次采用基于词库的方法对人物情感倾向进行分析,在中等规模的测试数据中,也取得了较好的效果。论文通过上述三方面的工作,将分散在网络各处的人物信息有效地组织起来,形成人物画像,研究成果可应用于人物搜索系统、特定目标追踪和网络红人探测等方面,为人类工作及生活提供极大的便利。论文进一步工作主要包括两方面:降低关系抽取算法的时间复杂度及引入语义分析对情感倾向进行更深层次的研究。
其他文献
在计算机视觉和智能视频监控领域中,步态识别是生物特征识别技术中一个新兴的研究领域,它是一种根据人的走路方式来识别身份的方法。相对于其他生物特征识别技术(如指纹、虹膜、
分类是数据挖掘的重要研究课题之一。它广泛地应用于科学实验和商业预测等领域。如何提高分类模型的准确率是分类的核心问题,组合分类模型在理论和实验中比单个分类模型有着
由于智能规划能应用于很多领域,近年来,智能规划研究得到了飞速的发展,一些学者提出了不确定性规划问题。然而,经典的图规划算法无法解决不确定性规划问题。因此,不确定性规
随着移动通信技术的发展,手机短信已成为人们生活中必不可少的通信方式之一。然而日益增多的垃圾短信给人们的生活带来很多不便。垃圾短信过滤问题已成为全球性的具有重大现
应用中许多图像不仅携带了大量的表象信息,还携带了大量的情感信息,然而目前的图像标注检索技术却大多忽略情感因素。如何有效表示和描述图像的情感,并且给予量化,进而在检索
分析了目前数据挖掘的常用技术,以及数据挖掘技术在CRM中的应用,深入研究了经典关联规则挖掘算法Apriori算法。Apriori算法的主要问题是常常会产生巨大数量的项集和规则,以至
在工程实践和科学研究中存在大量优化问题,而这些问题大多是带有约束条件,且有时优化目标不止一个。由于问题自身的复杂性,传统的优化方法已经难以独立解决。进化算法作为一种基
软件性能(Software Performance)是影响软件质量的重要指标之一,它属于软件的非功能属性。随着软件规模的扩大和软件复杂度的增加,越来越多的软件产品中存在性能问题。传统的
随着卫星通信测控技术、计算机网络技术的发展和用户需求的提高,对卫通站的监控管理提出了越来越高的要求。而国内卫通站监控管理的发展仍然停留在较低水平上,已明显落后于我
手写数字识别技术是一个非常典型的模式识别的问题,具有很大的应用价值和理论研究价值。其中,信函的自动分拣是其典型应用之一。
首先阐述了计算机识别手写数字的必要性,手