微博客中的知识条目发现方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xxziliao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息时代的到来,蕴含在海量信息中的知识却相对分散,如何从海量的文本信息中抽取特定的有用的知识,是当下文本处理领域亟待解决的问题之一。微博是目前比较热门的媒体,微博中包含着丰富的文本信息,数据海量且更新速度快,因而成为新知识传播的重要平台,也是获得最新知识条目的重要来源。然而,由于微博兴起时间不长,以及微博文本短小、信息量少,面向微博的知识获取问题还远未得到充分的研究和解决。为此,本文从实际问题出发,主要解决从给定的少量种子知识条目中进行学习,以从微博中自动抽取更多类似知识条目的问题。在本文中,我们首先结合传统的规则学习方法,提出了一种基于依存句法的模板匹配算法,根据句子的句法依存关系,仅分析有直接依赖关系的句法成分,降低了规则模板对训练集句子结构的依赖程度。经实验表明,该算法虽然精度偏低,但能够仅由少量的种子知识条目来获得较高的召回率,因而可以用于对种子知识条目集的大规模扩充。在此基础上,本文实现了基于统计的知识条目抽取算法。在传统的统计模型中,基于条件随机场CRFs的方法获得了当前的最好性能。然而,由于微博中句子短小、表达方式随意,且与传统知识抽取任务相比,上下文较少,这使得CRFs在召回率方面表现较差。为此,我们在传统CRFs的基础上,引入依存句法分析和词向量技术,前者使得统计模型跨越了词与词之间距离的限制;后者则将单一的词扩展为向量表示,并通过聚类算法为每个词分配类标,并将类标应用到特征模板中去,从而使得CRFs的模板泛化能力大大提高,显著提高了算法的召回率和整体性能。最后,本文将上述方法应用到微博知识条目抽取系统中,取得了较为理想的效果。
其他文献
深圳市民中心屋顶网架是世界上跨度最大的网架结构,环境比较恶劣,体形特别复杂,为了保证深圳市民中心屋顶网架的安全,建立了深圳市民中心屋顶网架结构健康智能监测系统。要求该系
本文简要阐述了.NET 技术的发展,分析了现有电厂信息系统的不足以及当前.NET 技术和实时数据库技术发展的新趋势,研究了当前.NET 技术和实时数据库技术的原理和特点,探讨了.N
从20世纪80年代中期开始,光纤通信在电信网中获得大规模的应用,凭借着廉价优良的带宽特性,光纤通信已成为电信网的主要传输手段.光同步数字传送网(SONET/SDH)主要以光纤为传
本文研究NGI高性能路由器(T比特级1012bit)的关键技术之——高速转发引擎技术。结合国家863计划重大项目一“可扩展到T比特的高性能IPv4/v6路由器基础平台及实验系统”,从理论
知识发现与数据挖掘究其本质讲是一种机器学习。分类是许多机器学习问题解决的基础。随着科技的不断进步和研究的进一步深入,单分类器已不能满足人们的应用要求,在这种情况下
无线通信技术和计算机技术不断发展及融合,促进了无线数据业务及其应用的进一步发展。行业市场被认为是无线技术最可能的阵地。由于灵活的应用环境和对企业成本的节省,在银行、
无线通信技术和计算机网络技术如今正蓬勃发展,得益于此,由无线传感器节点组成的无线传感器网络(WSN)成为了新兴的研究热点。无线传感器节点具有的探测、感知多种信息例如温度
多学科设计优化计算框架是指能实现多学科设计优化方法、包含硬件和软件体系的计算环境。分布式计算是多学科设计优化计算框架的一个重要特征。本文的主要目的就是研究多学科
论文主要研究了典型J2EE核心模式,它提供了在J2EE平台上设计和开发的可重用解决方案,并且每种模式都有各自的适用范围。对于这些模式,本文分析了它们的适用范围、解决方式、优势
多媒体技术和网络技术的发展,给人们带来了丰富多彩的视听娱乐的数字产品。但是由于数字产品复制不会引起质量下降,因此出现的大量盗版现象严重地损害了生产商和著作者的积极