面向Twitter信息的机构名消歧技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：l444715055

【摘要】

：

实体的歧义是指同一个实体名称可以对应到多个概念上，为了自动分析文本或构建大规模知识库，精确细致的实体消歧工作不可缺少。近年来随着社交网络的高速发展，互联网上的信息呈现

【作者】

：

吴建伟

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2012年期

【关键词】

：

机构名 twitter 消歧半监督特征增强

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

实体的歧义是指同一个实体名称可以对应到多个概念上，为了自动分析文本或构建大规模知识库，精确细致的实体消歧工作不可缺少。近年来随着社交网络的高速发展，互联网上的信息呈现出爆炸式地增长，如何自动化地分析组织实体相关信息受到越来越多计算机科学工作者的关注。机构名消歧是实体消歧的一个分支，它仅关注机构名类型的实体消歧。本文主要面向twitter数据的机构名消歧，相对于传统的文本信息，存在着上下文信息少，拼写、语法不规范等问题。此外，由于机构名数量庞大，为每一个机构都标注训练数据是不现实的，因此就可能出现某机构名在已标注数据集中从未出现，即训练集和测试集机构名不重合的问题。针对以上提到的面向twitter数据的机构名消歧任务难点，本文的主要工作如下：（1）分析了机构名消歧任务的难点。针对twitter数据上的机构名消歧任务，通过数据统计详细分析了任务的难点，如Twitter信息短，句法不规范，机构名歧义性分布不均衡，训练集和测试集机构名不重复，现有知识库对机构名的覆盖范围有限等。此外，归纳总结了现有工作的优缺点。（2）研究了基于通用类型分类特征的机构名消歧方法，构造了一个基于通用类型特征的机构名消歧系统，并将其作为基准系统。通用类型的特征从本质上讲，不是词汇化特征，而是待消歧twitter消息与机构相关信息的相似度。该类型特征的建立需要利用机构相关信息，而机构网站主页是一个重要的信息来源。但是由于机构主页缺失和难以提取的问题，本文又引入了多种不同类型的机构相关网页作为数据源。通过实验，验证不同类型的数据源以及不同类型的特征对机构名消歧的作用。（3）研究了一种基于半监督学习的优化方法。通用分类特征计算过程易引入噪声，从而导致了其消歧的精确率和召回率均偏低，另外，没有针对每个机构名做优化。因此，这里考虑按照分类置信度挖掘出少量精确率较高的种子作为已标注数据，并将其它数据作为未标注数据，利用半监督学习方法予以解决。最后，针对半监督方法性能偏低的问题，又提出了两阶段融合方法，即第一阶段通用分类结果和第二阶段半监督分类结果的融合。实验结果表明，基于半监督学习的优化方法能在一定程度上提高第一阶段有监督分类的消歧性能。（4）研究了一种基于特征增强的自适应优化方法。针对半监督优化方法未能充分利用第一阶段分类结果的缺点，这里基于每个机构在第一阶段分类的结果，分别抽取出新的词汇化特征，并加入到原有的特征空间，然后训练得到机构特定的自适应分类器。同时，为了克服测试集数据稀疏问题，又进一步引入了大量未标注数据。实验结果表明，基于特征增强的自适应方法能有效地提高通用分类器的消歧性能。

其他文献

基于AMBA总线的异构多核高速互连技术的研究

随着半导体技术和嵌入式技术的快速发展，以及Java技术的广泛应用，Java的很多优点使其在嵌入式系统中的应用越来越广泛。但是，Java程序的运行，需要借助Java虚拟机（以下称为JVM），以及

学位

嵌入式JOP核AMBA总线异构多核LEON3微处理器

基于新一代测序数据的RNA序列映射算法研究

为了清楚的了解人类的遗传机制,以便用于疾病的治疗和预防,对于生物序列的研究成为了研究分析遗传的基础。而最基本的序列研究就是序列比对与序列组装。随着新一代测序技术(N

学位

新一代测序技术序列比对RNA序列映射算法

短道速滑技战术仿真系统中体能模型的设计与评价

在短道速滑运动中，体能发挥着极其重要的作用，为了使短道速滑技战术仿真系统能更加真实的模拟虚拟运动员比赛过程中的运动状态，提高仿真系统的实用性，设计一个科学合理的体能模型

学位

短道速滑体能模型系统模型评价系统建模仿生学

新闻图像内容与字幕文本协同识别与检索方法研究

嵌入在图像中的文本与图像内容存在着密切的关联关系，这些关系对于理解图像发挥着重要的作用。本文以新闻图像与字幕文本为研究对象，探索图像内容与字幕文本之间的内在联系，提出

学位

协同识别图像识别图像检索朴素贝叶斯相似性计算

IP组播节点分组与密钥管理技术研究

近年来，Internet上群组性应用如视频会议、文件共享等越来越多，这些应用大多采用一个节点对多个节点或多个节点对多个节点的通信方式。传统的IP单播技术在这些群组性应用中效率

学位

节点分组门限椭圆曲线IP组播

基于AdaBoost多颜色空间学习的目标跟踪算法研究

计算机视觉是当前人工智能领域的研究热点之一，而人类视觉的一个关键作用是对于运动物体的跟踪，现实生活中有大量的信息包含在运动中，所以对于运动物体的跟踪已经成为计算机视觉

学位

目标跟踪多颜色空间AdaBoost粒子滤波Mean Shift

基于用户行为的CDN信任模型的研究与实现

随着Internet的迅速普及，互联网及其相关技术得到迅猛发展，互联网用户的规模及网络服务多元化是现今CDN面临的主要挑战。为了节约成本与提供更好的服务质量，与P2P融合的CDN技术

学位

内容分发网络P2P网络信任模型信任计算

云环境下Web服务资源选取技术的研究

当今云计算SOA的架构模式成为当前企业的首选,这使得Web服务在数量上快速增长,随着用户群数量的不断增加,Web服务需求量也随之膨胀,在庞大的Web服务资源中,如何快速准确地为

学位

Web服务WSDL扩展社区发现动态贝叶斯网络服务选取

面向转录调控的遗传性因素分析与预测方法研究

高通量生物检测技术的广泛应用带来了分子生物学数据的指数级增长,使得生物数据的融合与生物知识的挖掘成为目前生物信息学面临的重大挑战。以高通量微阵列为例,其能够并行检

学位

遗传性因素高通量微阵列数据转录调控机制单核苷酸多态性DNA甲基化修饰

灰度半调图像无损压缩算法研究

针对目前灰度半调图像无损压缩方法中存在着算法复杂度较高，压缩率不理想的问题，本文分析了典型半调图像的生成原理及特性，在此基础上，设计了针对有序抖动和误差分散半调图像的无

学位

半调图像抖动阈值矩阵跳块编码自适应游程编码哈夫曼编码

面向Twitter信息的机构名消歧技术研究

与本文相关的学术论文