跨领域模糊限制信息检测研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:woaixuyong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模糊限制信息,又被称为不确定信息,是自然语言文本中经常出现的一种语言现象。模糊限制信息通常出现在下列的情况下:事实不能被确定,或者说话人在表达时有意的省略某些信息,使得表达的意思出现模糊不清,歧义或者误导。在自然语言处理的很多应用中,将确定信息和不确定信息区分开来,是很重要的一步工作。例如,在智能信息抽取和检索中,为了使得到的信息更加真实可靠,我们需要对信息进行过滤,选取出说话人十分肯定或者确信的信息。说话人在表达不确定时,往往会使用一些关键性的表达词,我们可以据此进行模糊限制信息的检测,将不确定信息忽略,从而得到真实有效的信息。目前,模糊限制信息检测已有的训练数据仅仅集中在少量的几个领域中,而且模糊限制的语言使用与专业领域有着密切的关联。当训练数据和测试数据保持同一数据分布的时候,传统的机器学习方法能对数据进行较好的预测,但是在训练数据和测试数据分布不一致时,效果却不尽如人意。这使得在仅仅使用现有的数据时,传统的机器学习方法很难对其他领域的模糊限制信息进行检测,而对每一个新的领域都进行大量的数据标注是一项非常昂贵的工作,这就造成了模糊限制信息的发展推广十分困难和缓慢。为了解决模糊限制信息的领域问题,我们提出了一种跨领域的学习框架,针对目标领域训练数据十分缺乏的情况,结合了迁移学习和半监督学习的优势,从源领域标注数据,目标领域标注数据和目标领域未标注数据三个方面进行样例筛选和权重调整,提高了迁移学习的效果。我们的学习框架在几个公共的数据集上的准确率都明显高于现有的迁移学习。在跨领域模糊限制信息检测中,我们采用了一种新的基于候选短语分类的检测手段。通过关键词词典匹配尽可能地找出所有候选短语,并使用结合半监督的迁移学习进行跨领域分类。实验结果表明,目标领域训练数据不足的情况下,我们的学习方法在现有的跨领域模糊限制信息检测方法上有一定的提高,减小了对标注数据的需求,增加了模糊限制信息的推广可能。
其他文献
物联网被称为继计算机和互联网之后的第三次信息技术革命。近年来,在世界经济多元发展的背景下,物联网技术正在加快转化为现实生产力,为全球带来新的数字经济浪潮。其中无线
当前,移动通信网络优化已成为移动通信行业发展的关键点。作为移动通信网络优化中重要的一个组成部分,移动通信的邻区优化的目的在于找到最优的通信小区的邻区关系,以保证移
云计算以其高可伸缩、高可靠、按需付费等特征,被业界广泛接受。越来越多的大型网络应用向云中迁移,开始以服务的形式供人使用。交付到云中的网络应用可以基于云资源按需地自
云计算是能够提供方便、按需网络来访问可配置计算资源的共享池的模型,它可以用最少的管理工作或者服务提供商的交互来快速配置和发布资源。软件即服务(Software as a Servic
近年来,随着P2P网络技术地不断发展,出现了大量基于P2P网络的应用软件。P2P流媒体服务作为P2P网络的一个主要应用,从出现开始,就一直受到广泛地关注。传统C/S模式下的流媒体
人脸基准点的自动提取是人脸跟踪、人脸识别、动画以及视频通信中至为关键的步骤,在现实应用中,如视频监控系统采集得到的人脸图像都是不同环境下的具有多种姿态变化的,而且
机器翻译(Machine Translation, MT)是利用电子计算机在不同语言之间实现翻译的一门实验性学科。随着互联网技术和机器翻译技术的发展,机器翻译在产品手册本地化、旅游会话和信
风能作为一种环保资源,得到了全球大部分国家越来越多的重视。风力发电作为绿色能源,近几年来得到了快速发展。风力发电机变桨系统是风力发电的重要设备,它的安全运行是风力发电系统高效稳定运行的重要保证。将可随时随地地访问获得各种信息的移动设备应用到监控风力发电机变桨系统上具有重要意义。本课题研究和设计了基于无线移动设备的风力发电机变桨系统电机的监视和控制系统,主要包括系统整体方案设计和相关软件的设计与实现
建立维护可靠的、可扩展、低成本、高性能的分布式存储系统是云计算、大数据以及互联网公司应用后台基础的主要目标。分布式存储系统拥有着传统集中式存储所无法比拟的优势,
伴随着环境保护、绿色发展和可持续发展的要求,增加计算机系统的能量效率对于研究者、架构师、系统设计者和软件开发者等人而言已经变成了最有价值的研究热点之一。目前已经