中文指代消解方法研究及在图像目标检测中的应用

来源 :武汉大学 | 被引量 : 0次 | 上传用户:wuliaocanglang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术日趋成熟以及互联网技术的快速发展,各类信息呈指数增长,人们面对巨量的异构信息,很难从中获取自己想要的内容。正确的抽取、处理、归类上述信息并使之便于检索,是当前自然语言处理技术研究的热点和难点。指代消解是实现上述研究的关键子任务之一,因此越来越受到研究者们的重视。从广义上来说,指代消解能消除文本中的指代歧义,也能将不同源信息中对现实世界中同一实体的不同描述关联起来,因此广泛应用在其它自然语言处理、数据库、机器视觉等领域。本文针对中文指代消解方法极其在图像目标检测领域的应用进行深入研究,主要工作如下所示:(1)通过对比分析实验得出六个影响中文指代消解模型的重要结论。在ACE2005和OntoNotes5.0中文语料上对六类经典的中文指代消解模型进行同平台、同语料、同特征的测评。通过测评结果比较了各类模型的性能,同时分析和探讨了影响中文指代消解模型精度的各种因素,指出了在缺少中文标注语料的情况下值得进一步研究和探索的指代消解模型,并在此基础上展开进一步的工作。(2)提出一种基于测度优化的Laplacian SVM算法用于中文指代消解。相比于英文,中文指代消解标注语料库较小,未标注样本远多于已标注样本。为了有效的挖掘已标注样本和未标注样本的相似性和关联性,更好的推导指代消解模型的分类边界。提出一种基于数据驱动学习最优测度Laplacian SVM算法,该算法首先通过优化样本对之间的相似性约束条件和引入Fisher判别项,增大同类样本问的相似性,并突出强判别能力的特征。此外,提出核嵌入的测度优化方法将以上线性测度优化推广到非线性空间,有利于Laplacian SVM利用核函数实现非线性分类。上述方法在ACE2005和OntoNotes5.0中文语料上进行测评,结果表明,所提出的方法能取得比基于SVM的实体表达对模型相当甚至更好的测评效果,且所需的训练样本更少,这在标注语料不足的语言中具有显著的意义;同时,该模型的消解效果也明显地优于其它四类经典的半监督学习方法。(3)提出一种改进的层次过滤模型用于中文指代消解。在原始层次过滤模型的框架下,首先增加一个语义相似度匹配层,该层通过引入Web语义知识弥补了中文语义知识库较小的不足;其次,针对中文单复数识别较低的特点,对原始模型中的单复数识别层进行修改并以此提高模型的代词消解精度;最后对原始模型的待消解项识别层进行相应修改,使之提高中文指代消解模型的性能。改进后的模型在ACE2005中文语料上对各个过滤层次的贡献度进行叠加式测评,结果表明,所修改和增加的层次对模型都有一定的贡献;此外,所提出的模型与四类基准系统在ACE2005中文语料上进行比较和测评,结果表明,所改进的层次过滤模型的消解效果要显著优于四类基准系统。(4)提出一种联合文本和图像信息的行人目标检测方法。图像和文本信息是人类感知世界的关键因素。针对目前方法在行人检测这一图像目标检测问题存在的缺陷,在传统纯视觉方法的基础上,引入文本信息辅助机器视觉提高图像行人目标检测精度。提出通过确定图像候选框与文本实体表达之间的共指关系,实现文本与视觉信息的融合。该方法首先利用图像解析方法初步获取图像目标的候选框,其次通过文本分析方法获取文本中有关图像目标的实体表达,并提出一种马尔科夫随机场模型用于文本信息和图像信息之间共指关系的推断。模型在增加了场景描述文本的加州理工大学行人检测数据集上进行了测评,结果表明,相比于纯视觉的行人检测基准方法HOG-SVM,所提出的方法在不同尺度目标、受遮挡目标检测上效果均有明显的提升。且该方法在只使用了基本的HOG特征和线性SVM分类器的情况下,性能均等同或者优于其余三种经典的纯视觉行人检测方法。此外,模型也能在文本的基础上联合图像信息提高文本的指代消解模型的精度,在所标注的描述文本上的测评,结果表明,模型中的图像对文本的反馈信息能提高指代消解精度约4%。
其他文献
Prion疾病,又被称为传染性海绵状脑病(TSEs),作为一种重要的致死型神经退行性疾病,广泛存在于各种哺乳动物体内特别是人体内,包括羊瘙痒病、疯牛病,人的家族性和散发性的CJD、GSS综合症、FI以及kuru病等。如今prion疾病已经扩展为prion-like疾病,包括由α-突触核蛋白导致的帕金森疾病,由tau蛋白和Aβ导致的阿尔兹海默病,由TDP-43以及S○D1导致的肌萎缩性脊髓侧索硬化症
非贯通节理岩体为边坡和地下洞室工程中经常遭遇的一类复杂的工程介质,节理的存在及其相互影响对岩体的破坏和力学特性起着决定性的作用。本文采用水泥砂浆作为相似材料模拟砂岩,制作包含多条非贯通节理的岩体试件,开展了一系列的单轴、双轴及三轴压缩试验。同时,在试验过程中采用多通道声发射检测仪对试件的破坏过程进行了动态监测。通过物理试验、理论分析及数值模拟试验对包含多条节理岩体试件的变形和力学特性、破坏模式、分
非监督变化检测是通过遥感影像获取地表变化信息的重要手段,因无需参考数据,有着广阔的应用前景。但由于遥感数据本身的质量问题,如异物同谱、同物异谱、噪声、混合像元和模糊边界等;以及变化检测算法的局限性,使得不确定性总是伴随着非监督变化检测的整个过程,影响了最终的变化检测精度。为此,本论文对现有非监督变化检测算法的不确定性进行深入分析,从生成差分影像和分析差分影像两个关键步骤入手,借助于模糊集合、模糊拓
褐飞虱(Nilaparvata lugens Stal.,BPH)是水稻(Oryza sativa L.)的专食性害虫。在褐飞虱与水稻长期的攻击与反击的竞争过程中,二者形成了一种协同进化关系。水稻为了抵御褐飞虱的取食而进化出抗虫性,而褐飞虱则产生新的生物型来克服水稻抗性,水稻反过来又产生出新的抗性形式来对抗新的褐飞虱生物型。阐明水稻抗褐飞虱基因形成与进化的机制和水稻抗虫反应的分子机理,对于褐飞虱这
车联网(vehicular ad hoc network,VANET)中高效快速的数据传输对于提高道路安全性和交通效率至关重要。由于车辆高移动性和快速的拓扑变化,导致基于传统专用短程通信(dedicated short ranged communication,DSRC)的车辆与基础设施间(vehicle to infrastructure,V2I)或者车辆间(vehicle to vehicle
第一部分七氟醚吸入麻醉对急性REM睡眠剥夺大鼠痛觉过敏的影响目的:探讨七氟醚吸入麻醉是否加重急性REM睡眠剥夺大鼠痛觉过敏,及其痛觉过敏的程度。方法:选取10月龄大小雄性SPF级健康Sprague-Dawley大鼠共76只,每只体重约为300g,采用随机数字表法分为4组(n=19):睡眠剥夺组(SD组),大鼠于睡眠剥夺水笼中行96hr急性REM睡眠剥夺;七氟醚吸入麻醉组(SEV组),大鼠放置入SD
背景:肿瘤转移,尤其是远隔组织器官的转移是导致乳腺癌患者死亡的最主要原因。在肿瘤细胞迁移过程中,细胞骨架重构是肿瘤细胞侵袭性行为的基础,肌动蛋白纤维动态性的重构为肿瘤细胞的迁移提供了所需的动力,由它所形成的板状伪足和线状伪足也是肿瘤细胞运动的结构基础。VASP参与细胞骨架的重排过程,在恶性肿瘤的发生及进展过程中发挥着重要作用,文献报道及本课题组研究均发现VASP在恶性肿瘤的转移过程中扮演者重要角色
背景:不管是在国内还是在国外,肺癌的发病率和死亡率都位居恶性肿瘤的前列。非小细胞肺癌是肺癌最常见的类型,大约占据肺癌总发病率的百分之八十五左右。按照病理组织学类型的不同,非小细胞肺癌又可以分为非小细胞肺腺癌、非小细胞肺鳞癌以及肺大细胞癌。而肺腺癌以及肺鳞癌,是非小细胞肺癌最主要最常见的两个病理组织学类型。早期的非小细胞肺癌患者,在经过外科手术治疗以后,五年生存率可以达到大约百分之四十。但是,大约有
学位
研究一:下切牙骨性支持范围相关的颅面结构特点分析目的:探讨与下切牙骨性支持范围显著相关的颅面结构特点,并在独立比较单一颅面结构特点与下切牙骨性支持范围的相关性基础之上,探讨众多颅面结构特点对下切牙骨性支持范围的联合影响作用。材料和方法:对武汉大学口腔医院放射科2013年1月至2013年12月的所拍摄的颅面锥束型CT的连续样本进行回顾研究。对符合条件的252例CT样本进行下切牙基骨骨松质厚度(LIC
研究背景和目的:紧密连接蛋白是存在于上皮细胞与内皮细胞之间的一种蛋白质,其作用是保持细胞间结构的完整性。OCCLUDIN蛋白作为紧密连接蛋白中主要一种类型,它的结构或表达发生变化会导致紧密连接结构及功能的改变,最终引起一些临床疾病的发生。研究发现,OCCLUDIN在多种肿瘤组织中表达异常,且OCCLUDIN与肿瘤细胞增殖、凋亡和侵袭迁移等有密切关系。而目前关于OCCLUDIN对非小细胞性肺癌发生发