短文本关系分类及其在医疗健康与电子商务中的应用

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:luke_2013
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的不断发展,互联网应用层出不穷,日益增加的用户让互联网逐渐成为了资源丰富的数据库。本文针对大量的互联网数据,提出了短文本关系分类的基本框架。针对数据中存在的噪音问题,本文分别提出了重要实体词典的扩展方法,并尝试应用一般性中文文本错误的纠错模型,对网络文本首先进行了预处理。针对标注数据缺少的问题,本文提出了结合少量人工标注数据所学习到的基本规律,引入外部知识来进行辅助判断的算法,从而得以构造出具有可观规模的标注数据集。实验表明扩增后的数据集质量有一定的保证,并且可以对模型效果有显著的提升。在关系分类问题上,本文提出了两个分类方法,一是应用于对可解释性要求较高的场景中的支持向量机模型,二是基于预训练语言模型的网络结构。在不同场景下的实验结果证明了我们所提出的方法的有效性,相对于其他的基类模型均有一定F1分值和准确率的提升。此外,本文在与人们生活息息相关的医疗健康和电子商务领域进行了应用的延伸。对于医疗场景下的关系分类模型,我们对副作用抽取结果设计了排序策略,获得了一些对应药品说明书上缺失的症状名称,将提供给合作的制药企业进行后续研究。而对于电子商务场景下的关系分类模型,我们证明了目前语言模型在常识关系判断的局限性,表明常识背景下的短文本分类仍然是自然语言处理研究的难点。
其他文献
自动文本摘要是人工智能领域中一个非常重要的研究方向,根据摘要产生方式的不同可分为抽取式摘要和生成式摘要。生成式摘要因为与人工摘要更相近,成为了近年研究的主流。但生成式摘要在中文长文本应用中面临着严重的信息错误和信息丢失问题,本论文将从解决这一问题入手提出新的模型:SSM(Super Segmentation Module)。首先,以往自动文本摘要方法中通常使用的word2vec词嵌入模型会导致中文
在信息过载的互联网时代,各个行业每天可以产生数以亿计的数据量。为了提高自己的竞争力,企业需要不断地优化自身管理来为用户提供优质的服务,快速准确地向用户推荐当前感兴趣或者潜在感兴趣的产品,深入挖掘利润空间。同时,面对日新月异的产品和服务,用户也希望能够快速定位到自己需要的产品。而人工地筛选和处理数据,为上百万的活跃用户精确地推荐产品会耗费不可估量的人力和物力。因此,设计性能优良的并且具有可解释性的推
基于图像特征的提取和匹配技术已广泛应用于目标识别、图像检索和三维重建等领域。特征提取算法的高计算复杂度使得纯软件实现难以满足实时性需求,实现特征提取算法的硬件加速对嵌入式系统中的计算机视觉应用至关重要。本文研究图像特征提取算法的硬件加速与实现方法,选择尺度不变特征变换(Scale Invariant Feature Transform,SIFT)和Canny边缘检测算法作为研究对象。首先,通过对特
近年来微流控芯片被越来越多地应用在细胞与微米尺度生物的研究中,流式细胞仪是该领域研究必不可少的设备之一。传统的流式细胞仪体积大、操作复杂,而基于微流控芯片的流式细胞仪相对其具有试剂消耗少、操作自动化、占地面积小等优点。随着近年来机器视觉技术的发展以及科研人员对流式细胞仪检测精度需求的提高,基于图像处理的成像流式细胞仪备受关注。本文以秀丽隐杆线虫(后文简称线虫,Caenorhabditis eleg
近年来,随着3D打印技术的打印精度和速度不断提高,结合微流控方向应用的3D打印备受关注。其中,和常规3D打印技术相比,数字光处理(DLP)3D打印在精度和速度上优势明显。然而,目前商用的DLP 3D打印机打印靶面较大,但XY轴打印精度一般在100μm以上,难以兼顾打印精度和打印面积,不适合微结构的制作。本文设计并搭建了一种高精度3D打印系统。该系统包括显微镜投影光学系统及共轭设计的实时检焦系统,其
随着红外成像技术快速发展,红外目标识别系统在导弹精确制导、夜间导航等方面发挥着越来越重要的作用。红外小目标识别算法是红外成像检测系统的核心之一。红外小目标信噪比低,往往淹没于自然背景和系统噪声之中,如何快速、精确地识别红外小目标非常重要。本文研究基于视觉显著性的红外小目标识别算法,探究算法的识别效果并对算法进行改进和优化。对比机制是视觉显著性的重要内容,通过测量目标与邻域的对比度,确定目标的位置。
随着当今社会的不断发展,摄像头设备时时刻刻在记录和监督着社会的平稳发展。在目前备受关注的智慧城市中,智能监控也在智慧城市中构成了安防的重要组成部分。随着人脸识别技术的逐渐推广,行人重识别技术因为其广泛的应用场景和研究意义而被大量学者和机构研究。行人重识别在智慧监控和城市安全等领域有很大潜力。随着深度学习算法的迭代和优化,以及很多行人重识别相关的大规模公开数据集的出现,目前在可见光领域镜头下的行人重
为进一步加强检测机构技术能力水平,帮助辽宁省实验室提升婴幼儿纺织品pH值的检测水平,组织开展全省实验室婴幼儿纺织产品水萃取液pH值的测定能力验证。依据GB/T 7573—2009《纺织品水萃取液pH值的测定》及中国合格评定国家认可委员会(CNAS)规定的程序进行本次能力验证。采用单因子方差分析对测试样品进行均匀性检验,采用t检验对测试样品进行稳定性检验,采用Z比分数评价各参加实验室的测试结果,以稳
ZnO纳米线因其优越的物理化学特性,被广泛地用于各个领域。ZnO纳米线的尺寸、形状等几何结构是影响物理化学特性的重要参数,如何准确地对ZnO纳米线SEM图像进行识别、分割,最终实现测量,对于构建纳米材料的微观特征与宏观物理化学特性之间的联系有着重要的意义,尤其能够推动对其物理机理的理论认识。然而目前所使用的测量方法主要都是人工手动测量,该方法效率低,成本高,无法实现大规模测量。深度学习自2006年
旁路攻击对加密算法的安全性造成了很大的威胁,在安全领域受到研究者广大的关注和研究。旁路信息的采集作为旁路攻击的第一步,是后续分析和攻击的基础。传统的异步采集方法降低了旁路信息的信噪比,同时还使得后续无法对齐旁路信息,对旁路信息的攻击造成了极大的困难。因此,大幅提升旁路信息的采集效率,并研究基于旁路信息的旁路攻击方法是十分重要的。本文主要的研究内容和研究成果如下:1、针对传统的异步旁路信息失调问题,