【摘 要】
:
近年来,随着机器学习和深度学习的迅速发展,对高质量的训练数据的需求越来越高。目前获取高质量数据的方式主要有搜索现有文献资料、查找开源数据集等,但到特定领域、面对特定问题时,常常难以直接找到有效的高质量数据,就需要在人工搜集的基础上再做进一步处理。这时会面对两种困境,一种是搜集到的数据中包含了少量的噪声数据,另一种是搜集到的数据中只有少量数据是需要的,其他大量的是噪声数据。对于这两种情况,都需要我们
论文部分内容阅读
近年来,随着机器学习和深度学习的迅速发展,对高质量的训练数据的需求越来越高。目前获取高质量数据的方式主要有搜索现有文献资料、查找开源数据集等,但到特定领域、面对特定问题时,常常难以直接找到有效的高质量数据,就需要在人工搜集的基础上再做进一步处理。这时会面对两种困境,一种是搜集到的数据中包含了少量的噪声数据,另一种是搜集到的数据中只有少量数据是需要的,其他大量的是噪声数据。对于这两种情况,都需要我们选取有效的方法把需要的数据挑选出来,剔除不需要的噪音数据。目前学术届和工业界的研究者已经提出了多种离群点检测方法来尝试解决这个问题,主要有基于频率的方法、基于统计的方法、基于深度或距离的方法和基于机器学习的方法等。这些方法对于结构化数据取得了较好效果,但当面对非结构化数据尤其是文本数据时,很多方法收效甚微。本文尝试将卷积神经网络引入文本离群点检测,并加以改进,具体工作有:1.分析了文本离群点的特点,提出了基于卷积神经网络的文本离群点检测方法。相较于循环神经网络按照时间步伐依次输入数据的特点,卷积神经网络的池化操作会丢失部分位置信息,更符合乱序文本检测的特点;同时其卷积操作很好的模仿了语言模型的n-gram方法。2.提出从目标数据到构建对照集,再到词向量预训练和增益训练、模型训练和迭代的完整流程方法。本文通过Xenc工具计算域外数据与域内数据的交叉熵并排序,并将排序后的数据按照一定比例有序挑选出对照集;采用了先用大语料预训练一个词向量模型,再添加域内语料进行增益训练的方式,权衡了词本身信息与词语使用场景之间的关系;采用了训练迭代的方式不断逼近预期效果。3.针对短文本的文本离群点检测,提出了融合词性特征的卷积神经网络模型,并设计实验验证其有效性。很多口语化语句的句法信息是错误的,但词法信息多数得以保留,引入词性信息可以更好的扩展信息维度,尤其是对指令性语句,作用更大。4.针对小数据集上的文本数据,提出了先对词语进行位置编码,并在位置编码后打乱词语顺序扩充数据集的方法,在尽量保留原始文本信息的同时有效扩充了数据量。通过实验验证了有效性。
其他文献
目的观察重组人血管内皮抑素(Endostar,YH-16,恩度)对恶性浆膜腔膜血管微环境凋亡相关因子表达状态的影响,探讨凋亡调节机制在恶性腹腔积液形成、治疗中的作用。方法应用H22肝癌腹
1概况文化名园住区位于南京市江宁区城区中心,距南京主城中心新街口约7km,与城区中美丽的城中湖--百家湖相毗邻.百家湖湖水清澈,岸线曲折,远山近水,风光怡人.作为江宁城区重
通过研究开架式ROV水动力特性,分析了开架式ROV特殊的几何外型和作业特点,讨论了研究的必要性,通过1∶4的拘束模型试验测得了一套无因次水动力系数,并得到了五自由度ROV运动
目的 探讨改良椎体成形术(PVP)治疗骨质疏松性多发椎体压缩性骨折的临床效果及安全性。方法 采用前瞻性随机对照单盲研究,收集2013年10月-2014年10月在河北省沧州中西医结合医
近年来,以网络发展和人工智能发展为象征的信息技术风靡全球,线上交易呼应而出,随之网络消费纠纷纷至沓来。在本质上,网络消费纠纷和传统线下纠纷是一样的,它们属于纠纷的两种表现形式。但相比传统诉讼纠纷,网络消费纠纷加入了互联网的因素,而互联网信息技术本身就有虚拟性、不真实性等特点,故目前我国存在的线下传统诉讼纠纷解决模式并不适用于线上消费纠纷的解决,无法满足消费者的现实需求,也不利于线上消费者进行维权救
四氢生物蝶呤(tetrahydrobiopterin,BH4)是芳香族氨基酸羟化酶的必需辅酶,同时,也是一氧化氮合酶和烷基甘油单加氧酶必需的辅因子,其合成不足或代谢缺陷会导致哺乳动物罹患多
目的:探讨小针高频电凝对于婴幼儿头面颈部表浅性血管瘤的临床疗效,适应症,不良反应及其防治。方法:根据收集广西医科大学第一附属医院整形美容外科门诊2011年1月--2014年1月应
采用五氧化二磷法合成高分子质量聚醚磷酸酯。研究了反应条件对产物的单、双酯比例和总产率的影响规律。在聚醚与五氧化二磷的摩尔比为 2 .6∶ 1,反应温度 80℃ ,反应时间 6
先天性膈膨升症(Diaphragmatic Eventration,DE)属膈肌无力类疾病,是由于膈肌肌纤维发育不全或膈神经麻痹而造成某部分或某侧的膈肌不正常地升高,临床上较为少见。我院新生儿科NIC
我国高职院校以培养专业技能型人才为目标,然而随着改革开放的深入,企业对高职院校非英语专业学生的英语应用能力的要求也逐步提高。在贯彻国家"以应用为目的,实用为主,够用