基于非对称多值特征杰卡德系数的高维语义向量差异性度量方法

来源 :计算机科学 | 被引量 : 0次 | 上传用户：ycdyjlc

【摘要】

：

语义向量差异性度量是用深度学习方法解决自然语言处理领域问题的重要基础。高维语义向量差异性度量存在“度量集中”问题,导致传统的度量方法得到的度量结果无法体现语义向

【作者】

：

冯艳红1 2 于红1 2 孙庚1 2 彭松1

【机构】

：

1，大连海洋大学信息工程学院；2，大连海洋大学辽宁省海洋信息技术重点实验室,

【出处】

：

计算机科学

【发表日期】

：

2018年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语义向量差异性度量是用深度学习方法解决自然语言处理领域问题的重要基础。高维语义向量差异性度量存在“度量集中”问题,导致传统的度量方法得到的度量结果无法体现语义向量间的差异性。针对该问题,提出一种基于非对称多值特征杰卡德系数的差异性度量方法。由高维语义向量维度值的统计分布得出,部分维度的维度值密集地分布在特定值域内,导致其无法贡献差异度,因此不同维度对差异性的贡献量不同,具有非对称性。该方法定义了关于维度值的重要性函数,选取重要性函数值满足阅值的维度参与差异度计算,去掉无法贡献差异度的维度,实现了降维,缓解了“度量集中”问题。实验分别在渔业数据集和公开数据集上进行,对不同维度的语义向量的不同度量方法进行了比较,在语义性没有明显变差的情况下,提出的方法的多样性指标较目前最优的度量方法有较大幅度的提高。 Semantic vector differences measure is to use deep learning method to solve the problem of natural language processing an important foundation. The difference measure of high-dimensional semantic vector has the problem of “concentration of measurement”, which leads to the fact that the measurement results obtained by traditional measurement methods can not reflect the difference of semantic vectors. Aiming at this problem, a new method based on asymmetric multi-valued features of Jaccard coefficient is proposed. According to the statistical distribution of dimension values of high-dimensional semantic vectors, the dimension values of some dimensions are densely distributed in a specific range, which makes them unable to contribute to the differences. Therefore, different dimensions have different contributions to the differences and are asymmetric. The method defines the importance function of the dimension value, selects the dimension function of importance value satisfying the reading value to participate in the calculation of the difference degree, removes the dimension which can not contribute the difference degree, and realizes the dimension reduction and alleviates the problem of “concentration”. Experiments were carried out on fishery data sets and public data sets, respectively, and different measures of semantic vectors in different dimensions were compared. Under the condition of no significant deterioration in semantic quality, the proposed method has better diversification index than the current best Measurement methods have a more substantial increase.

其他文献

电子鼻漂移阈值构建及其白酒鉴别应用

电子鼻漂移是气敏传感器的固有行为,用空载数据揭示漂移现象更具有一般性。为了有效去除电子鼻漂移,提出了一种基于空载条件下与小波包分解的漂移去除方法。对电子鼻空载数据

期刊

电子鼻漂移空载分析小波包分解鉴别分析气敏传感器去除方法阈值函数剔除方法非线性分类

第三方国际冲突管理研究：冷战后中国的行为模式和动因(1989-2013)

总体的和平与发展是冷战后国际关系的主题,而局部的冲突和摩擦却时常牵动着世界各国的神经。作为正在和平发展中的新兴大国,以更为成熟的姿态参与到第三方国际冲突管理的过程

学位

国际冲突第三方国际冲突管理中国外交国际机制国际调停(斡旋)维和行动

美术专业大学生思想政治教育研究

美术专业学生作为高等教育体系中比较特殊的一个群体，有其自身的特点。他们思维活跃，个性突出，价值取向比较多元，对社会道德理想境界有比较高的追求，集体组织纪律观念不强，自身理想

学位

美术专业大学生思想政治教育

基于模糊层次分析的电力终端通信接入网综合评价

电力终端通信接入网是衔接电网和用户的关键环节,也是智能电网的重要组成部分.针对目前电力终端通信接入网评价体系不完善的现状,本文从网络结构、传输能力、网络安全、运维

期刊

电力终端通信接入网综合评价指标体系模糊层次分析法

宽容

期刊

Reading

坏小孩的幸福兜兜转

许诺不耐烦地甩开我伸过去扯他衣服的手,仍旧专心致志地摆弄着手上的小型收音机.“我说了再挡一会儿就好了,真烦.”

期刊

收音机衣服小型

美国《外国人侵权法》域外适用的新发展

《外国人侵权法》通过于1789年,目前编纂在《美国法典》第一千三百五十条,全文规定：“对于外国人基于所实施的违反万国法或者美国缔结的条约提起的任何侵权民事诉讼,联邦地方

学位

《外国人侵权法》域外适用普遍民事管辖权

论机动车交通事故侵权惩罚性赔偿制度的确立——以路易斯安那州民法典机动车交通事故侵权惩罚性赔偿的研究为启示

《侵权责任法》颁布以后，在第六章的相关规定中，仅能得知如何确定责任承担主体的特殊规则，而交通事故责任形式依然参照原有规定。由于民事责任复原功能的代表性和填补损害的基本

学位

机动车交通事故侵权责任惩罚性赔偿制度法律适用

基于RFID技术的车辆信息采集终端的设计

车辆信息包括车辆类型、车牌号、车主信息、违章信息等,这些信息是城市车辆管理的基础.采用RFID技术对车辆信息进行采集,可以在非接触的条件下实现车辆信息的快速采集,传输数

期刊

RFID车辆信息城市交通LPC3240

中国特色社会主义道路认同研究

自从苏联解体以后，世界社会主义国家的力量急剧减少，以前的两级世界格局变成了以美国为首的单级世界格局。以美国为首的西方发达资本主义国家利用它们在经济、政治、文化等领域

学位

中国特色社会主义政治道路政治认同理论

基于非对称多值特征杰卡德系数的高维语义向量差异性度量方法

与本文相关的学术论文