基于非对称多值特征杰卡德系数的高维语义向量差异性度量方法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:ycdyjlc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义向量差异性度量是用深度学习方法解决自然语言处理领域问题的重要基础。高维语义向量差异性度量存在“度量集中”问题,导致传统的度量方法得到的度量结果无法体现语义向量间的差异性。针对该问题,提出一种基于非对称多值特征杰卡德系数的差异性度量方法。由高维语义向量维度值的统计分布得出,部分维度的维度值密集地分布在特定值域内,导致其无法贡献差异度,因此不同维度对差异性的贡献量不同,具有非对称性。该方法定义了关于维度值的重要性函数,选取重要性函数值满足阅值的维度参与差异度计算,去掉无法贡献差异度的维度,实现了降维,缓解了“度量集中”问题。实验分别在渔业数据集和公开数据集上进行,对不同维度的语义向量的不同度量方法进行了比较,在语义性没有明显变差的情况下,提出的方法的多样性指标较目前最优的度量方法有较大幅度的提高。 Semantic vector differences measure is to use deep learning method to solve the problem of natural language processing an important foundation. The difference measure of high-dimensional semantic vector has the problem of “concentration of measurement”, which leads to the fact that the measurement results obtained by traditional measurement methods can not reflect the difference of semantic vectors. Aiming at this problem, a new method based on asymmetric multi-valued features of Jaccard coefficient is proposed. According to the statistical distribution of dimension values ​​of high-dimensional semantic vectors, the dimension values ​​of some dimensions are densely distributed in a specific range, which makes them unable to contribute to the differences. Therefore, different dimensions have different contributions to the differences and are asymmetric. The method defines the importance function of the dimension value, selects the dimension function of importance value satisfying the reading value to participate in the calculation of the difference degree, removes the dimension which can not contribute the difference degree, and realizes the dimension reduction and alleviates the problem of “concentration”. Experiments were carried out on fishery data sets and public data sets, respectively, and different measures of semantic vectors in different dimensions were compared. Under the condition of no significant deterioration in semantic quality, the proposed method has better diversification index than the current best Measurement methods have a more substantial increase.
其他文献
电子鼻漂移是气敏传感器的固有行为,用空载数据揭示漂移现象更具有一般性。为了有效去除电子鼻漂移,提出了一种基于空载条件下与小波包分解的漂移去除方法。对电子鼻空载数据
总体的和平与发展是冷战后国际关系的主题,而局部的冲突和摩擦却时常牵动着世界各国的神经。作为正在和平发展中的新兴大国,以更为成熟的姿态参与到第三方国际冲突管理的过程
美术专业学生作为高等教育体系中比较特殊的一个群体,有其自身的特点。他们思维活跃,个性突出,价值取向比较多元,对社会道德理想境界有比较高的追求,集体组织纪律观念不强,自身理想
电力终端通信接入网是衔接电网和用户的关键环节,也是智能电网的重要组成部分.针对目前电力终端通信接入网评价体系不完善的现状,本文从网络结构、传输能力、网络安全、运维
宽容
期刊
许诺不耐烦地甩开我伸过去扯他衣服的手,仍旧专心致志地摆弄着手上的小型收音机.“我说了再挡一会儿就好了,真烦.”
《外国人侵权法》通过于1789年,目前编纂在《美国法典》第一千三百五十条,全文规定:“对于外国人基于所实施的违反万国法或者美国缔结的条约提起的任何侵权民事诉讼,联邦地方
《侵权责任法》颁布以后,在第六章的相关规定中,仅能得知如何确定责任承担主体的特殊规则,而交通事故责任形式依然参照原有规定。由于民事责任复原功能的代表性和填补损害的基本
车辆信息包括车辆类型、车牌号、车主信息、违章信息等,这些信息是城市车辆管理的基础.采用RFID技术对车辆信息进行采集,可以在非接触的条件下实现车辆信息的快速采集,传输数
自从苏联解体以后,世界社会主义国家的力量急剧减少,以前的两级世界格局变成了以美国为首的单级世界格局。以美国为首的西方发达资本主义国家利用它们在经济、政治、文化等领域