基于不同语料的词向量对比分析

来源 :兰州理工大学学报 | 被引量 : 0次 | 上传用户:vener123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过对目前自然语言处理领域中基于深度学习的词向量表示方法对不同文本语料文本表达的有效性进行分 析,将主流词向量训练方法用于不同的文本语料集,包栝英文维基百科语料、新闻语料、论坛语料和Web 语料进行 训练,并采用三种评价指标:余弦相似度平均差、斯皮尔曼等级相关和米克罗夫类比方法对训练出的文本词向量表 达方法进行比较.实验结果表明,针对上述四种语料,词向量能够实现对文本的有效表示,但各个语料训练出的词向量的通用性不同,其中维基百科语料训练的词向量的通用效果最好.
其他文献
利用三维相场模型对Al-Cu二元合金定向凝固过程进行数值模拟,研究定向凝固过程中固液界面前沿的变化规律和胞晶的粗化机制,分析不同过冷度对界面形态的影响.结果表明:在定向凝
针对带随机参数和噪声方差两者不确定性的线性离散多传感器系统,利用虚拟噪声补偿随机参数不确定性,原系统可转化为仅带不确定噪声方差的系统.根据极大极小鲁棒估值原理,用Ly
包头市从1963—1979年14年中,白菜霜霉病4次大流行、4次小流行,6次中流行,大流行年减产40—50%。 从大、小流行年的气象条件对比看出:大流行年的8月下旬、9月上旬,旬平均气温1
期刊
采用溶胶-凝胶+机械球磨法制备了纳米α-Al2O3/Ni复合粉体,研究了α-Al2O3/Ni复合粉体的微观结构及其在球磨过程中的结构演变和形貌演变,探讨了复合粉体的球磨细化机理.结果表
基于简化的Bouc-Wen迟滞模型来描述隔震支座非线性力学模型,为基础隔震结构在地震作用下的隔震支座提供合理的力学性能状态评估,提出判断隔震支座进入非线性阶段时域演化特征
采用XRD、SEM、EDS以及EPMA等分析方法,研究铸态K4169合金及固溶-时效处理后K4169合金在650℃下模拟烟气(75%Na_2SO_4+25%NaCl)环境中的热腐蚀行为.结果表明:2种状态的K4169合金
研究并刻画了任意逆半群S的正规子半群格Subn S和S的最大群同态象S/σ的正规子群格Subn(S/σ)之间的基本关系.证明了Brandt半群S的正规子半群格Subn S是分配格,当且仅当S或者
外商投资企业外债“投注差”,是指企业投资总额减注册资本后,其余可以以外债形式投入的部分。也就是说,凡有“投注差”的外商投资企业在资本金按合同规定时限到位的前提下,均可借
在2007年度,一段时间内肉蛋等居民消费品的价格不断上涨,涨幅已经创近些年历史新高,通货膨胀的压力增大。而居民消费品的物价指数统计尚没有包含飞涨的房价。不论从短期还是长期
车联网中车辆节点快速移动和非均匀分布导致网络连接具有通断性,该特性严重影响节点间通信的时效性和可靠性.针对连接的通断特性,给出描述网络连接断开状态的网络空洞概念,重