基于属性主题分割的评论短文本词向量构建优化算法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:BEYONDPEAKER
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从词向量的训练模式入手,研究了基于语料语句分割(BWP)算法,分隔符分割(BSP)算法以及属性主题分割(BTP)算法三种分割情况下的词向量训练结果的优劣。研究发现,由于评论短文本的自身特征,传统的无分割(NP)训练方法,在词向量训练结果的准确率和相似度等方面与BWP算法、BSP算法以及BTP算法具有明显的差异。通过对0.7亿条评论短文本进行词向量构建实验对比后发现,该文所提出的BTP算法在同义词(属性词)测试任务上获得的结果是最佳的,因此BTP算法对于优化评论短文本词向量的训练,评论短文本属性词的抽取以及情感倾向分析等在内的,以词向量为基础的应用研究工作具有较为重要的实践意义。同时,该文在超大规模评论语料集上构建的词向量(开源)对于其他商品评论文本分析的应用任务具有较好可用性。
其他文献
nucleocapsid 蛋白质(N) 是日冕病毒的主要结构的蛋白质。蝙蝠象 SARS 一样日冕病毒(SL-CoV ) 的 N 蛋白质与 SARS-CoV 的有高类似。在这研究, SL-CoV N 蛋白质在 Escherichia
<正>到2020年农村贫困人口全部脱贫,是决胜全面建成小康社会的底线任务,是解决"人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾"的基础工作,产业扶贫则是脱贫攻
2016年是中国加入世贸组织15周年,也是“市场经济地位”相关条款终止年。近日,欧洲议会通过一项非立法性决议,呼吁欧盟不要给予中国“市场经济地位”。“市场经济地位”之争成为
细胞培养在病毒学起一个重要作用。它提供一个平台因为病毒以及为生物化学和分子生物学的察觉和隔离基于病毒的研究。在现在的工作,一个新系统能许可证多重(不同) 在一个盘子
包括 baculoviruses 的病毒是应尽的寄生虫,当他们的染色体不编码为复制要求的所有蛋白质。因此,病毒演变利用行为和他们的主人并且经常的生理学有他们在百万年的主人的 coevol
Borf1 蛋白质被编码由一立即早牛的起泡沫的病毒(BFV ) 的基因;在病毒的生活环起一个关键作用。Borf1 是两个都装 transactivate 的 DNA 长末端重复(LTR ) ;BFV 由的内部倡导者
净化编码 KSHV 的小衣壳蛋白质(SCP ) 的蛋白质并且分析它的 immunogenicity, Kaposi 的肉瘤 associated-herpesvirus (KSHV ) 的 orf65 的 carboxyl 终点在一个原核生物的表
该文针对古汉语文本小、句简短、模式性强的结构特点,提出了一种基于"词-词性"匹配模式获取的快速树库构建方法,将句法标注过程规约为获取候选匹配模式、制定句法转换规则、自
我国2016年的通货膨胀形势是各界都非常关注的一个问题。一方面,通货膨胀本就难以判断,而从今年1月份起,国家统计局对CPI的统计又做了一些微调,这进一步对判断今年的通货膨胀
HCMV 是在人的先天的大脑疾病的一个主要原因,并且它的 neuropathogenesis 充分还没被理解。现在的学习的目的是调查人的 cytomegalovirus (HCMV ) 的效果人的马头鱼尾的怪兽