结合语义扩展和卷积神经网络的中文短文本分类方法

来源 :计算机应用 | 被引量 : 0次 | 上传用户:ganyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文新闻标题通常包含一个或几十个词,由于字符数少、特征稀疏,在分类问题中难以提升正确率。为解决此问题,提出了基于Word Embedding的文本语义扩展方法。首先,将新闻标题扩展为(标题、副标题、主题词)构成的三元组,用标题的同义词结合词性过滤方法构造副标题,对多尺度滑动窗口内的词进行语义组合,提取主题词;然后,针对扩展文本构造卷积神经网络(CNN)分类模型,该模型通过max pooling及随机dropout进行特征过滤及防止过拟合;最后,将标题、副标题拼接为双词表示,与多主题词集分别作为模型的输入。在2017自然语言处理与中文计算评测(NLP&CC2017)的新闻标题分类数据集上进行实验。实验结果表明,用三元组扩展结合相应的CNN模型在18个类别新闻标题上分类的正确率为79.42%,比未经扩展的CNN模型提高了9.5%,且主题词扩展加快了模型的收敛速度,验证了三元组扩展方法及所构建CNN分类模型的有效性。
其他文献
主要研究了在平衡群体中的基因频率的实际运算,探讨了任一群体是否达到平衡的方法,分别介绍了等位基因、复等位基因、伴性遗传、独立遗传情况下的群体基因频率的计算方法.
机载计算机电源内部通常使用线性电源来实现小功率辅助电源。相比常规计算机电源,机载计算机电源还需承受-55℃~+85℃的恶劣工作环境,以及最高80V的过压浪涌。本文对两种常规的
会展经济是国民经济发展的新增长点,是区域经济发展的助推器,树立现代会展经济观念,加大对会展扶持力度,建立市场化运行体制,提高会展层次,创立独具特色会展品牌,培养会展业
全国第二期标准化管理研究生课程进修班结业典礼日前在中南财经政法大学隆重举行.29名来自全国专业标准化技术委员会、政府、企事业单位和研究机构的学员按照教学进度安排完成
国发[2017]48号各省、自治区、直辖市人民政府,国务院各部委、各直属机构:根据《中华人民共和国土地管理法》、《土地调查条例》有关规定,国务院决定自2017年起开展第三次全
“问题是数学的核心”,是突出认知规律的焦点,因而,培养同学们的问题意识,引导其自主质疑,是自主学习的基础。
随着社会的进步,人们开始追求越来越高的生活水平,在建筑工程中提出了建筑物更为舒适的要求,而建筑行业正在适应这一要求,首先在建筑工程管理中进度管理的应用入手。保证建筑
根据语言学习规律及大学英语教学目标要求,大学英语教学要着重在培养学习者的自主能力上下功夫.但从我国目前教学和学生的现状来看,一时难以达到这个目标,可行的办法是:应结合
广州市住房和城乡建设委员会文件穗建规字[2018]19号各有关单位:我市建筑施工和监理企业诚信综合评价实施以来,建筑市场诚信体系建设取得了显著成效。根据《广东省市场监管条
GZ0320180184广州市发展和改革委员会文件穗发改规字[2018]13号市民政局,各区发展改革局:根据《省发展改革委省民政厅关于进一步加强殡葬服务价格管理及有关问题的通知》(粤