【摘 要】
:
[目的]通过结合拼音字符特征、汉字字符特征、词级别语义特征和词性特征,缓解文本所呈现出的弱结构化、拼写错误及其同音词较多的问题,丰富语义特征,提高模型的分类能力.[方法]多特征融合的文本分类方法,在词级别特征的基础上进行词性特征、汉字字符特征和拼音字符特征构建多特征语义表示,然后将特征输入BiGRU中获取上下文语义特征,输入CNN中获取局部语义特征,最终将特征进行融合并输入Softmax中进行分类,预测需要的类别标签.[结果]在两个不同的数据集下,多特征融合的模型的准确率分别达到83.3%和91.1%,比
【机 构】
:
安徽农业大学经济技术学院 合肥231200;合肥工业大学管理学院 合肥230009;合肥工业大学管理学院 合肥230009;合肥工业大学过程优化与智能决策教育部重点实验室 合肥230009
论文部分内容阅读
[目的]通过结合拼音字符特征、汉字字符特征、词级别语义特征和词性特征,缓解文本所呈现出的弱结构化、拼写错误及其同音词较多的问题,丰富语义特征,提高模型的分类能力.[方法]多特征融合的文本分类方法,在词级别特征的基础上进行词性特征、汉字字符特征和拼音字符特征构建多特征语义表示,然后将特征输入BiGRU中获取上下文语义特征,输入CNN中获取局部语义特征,最终将特征进行融合并输入Softmax中进行分类,预测需要的类别标签.[结果]在两个不同的数据集下,多特征融合的模型的准确率分别达到83.3%和91.1%,比其他分类模型准确率至少提升了7个百分点.[局限]实验数据数量较少,未在更多的数据集上进行验证.[结论]所提方法提升了模型的语义表征能力,是一种有效的文本分类模型,为企业进行高效文本分类提供了有效支持.
其他文献
学生安全是学校教育教学工作的基础.生活语文课程作为培智学校义务教育阶段的一般性课程,是落实学生安全教育的有效载体.文章以生活语文四、五年级新教材中有关安全教育的课文、课后练习为例,分析新教材呈现安全教育知识的特点,并就新教材安全教育内容的优化进行思考.
大型权威辞书的编纂集中体现了汉语词汇史研究的成果,辞书的修订又指导并推动着汉语词汇史的发展.大型辞书修订工程浩繁,词汇史研究的新成果可以为其提供借鉴,而量词作为汉语中颇具特色的一个词类,基于汉语量词发展史的研究可以订补量词释义、增补量词新成员、提前量词始见书证等.
[目的]利用词典法辨识和量化我国科技政策文本用语中蕴含的决策者态度及其强弱程度,解决现有中文政策文本研究忽视词语语义强度的问题.[方法]立足科技政策的功能定位和用语特征,提出程度词的概念.兼顾数量和语义构建程度词典,包括依据专家知识选取种子词,利用PMI算法进行词语扩展,使用同义词词林筛选词语.最后结合TextRank算法进行实验验证.[结果]经信度和效度检验,构建的程度词典有效,结合程度词典的政策文本分析细粒度优于使用单一的文本挖掘算法.[局限]程度词典的权重设计有待细化.[结论]科技政策文本中的程度词
[目的]针对知识图谱的上下位关系抽取技术,提出基于映射矩阵和词向量相似度相结合的抽取方法,并探索在实际应用中的有效性.[方法]构建对应不同类别上下位词对的多个映射矩阵,充分运用实体词汇及其上下文包含的语义信息,进而利用映射矩阵识别实体词对间是否存在上下位关系.[结果]该方法在测试集上的综合表现比已有方法的FI值高出0.0321.以上市公司为数据集的实验结果表明,该方法有助于研究公司相似度和股票联动的相关性.[局限]可尝试对更多的上下位词对聚类,以更精准地区分上下位关系的类别;可引入模式匹配方法,对该方法进
[目的]挖掘领导信箱文本蕴含的主题,更好地感知、回应公众诉求,为政府服务和社会治理的和谐有序发展提供支撑.[方法]对27个省和4个直辖市的政府领导电子信箱文本数据进行爬取,得到106810条有效数据,应用LDA建模方法提取文本主题,构建公众诉求热点分类表;针对诉求的地区性差异,对不同省市进行对比分析,挖掘社会治理问题中的省际化差异特征.[结果]社会诉求主题主要集中于民生服务、社会发展、教育服务、卫生健康、法律服务和资源生态等领域;公众诉求类目具有明显的省际差异,如山西对劳动就业、江西对出行、河南对教育主体
[目的]主要面向广受关注的金融机构信用评分问题,利用机器学习方法,研究基于多种支持向量机的多层级联式分类器方法在其中的应用.[方法]所提分类器是一种混合模型,结合遗传算法、机器学习和集成学习思想,框架包含支持向量机分类器、归一化方法、特征提取、参数优化、10折交叉验证等多种技术.重点在层数加深策略、属性复用方法、适应度函数多样化等方面做了深入细致的方法研究和实验论证.[结果]实验发现,经过遗传算法优化的支持向量机在应用于Australian Credit Approval数据集时,预测准确率可以随着层数的
全校范围积极行为支持是针对校内全体学生进行初级、次级、三级的行为预防措施,通过全校合作建立正向积极的行为处理机制,以有效处理学生问题行为的一种管理模式.目前该模式广泛应用于美国的中小学,且在发展实践过程中积累了许多宝贵的经验,有着比较完善的管理体系和实施机制.其实践经验包括组建高效合作的执行团队、建立全校积极行为支持系统、做好全校范围积极行为支持准备工作、明确全校范围积极行为支持执行标准、对教师进行定期培训,以及保障家长参与权等方面.
有清一代,词学兴盛,学者们对于词集的编纂、刊刻、考证等工作日益重视,尤其是乾嘉时期考据之风盛行,词集笺注取得了突出成就.《山中白云词疏证》就是江昱以经学考据之法疏证南宋词人张炎词集的成果.全书共有疏证和按语近二百条,引书一百三十多种.江昱将大量精力用于对人名、地名和时间的考证,补充了相关的唱和词作及张炎的佚词,并且评点作者风格,发掘文本寓意.《山中白云词疏证》推进了张炎在清代词坛的经典化进程,江昱将经学与词集笺注相结合的疏证方法也为后世所采用,有效提升了词体的地位.
随着移动互联网技术的不断发展,传统媒体与新媒体的融合发展也面临着新的挑战和机遇.全媒体时代,媒体融合进入快速成长阶段,本文将基于笔者自身的实际经验,分析全媒体时代城市广电媒体发展所面临的困境,思考城市广电媒体与新媒体的融合发展问题及路径对策.
在“中文+”汉语多元化教学背景下,中医汉语被归属于“专门用途汉语”,主要教学目的是在于培养留学生在中医药学科领域和中医药临床实践场景的汉语能力.其中,中医汉语的词汇研究、教学是实现该目标的基础和关键.与通用汉语相比,中医汉语词汇的系统性和专业性更为突出.以《中医大辞典》和中医药知识服务平台为基础,结合中医语言的实际使用场景和词汇句法分析,重点构建中医汉语词汇的语义层级系统和框架,以提高留学生中医汉语词汇学习效率;同时,对中医专业留学生在词汇学习中所存在的问题进行探讨,并提出针对性教学策略.