融合主题模型的文本语义表示方法研究

来源 :山东工商学院 | 被引量 : 0次 | 上传用户:honeymelonk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本表示作为文本挖掘的前提将直接影响分类、聚类、检索和自动摘要等文本挖掘的结果和效率。目前文本表示主要存在的问题包括“维数灾难”、“稀疏性”和“语义丢失”等,其中文本的语义表示是目前学术界公认的研究难点。针对文本语义表示困难问题,融合有监督学习、迁移学习、主题模型和词嵌入等方法,展开深入研究,重点包括以下内容:(1)提出了融合有监督主题模型(SLDA)的语义词嵌入表示方法wt2svec模型。该方法利用SLDA有监督主题模型获取单词的全局语义词向量wiz,利用Word2vec获取单词的上下文词向量wic,二者共同构成语义嵌入词向量wis。(2)提出了融合迁移主题模型(Tr-SLDA)的语义词嵌入表示方法Tr-wt2svec模型。该方法利用Tr-SLDA迁移主题模型,依据不同领域的类别进行隐含主题采用,由于能够识别交叉领域共享主题的隐含语义。因此基于目标领域类别与潜在共享主题分布,作为全局语义信息,嵌入生成全局语义词向量,结合Word2vec生成的局部语义词向量,生成Tr-wt2svec词向量。(3)在上述方法的基础上,提出了文档语义向量表示doc2svec和Tr-doc2svec。利用wt2svec模型生成所有词的wt2svec词向量,文档向量由所有词的词向量构成。利用Tr-wt2svec模型训练生成所有词的词向量Tr-wt2svec,然后构成文档语义向量Tr-doc2svec。基于doc2svec文本语义表示,能够提高有监督文本分类的性能,基于Tr-doc2svec文本语义表示方法能够提高交叉领域的文本分类性能。(4)使用Python语言实现一个验证平台,对上述方法在多种数据集上进行了实验验证。从单词的语义相似度和文本分类结果两方面进行实验比较,大量的对比实验结果表明所提出的wt2svec语义嵌入模型、Tr-wt2svec语义嵌入模型,以及基于这两种模型的文本语义表示方法的有效性。
其他文献
近年以来,我国儿童权益受到侵害的事件不断发生,而这些儿童往往是长期处于困境之中,他们大多存在着自卑、孤僻、敏感等心理问题,他们的效能感、乐观感和归属感水平基本上低于正常儿童,抗逆力存在问题,水平较低。若处于困境的中的儿童得不到及时的介入和帮扶,部分情况更为严重的儿童甚至会出现心理异常和违法行为,不仅影响其健康成长,而且阻碍其自身发展和社会融合,不利于社会和谐发展。因此,关注怎样提高困境儿童抗逆力问
2019年2月27日,最高人民法院发布《人民法院第五个五年改革纲要(2019-2023)》,明确提出“研究推动建立个人破产制度”1。2019年6月22日,国家发改委、最高法院、司法部、中国人民银行等八个部门发布了《加快完善市场主体退出制度改革方案》,再次提出建立自然人破产制度。2019年8月13日,温州中院公布了《关于个人债务集中清理的实施意见(试行)》,开启了国内自然人破产制度的先河,深圳市已开
开设赌场罪相关司法解释中对本罪一些具体的共犯行为有所规定,本文结合这些规定,对开设赌场共同犯罪的目的、法律和实践中常见的共犯行为、正犯与共犯的区分以及帮助行为与他罪的竞合进行探讨。第一章主要探讨“以营利为目的”是否为开设赌场罪不成文的构成要件要素。根据相关司法解释规定,构成开设赌场罪共犯,大多要求共同犯罪人获取财物或财产性利益。例如,受雇参与赌场经营管理并分成、组织客源要收取回扣、手续费的和领取高
目前,国家非常重视农牧民培训工作,投入大量的经费,也扩大培训覆盖范围。开展牧民培训提高农牧民的科技素养、文化水平,增加农牧民收入,提高新农村的建设水平。农牧民在培训过程掌握新的农牧业生产技术,实现了转移就业。但是,因各方面因素影响,导致农牧民培训工作混乱,降低培训效果。通过分析加强农牧民科技培训的必要性,整体把握农牧民科技培训现状,提出强化新型农牧民科技培训的对策。
随着科学技术的发展,发展中国家传统知识被窃取获利的现象层出不穷,保护传统知识刻不容缓。国内外学者对传统知识保护的研究成果颇多,就传统知识的保护方面而言,知识产权保护被认为是不可或缺的,在初始研究阶段,学者对传统知识能否适用知识产权进行保护产生过激烈的讨论。目前,对传统知识采取知识产权保护在学术界已经达成共识。但是将传统知识纳入知识产权保护范畴仍存在困难,毕竟知识产权保护的客体与传统知识存在较大的区
化学是一门基础自然科学,主要是在原子、分子水平上研究物质的组成、结构、性质和变化规律。三重表征思维是化学学科特有的思维方式,在初中生学习化学的启蒙阶段,培养学生化学学科思维,提高三重表征能力,有助于深化学生对知识的理解,养成科学思维方式,学会多重视角看待和解决问题。国内三重表征教学研究大多集中在高中,且研究内容通常只涉及个别单元主题,全面系统的阶段性研究较为缺乏。因此,基于三重表征理论在初中教学实
在批判资本主义制度与思想体系的过程中,马克思与恩格斯提出了社会主义脉络下的平等观念,认为平等具有社会历史性与阶级性的特征,与绝对平均主义相区别,也不同于资本主义“物化”的平等观。中国在2020年消除绝对贫困、全面建成小康社会的目标任务,正蕴含和体现了马克思主义平等观的价值思想,是实现社会主义平等与共同富裕的重要一步。尽管时代背景发生变化,但马克思主义平等观在理论与实践维度上仍具有双重意义,不仅为脱
从新课程改革开始,国家就提倡培养学生科学素养为基本要求,科学素养要求学生不仅要了解科学知识,了解科学的研究过程和方法,更要了解科学技术对社会对个人产生的影响;对于化学来说,科学知识技术对个人的影响就是化学观念,观念为本的教学重视学科思想的形成,重视知识对人所产生的影响,思想是行动的先导,学科思想让学习者成为一个富有想象力,创造力的人。论文选择“促进初中化学基本观念的单元设计实践研究--以微粒观为例
核心素养是时代发展的必然产物,世界各国教育改革都强调要着重培养学生的核心素养。化学是自然科学领域的一门重要基础学科,化学学科核心素养是核心素养的重要组成部分,发展学科核心素养要落实到课堂教学中。为更好发展学生的学科核心素养,众多学者对不同的教学模式进行积极探索,近十年来,论证式教学作为探究式教学的一种,受到国内学者的广泛关注,成为教育研究热点之一。当前的探究式教学形式化,忽视对探究过程及结果的解释
当前,数据已成为数字经济中最重要的资源与生产要素,是驱动新时代经济发展的核动力。数据交易最重要的价值不在于概念,而是数据在数据交易中体现的资源属性,促进数据交易产生经济实效!如何提高数据交易效率实现数据价值,在数据交易中实现数字经济发展与数据保护之间、数据交易活动中多元利益主体之间的平衡,为数字经济健康持续发展营造良好的环境?经济法学应当从此前促进数字经济发展的法治保障研究,开始关注数据交易利益平