改进的文本主题表示及学习方法

来源 :内蒙古师范大学 | 被引量 : 0次 | 上传用户:cwhgh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅猛发展,网络上涌现出大量的文本数据。为了对文本数据进行更精确、更深层的主题理解和语义分析,本文利用数据挖掘方法和深度学习方法改进了现有主题模型,得到更明确的主题表达形式和更丰富的主题语义信息,该方法对文本主题的表示及学习具有重要的意义。本文围绕改进文本主题表示和主题学习方法进行了深入研究,具体工作如下:1.针对现有主题模型在表示文本主题方面很难揭示词之间的语义和语法相关关系,主题可解释性较差等问题,提出了一种融合先验元数据和关联规则的半监督主题表示方法。通过在传统关联规则挖掘算法中加入词在每个主题中的权重值的方法,得到加权关联规则算法,在主题模型的基础上挖掘出词之间的关联关系,使用三元组(词项1,关系,词项2)形式表达主题语义,不仅减少了冗余主题的数量,还增加了词之间的语义关系信息,最终得到了语义更细化、形式更明确的主题表示。实验结果表明,与其它文本主题语义表示方法相比,本文所提方法增加了词之间的语义和语法相关关系,信息更丰富,从而提升了主题可解释性。2.针对现有主题模型在学习文本主题方面存在主题语义准确性较差、颗粒度较粗,并且很难从语义层面上计算主题相似度等问题,构建了一种融合深度学习的Topic2Vec模型。将主题学习和分布式词向量的神经网络学习相结合,在学习分布式词向量表示的同时,学习主题的分布式向量表示,不仅提升了主题语义学习的准确性,还细化了主题语义学习的颗粒度,并且更容易从语义层面上计算主题相似度。实验结果表明,本文所提方法在主题抽取准确性、颗粒度、主题区分度和主题语义相似度计算等方面均优于传统方法,充分验证了所提方法的有效性。
其他文献
目的:分析心脏性猝死的危险因素,探讨预测方法。方法:整理我院2010年8月至2018年8月期间抢救的177例猝死患者的临床资料,按照其猝死原因,将患者分别纳入心脏性猝死组(n=109)
以纳米碳酸钙作为改性聚硫橡胶的补强剂,考察了补强剂含量对密封胶性能的影响,结果表明补强剂用量为20%左右时,所得密封胶具有优良的综合使用性能。
<正>"秸秆房"总体的户型设计农户能够接受,并且符合当地人的居住习惯,堂屋和主卧设在正门显眼的位置,设计还考虑到了侧门进车的需要,比较实用。农民对此设计的公共空间的布局
按三裂蛇葡萄的原植物文献描述形态,在野外不同地区不同生长环境下观察其生长情况并拍摄了原植物的图片,按文献记载描述的植物形态分别进行比较研究,便于正确把握该植物的生态及
近年来,人民币国际化程度不断加深。2013年12月6日人民币兑美元中间价报6.1232,较上日上涨78基点。至此,以中间价计算的人民币升值幅度达到2.65%,2005年汇改以来累计升值幅度则达到3
与一般的商品买卖相比,房屋的交付更为复杂,因为它涉及到两方面的关系,一方面是房屋买卖合同的履行,另一方面是物业管理合同的建立。示范合同第十一条专门对房屋的交接做了
资本市场根本上是法治市场。法强,则市兴。此次《证券法》的修改顺应了时代发展,以市场化、法制化和国际化为原则,兼顾立法的适应性和前瞻性,体现了证券市场发展的趋势和特征。对
报纸
本文介绍了一套运动康复与健康专业教学计划和实习计划,以期提高学生的实践能力。
近年来高密度电法被广泛应用于重大水利工程场地的工程地质调查、坝基及桥墩选址、采空区及地裂缝探测等诸多工程勘察领域。本文利用高密度电法对某水库大坝坝址区的覆盖层厚
数形结合思想是一种重要的数学思想,利用数彤结合思想解题,常可收到化难为易、化繁为简、化隐为显的功效,但在利用“以形助数”解决问题时,须注意图形的等价性、完整性、准确性和