基于半监督BTM模型的短文本分类方法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:zhangxueyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web3.0下电子商务的发展和社交网络平台的增加,使得网络上出现了多种短文本形式的信息,如微博、商品评论、新闻标题等。对于短文本的分类研究,常常使用概率主题模型作为短文本主题挖掘模型。短文本自身包含的数据信息量少、字数少,造成了概率主题模型对于短文本数据的处理存在特征稀疏的问题,因此如何对这些短文本进行有效分类是当前研究热点之一。首先,由于科技论文标题的文本仅有十几个词汇,使用常见的分词处理不能达到很好的分词效果,导致最后的分类结果不够好。对于这个问题,整理一些常用的专有词组组合,设置了人工智能领域词典,在分词时加入领域词典,以期提高分类效果。其次,针对BTM模型在文本分类时识别文档类别不清晰的问题。在BTM模型的基础上加入半监督学习的思想,提出了一种半监督BTM模型。由于需要标签文本的加入,因此设置各类种子词2~4个,并且利用Word2Vec和TF-IDF相融合的方式进行种子词扩展,得到标签词,将标签词作为标签文本加入到模型输入上,构建半监督BTM模型。再次,根据BTM模型中词对提取是随机两两组合的方式,大量无效词对的组合,导致迭代时间过长的特点,提出了一种改进词对提取算法。该算法是基于语义分析的频繁项集挖掘算法,利用WordNet词典建立同义词词典,再根据只提取二项频繁项集的实际情况,构建频繁项集挖掘算法,对词对进行提取。最后,通过对比实验,验证领域词典加入、SSBTM模型以及改进词对提取的SSBTM模型的有效性。前两个实验验证领域词典加入和SSBTM模型能提高分类精度,第三个实验验证改进词对提取的SSBTM模型可以加快运行速度。
其他文献
乡村振兴战略是新时代党和国家的重大战略,是从现在到本世纪中叶我国实现现代化之前农业农村工作的总抓手。实施乡村振兴战略的突破口就是要设计和实施一批农业农村重大项目和重点工程,重大项目和重点工程的必须有资金支持,因此如何为重大项目投融资是一个关键问题。一直以来,我国对涉农重大项目的投入主要依靠政府财政资金投入,在当前向市场成为资源配置的决定方式的市场经济转轨的过程中,仅仅依靠政府的财政投入是不能满足乡
随着互联网技术的不断革新和发展,Web服务推荐与选取已经逐渐成为工业界和学术界共同关注的重要研究内容,服务质量(Quality of Service,简称QoS)是影响Web服务推荐的关键性因素。然而,目前已有的基于QoS的Web服务推荐理论方法和Web服务推荐应用研究方面都存在着一定的问题。为了解决这些存在的问题,完成了如下工作内容。首先,分析总结了基于用户的协同过滤算法中不同相似度计算方法其各
家庭,是以婚姻、血缘或收养关系形成的基本单位。家庭,是构成社会的基本单位,家庭的稳定直接关系到社会的稳定,其变化对于社会整体的变化都有着巨大的影响。在珠三角地区,地租经济影响下,“珠三角地区”二十余年的经济增长具有基础性的推动作用。主要表现在市场经济环境下,土地要素市场的发育和土地产权制度的确立。由于土地制度的改革以及巨大的地利为地区人们带来巨大的利益,在这样的背景下,在市场经济的发展下,其他地区
本文将WRFV3.9版本中的16种云微物理参数化方案分为单参和双参两组,分别对2016年6月30日-7月4日江淮流域一次强降水过程进行了敏感性试验,比较不同的单双参云微物理方案对此次强降水过程中降水和云的模拟效果,先利用中国自动站与CMORPH降水产品融合的逐小时降水数据对各组模拟降水进行评估,在此基础上利用FY-2G和CALIPSIO云产品数据分别评估了不同单双参方案对降水过程中总云量、云垂直结
利用WRF模式及高分辨率再分析资料,对2016年梅雨期内连续降水过程的三段暴雨进行了诊断分析,利用高分辨模式模拟结果分析了实际梅雨期暴雨的动能谱特征及动能收支情况;通过设
分布式电源在并入配电网过程中使用的传统逆变器控制缺乏惯量和阻尼,系统受到扰动时无法通过自我调节的方式回到稳态,对系统的稳定性带来极大挑战。虚拟同步机技术通过调节控
目前,随着科技的飞速发展,机械制造行业越来越向精细加工方向迈进,高精度测量在其中是非常必要的。同时,在航空航天、国防等领域,对设备的要求非常严格,保证测量系统的准确性、稳定性和适应性也是很重要的。本文面向测量任务中对传感器高精度测量的要求,基于可重构理论对并联六维力传感器的测量算法进行了研究。从刚度重构算法、维度重构算法、容错重构算法和传感器的静态标定实验等方面展开研究,对并联六维力传感器的测量算
虹膜识别因其具备唯一性,稳定性,防卫性等天然优势,被广泛应用在银行门禁、军队安保、边境安检、身份验证、煤矿考勤等领域,是生物识别领域最有前景的应用之一。目前,在实验
视觉伺服(也称为视觉控制)是指利用视觉传感器获取图像信息,然后来控制移动机器人的运动使其到达期望位置/姿态或者跟踪上特定轨迹。该项技术将计算机视觉算法与机器人运动控
在线口碑是用户在消费某产品或服务后发表在互联网上关于此产品和服务的评论。由于在线口碑具有可信度高、针对性项强、传播成本小等特点,在促进消费者购买方面,比企业广告投入有较强优势。新浪微博是国内最大的社交网络服务商,已成为最受欢迎的信息传播媒体,为在线口碑的传播创造了良好平台。为了深入了解口碑在新浪微博中扩散拓扑网络结构,本文爬取新浪微博平台上2018口碑最佳的电影“我不是药神”的热门口碑传播数据,并