基于知识图谱的短文本分类研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:lgwfzc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,短文本以其精简高效、便于传播的特点,在网络新闻、即时通信、社交媒体等领域得到广泛应用,随之产生了海量的短文本数据,如何从海量短文本数据中快速挖掘有价值的隐含信息,逐渐成为热点研究问题。但是短文本具有篇幅短小、包含的有效信息少、在网络中传播时口语化严重的特点,传统的文本分类方法无法得到理想的分类结果。本文针对短文本分类中特征稀疏性和不规范性问题进行研究,主要的工作内容和创新点如下:(1)总结归纳了短文本分类的相关方法和研究现状。本文首先介绍了短文本分类的研究背景和意义,定义了短文本分类中的特征稀疏和不规范性问题,然后重点介绍了以上问题的现有解决方法,对比了各个方法的优缺点,并归纳总结了各个方法近年的国内外研究现状。(2)提出了一种基于知识图谱的短文本特征拓展方法。该方法针对短文本特征稀疏问题,利用知识图谱获取高质量的知识,作为特征拓展项丰富短文本的上下文特征。首先,利用TextRank提取短文本中权重较高的词语作为关键词,然后,将关键词链接到知识图谱中的实体,利用关键词与候选实体上下文相似度进行实体消歧,得到目标实体,最后将目标实体及其摘要描述信息作为关键词的特征拓展项,拓展短文本的特征。(3)提出了一种融合知识图谱与深层语义的短文本分类模型BERT-KG。该模型针对短文本的不规范性问题,改进了BERT预训练模型,得到BERT-KG模型,使其可以融合短文本的背景知识,利用BERT-KG模型获取包含了背景知识的短文本的深层语义,输出对应的短文本表示向量,用于短文本分类任务,提高了分类结果的准确性。(4)设计并实现了一个基于UGC平台的短文本敏感内容分类系统。将本文提出的方法和模型应用到实际项目课题中,设计并实现了基于UGC平台的短文本分类敏感内容系统,该系统利用项目课题提供的原始数据生成了训练数据集,训练得到短文本敏感内容分类模型,并设计实现了分类结果可视化模块,最后为了方便外部调用和系统集成,进一步设计并实现了基于本文方法的短文本表示向量输出接口和短文本敏感内容分类结果输出接口。
其他文献
目的 评价三维适形后程加速超分割放射治疗食管癌的疗效及放疗反应、并发症。方法 2002年2月至2004年5月,71例食管鳞癌随机分成两组,三维适形后程加速超分割组36例,食管病变上下
目的:研究妇科肿瘤患者血浆纤维蛋白原水平与功能的变化及其临床意义。方法:用蕲蛇毒水解纤维蛋白原,采用机算机自动检测系统测定。结果:65例妇科恶性肿瘤患者血浆纤维蛋白单体
同煤集团同忻矿牢固树立“越是困难越要抓安全,抓不好安全就更困难”的理念,结合当前企业安全形势,通过强宣传、抓三违、查隐患、讲案例、搞活动“五位一体”形式,密织安全防护网
时光荏苒,日月更替,弹指一挥间.2007年已过半。当半场的哨声吹响,我们忍不住回望:过去的半年有何成败得失?每个行业都是一个江湖,胜者为王、败者为寇。而搏击其中的各个品牌由于
现代音箱一直在家电领域表现非常强劲,据称在2006年全国各地的沃尔玛、国美等卖场的销量中稳居第一。2007年,现代全面发力IT渠道,推出了众多具有高性价比的产品。近日,现代发布了
煤炭企业是劳动密集型产业.从业人员多.化解过剩产能既直接关系到企业职工的切身利益.也关系到企业安全生产和社会稳定大局。工会组织是党联系职工群众的桥梁纽带.在企业推进化解
目的:评价^18F-FDGPET对老年人大肠癌分期、术后再分期的临床价值。方法:36例经肠镜检查初步诊断为结、直肠癌的老年患者行全身^18F-FDGPET检查,并在2周内完成手术及病理诊断。
1月下旬,“手机漫游费”听证会召开,讨论“降低移动电话国内漫游通话费上限标准方案”。
【正】近年来,随着煤炭企业改革发展的不断深入,煤炭资源整合和大公司、大集团的建立,企业员工思想活动的独立性、选择性、多变性和差异性进一步凸显,价值观念多元化、利益分
在严峻的经济形势下,没有安全生产。煤矿企业就失去了应对困难和转型发展的基础。华亭煤业集团有限责任公司山寨煤矿把“三基”建设作为控制安全风险、提高安全保障能力、建设