论文部分内容阅读
随着互联网技术的快速发展,短文本以其精简高效、便于传播的特点,在网络新闻、即时通信、社交媒体等领域得到广泛应用,随之产生了海量的短文本数据,如何从海量短文本数据中快速挖掘有价值的隐含信息,逐渐成为热点研究问题。但是短文本具有篇幅短小、包含的有效信息少、在网络中传播时口语化严重的特点,传统的文本分类方法无法得到理想的分类结果。本文针对短文本分类中特征稀疏性和不规范性问题进行研究,主要的工作内容和创新点如下:(1)总结归纳了短文本分类的相关方法和研究现状。本文首先介绍了短文本分类的研究背景和意义,定义了短文本分类中的特征稀疏和不规范性问题,然后重点介绍了以上问题的现有解决方法,对比了各个方法的优缺点,并归纳总结了各个方法近年的国内外研究现状。(2)提出了一种基于知识图谱的短文本特征拓展方法。该方法针对短文本特征稀疏问题,利用知识图谱获取高质量的知识,作为特征拓展项丰富短文本的上下文特征。首先,利用TextRank提取短文本中权重较高的词语作为关键词,然后,将关键词链接到知识图谱中的实体,利用关键词与候选实体上下文相似度进行实体消歧,得到目标实体,最后将目标实体及其摘要描述信息作为关键词的特征拓展项,拓展短文本的特征。(3)提出了一种融合知识图谱与深层语义的短文本分类模型BERT-KG。该模型针对短文本的不规范性问题,改进了BERT预训练模型,得到BERT-KG模型,使其可以融合短文本的背景知识,利用BERT-KG模型获取包含了背景知识的短文本的深层语义,输出对应的短文本表示向量,用于短文本分类任务,提高了分类结果的准确性。(4)设计并实现了一个基于UGC平台的短文本敏感内容分类系统。将本文提出的方法和模型应用到实际项目课题中,设计并实现了基于UGC平台的短文本分类敏感内容系统,该系统利用项目课题提供的原始数据生成了训练数据集,训练得到短文本敏感内容分类模型,并设计实现了分类结果可视化模块,最后为了方便外部调用和系统集成,进一步设计并实现了基于本文方法的短文本表示向量输出接口和短文本敏感内容分类结果输出接口。