基于主题模型的文本分类及主题词网络构建研究

来源 :中国民航大学 | 被引量 : 0次 | 上传用户:ad5260
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的迅猛发展,非结构化文本的数量呈现指数级的增长。怎样快速准确地从这些海量文本中获得人们需要的有用信息,成为当前人们迫切需要解决的难题。文本分类算法已在文本自动整理、数字图书馆服务和检索结果的组织等方面获得了比较广泛的应用。但传统的分类算法忽略了文本中词与词之间的语义相关性,因此本论文对传统分类算法进行了相应的研究。另外,受启发于目前迅速发展的复杂网络理论,在文本主题分类之后,对其中的主题词进行复杂网络的构建研究,得到文本中主题词语之间的相关性,使人们在获取信息时达到事半功倍的效果。针对常用非结构化文本分类算法在面对大规模和维度较高文本分类时存在的缺点和不足,提出了新的以LDA模型为基础的分类方法。利用LDA挖掘得到文本中潜在的主题分布以及不同潜在主题内词语的分布,利用KNN分类算法分别计算文本在“文本-主题”特征空间和“主题-词语”特征空间的相似度,接着对其线性加权,进而对语料库中的这些非结构化文本主题分类。通过中英文两种文本集上面的实验证明,本文的算法能够取得很好的分类效果。其次,本文通过利用“窗口”的概念,对语料库中的多标签文本进行重新表述,利用Labeled LDA主题模型对新的多标签文本进行潜在主题建模分析,得到新的“主题-词语”分布,便得到了在文本潜在主题中两个词语同时出现的概率。根据“主题-词语”中的词语分布,以这些主题词为网络节点,主题词之间的关系度为边,构建文本主题词网络,并对该网络进行分析,以达到更加深入理解这些非结构化文本潜在主题的目的。
其他文献
<正> 上消化道出血由于诊断上的困难和急症手术死亡率高,一直被认为是消化道疾病中的一个棘手的问题。近年来纤维内窥镜的广泛应用和选择性血管造影及血管内灌注药物的开展,
学校教育的首要任务是德育工作,教学生怎样做人、如何做事。但现实的学校德育工作假、大、空,不接地气。为了把学校德育工作落到实处,那么学校必须用真心、出真招,真正体现学
学科热点调查可以帮助研究人员更好地选择自己的研究方向,而在结构工程领域对专业热门关键词的调查研究还比较少。该文在SCI数据库中对几本较有影响的学术期刊进行检索,选出
马克思毕生致力于寻求无产阶级以及全人类解放就是为实现人的真正自由,其中,社会主义市场经济中人的自由发展是实现人类解放的一个重要维度。社会主义与市场经济的结合将创造市场经济发展的新阶段。而在这一过程中,应该如何正确认识市场经济影响人的自由发展的历史条件,如何面对和把握社会主义市场经济给人的发展带来的机遇和挑战,成为马克思主义现实问题研究的一个重要课题。准确掌握社会主义市场经济的特点、把握好社会主义市
随着GPS、GLONASS、BDS、Galileo四大全球卫星导航系统,以及QZSS、IRNSS等区域卫星导航系统的发展与建设,卫星导航定位正在进入多GNSS时代。多系统组合可增加可用卫星数,改善
随着铜在工业过程中的广泛使用,大量含铜废水的直接排放对环境造成的破坏也日益加剧。工业上常用吸附法对含铜废水进行处理,但现有吸附材料的再生手段操作复杂、成本高昂并且
设计了一个科研参与型的大学化学仪器分析实验。本实验应用MPT原子发射光谱仪对米粉中的金属元素(Ca,Cu,Fe,Mn)进行了检测分析。对影响金属元素检测性能的实验条件,如微波等
未来企业的竞争,就是人才的竞争。从国内外人力资源管理的发展趋势来看,组织的竞争优势越来越取决于组织内部员工的素质与学习能力,人力资源管理部门的职能正由传统的人事管理向具有战略意义的人力资源开发与管理的方向转变,但是国内很多行业的人才储备以及从业人员的整体素养都不能满足其本行业的发展需求。2017年国家出台了一系列去过剩产业相关政策,2018年国家能源工作会议上指出去产能聚焦煤炭和煤电,深入推进供给