共词网络LDA模型的中文文本主题分析:以交通法学文献(2000-2016)为例

来源 :现代图书情报技术 | 被引量 : 0次 | 上传用户:zl52182
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】通过结合传统LDA模型的概率主题抽取方法和共词网络分析发现文献词汇间的联系结构的两者优势,降低由少量文献产生的高频词汇的干扰,提高主题凝聚性。【方法】在交通法学文献摘要文本主题分析中,加入文献的关键词作为分词复合词典,提高语义识别度;提出CA-LDA模型(Latent Dirichlet Allocation Model with Co-word Analysis),在传统LDA模型的基础上加入共词网络分析,以共词网络拓扑结构参数作为权重控制词汇主题分配(采用介数中心度),优先提取同时具有高共现性(中介性)和高频率的词汇。【结果】CA-LDA模型可以得到多篇文献同时共现的高频词汇,这样产生的重点词汇表对主题分析更有意义。该算法的结果不仅仅反映词频概率,同时也能从词汇关联上发现枢纽词汇,更深入理解该领域的研究热点。【局限】CA-LDA模型主题数目K的取值采用混淆度标准交叉验证获得,如果在实际分析中K值太大,不利于文献主题的分类整理,未来研究需要对该结果进一步处理来凝聚主题。【结论】本文将该模型应用于交通法学研究领域热点主题分析,在处理大规模文献数据中取得较好效果。相关研究可以拓展应用于各种领域的大规模文献数据自动化处理中。 【Objective】 By combining traditional LDA model with probabilistic topic extraction method and common word network analysis, the advantages of the relational structure between documents and words are found, which can reduce the interference of high-frequency vocabulary generated by a few documents and improve the cohesion of topic. 【Method】 In the thematic analysis of traffic law literature summary texts, the keywords of the documents were added as the word segmentation compound dictionary to improve the semantic recognition degree. The Latent Dirichlet Allocation Model with Co-word Analysis (CA-LDA) was proposed. In the traditional LDA model Based on the analysis of co-word network, the co-word network topology parameters are used as the topic weight control vocabulary distribution (using the mediance of mediation), and the words with high co-occurrence (high) and medium frequency are preferentially extracted. 【Result】 The CA-LDA model can obtain high-frequency words that coexist in many articles at the same time. The key vocabulary thus generated is more meaningful to the topic analysis. The result of this algorithm not only reflects the probability of word frequency, but also can discover the key words from the word association and further understand the research hotspot in this field. [Limitations] The value of the subject number K in the CA-LDA model is obtained by confusion standard cross-validation. If the K value is too large in the actual analysis, it is not conducive to the classification and sorting of the subject matter of the literature. Future research needs further processing to condense the subject . 【Conclusion】 This paper applies the model to hot topic analysis in the field of traffic jurisprudence and achieves good results in dealing with large-scale literature data. Related research can expand the automation of large-scale literature data used in various fields.
其他文献
在电影《北京遇上西雅图之不二情书》中,导演薛晓路将空间在叙事中提到了非常重要的地位。以澳门、美国、英国三个空间来构架故事,对应形成了三重叙事空间。这三重叙事空间,
课程知识的运作是教育领域的重要现象和课程知识发挥教育作用的关键。课程知识在运作中需要经历产生、表述、理解和转化的持续过程。要实现课程知识的有效运作,需要突破四个
以烤烟品种K326为材料,研究了盆栽条件下氮素用量对烟叶的叶绿素含量、硝酸还原酶(NR)、超氧化物歧化酶(SOD)、过氧化氢酶(CAT)、多酚氧化酶(PPO)等酶活性和丙二醛(MDA)含量
为了提高大型矿山卡车及工程机械保养效率,缩短卡车在保养过程中的维修时间,根据伊敏河露天煤矿卡车保养情况,在卡车保养车间设计了一套油脂集中润滑加注系统。研究了压缩机
为了研究链条抽油机链板的疲劳寿命,本文以LCJ12-5-14型链条抽油机链板为研究对象,利用ANSYS Workbench对链板进行了静强度分析,在此基础上分别采用理论方法和数值模拟方法对链
随着国民经济发展水平的不断提高,交通运输网络也在逐渐完善,为人们的生活提供了极大的便利。当下交通执法存在执法行为不规范、执法力度不强、自由裁量权幅过大、执法手段相
家庭网络共享是现代家庭网络组建的重要部分,本文重点论述一下家庭网络共享的方式及配置方法。
杨梅为杨梅科杨梅属(Myrica rubra s.at)多年生绿果树,学名Myrica rubra Bieb.et Zucc,是原产中国亚热带果树之一,其分布大致在北纬18°~33°之间,经济栽培主要集中在东南沿
目的是探讨以问题为导向的教学方法(problem-based learning,PBL)、团队导向的教学方法(team-based learning,TBL)和手术模拟器(Simulator)联合教学模式在泌尿外科住院医师规