基于分词技术的文本主题关键词处理系统设计与实现

来源 :中国科学院大学(工程管理与信息技术学院) | 被引量 : 7次 | 上传用户:xinxing1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,网络信息量暴增,文本信息得到快速增长,信息成几何级增长逐步成为当今社会的主要特征。文本关键词作为文章的内容的简短摘要,文章内容可以帮助快速了解并保存浏览的时间。同时,在信息检索的话,自动摘要,文本聚类/分类也起着很大的作用。因此,文本关键字提取技术将成为解决问题的关键技术。本论文以中国科学院教育云项目为背景,为了更好地实现教育领域的个性化推荐系统,需要自动化的构建学科分类树,本程序正式基于这一需求进行开发的。通过前期对大量的调研工作,发现,目前能够提取关键词的模型主要有TF*IDF、Unigram Model、PLSA等,但效果最好的模型是LDA(Latent Dirichlet Allocation),本文通过实现LDA算法,试图对文本进行关键词提取。但发现,对于中文,提取结果的准确性很大程度上依赖于中文分词的结果,现有的分词算法对未登录词都未能很好识别,本程序所实现的分词算法在很大程度上解决了这一问题,使得关键词的提取能够取得比较高的准确率。具体工作如下:(1)中文分词器的实现:主要以逆向最大匹配算法为基础,对匹配算法的结果进行了进一步处理,提高了未登录词的识别率,主要包括:日期处理、数字处理、英文处理、姓名处理。(2)文本预处理:这部分主要为了LDA算法的实现做基础,主要工作包括停用词去除、噪声去除、词项-索引逆向等。(3)LDA算法的实现:这部分实现了LDA算法部分,主要是用Gibbs Sampling方法进行参数估计。(4)程序整体整合:这部分将文本输入、中文分词、文本预处理、LDA算法、结果展现做了整合。经过测试可以发现,通过在分词器中增加未登录词识别模块和优化LDA算法,可以很好的提高关键词提取的准确率,使关键词更好的符合原文中心思想。
其他文献
在共振磁耦合无线能量传输(MCR-WPT)系统中,传输损耗主要有欧姆损耗和辐射损耗.该系统主要利用近场进行能量传输,辐射损耗相比于欧姆损耗可以忽略不计.欧姆损耗包含了由于集
活血化瘀法在过敏紫癜性肾炎治疗中的辩证运用上海市青浦县中医医院201700费德芳过敏紫癜性肾炎是继发于全身性疾患(过敏性紫癜)的肾脏损害。临床以血尿为主,同时可伴有蛋白尿、浮肿、
随着互联网的迅猛发展和移动互联网的技术的兴起,中国网民的数量和网站数量都在急剧的增长,网络的社会影响在日趋扩大。门户网站、社交网络、微博、微信每时每刻在收集和发布
平板电脑日益普及,越来越多的企业将选用平板电脑作为办公设备。2012年10月26号,Windows8操作系统正式推出,它有两个版本:一种是X86桌面版、一种是专门用于平板电脑的ARM版。企业
教育公平与教育效率是相关范畴而不是相对范畴,二者是一种弱相关的关系,其中任何一方的提高并不必然导致另一方的提高或者受到抑制。教育公平与效率是衡量教育的两个重要尺度
随着企业信息化建设的不断发展,企业建成的各类业务系统越来越多,信息孤岛现象也日益严重。这些异构的企业应用系统在信息交互和信息共享时非常困难,甚至因为信息的不一致造
随着信息技术的发展、企业信息化的普及、电子政务的优化,使得企事业单位都迈入了互联网技术的时代快车,充分利用信息技术、计算机技术、网络技术来提升单位的生产、工作效率
当前影响并冲击我国社会主流意识形态的西方错误思潮和理论主要有新自由主义论、中国威胁论和消费主义论等,其中新自由主义意识形态是冲击我国意识形态建设的西方主流意识形
在社会体制改革中有一个核心问题,就是正确认识并处理好政府和社会的关系。改革进入深水区,深入探讨政府与社会的关系,有着重大的理论和实践意义。在不同的社会形态中,因为社
<正> 1970年以来临床上治疗子宫颈癌所采用的鲜天南星系产于河南许昌及安徽亳县。后经我院药学系中草药教研室等有关单位在原产地调查,确定是掌叶半夏(Pinellia peedatisecta