面向中文微博的关键词提取技术研究

被引量 : 0次 | 上传用户:jzg8888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
摘要:面对中文微博文本书写随意,信息不完整,噪声大,怎么在数量如此巨大又杂乱无序的微博信息中提取关键信息成为中文自然语言处理的重点。关键词自动提取是文本挖掘领域的一个分支,也是文本检索、文本比较、文本分类和聚类等文本内容处理研究的基础性工作。本文研究的主要内容就是如何从中文微博文本数据提取出能说明微博内容的主题词,即关键词。传统的人工方法在数据量如此巨大的微博信息中是不适用的。因此本文在将概率主题模型LDA应用到中文关键词提取的基础上,借助统计学方法在“词汇层次”引入外部语义库,加大语义词语的权重,提出一种多特征融合的概率主题模型,使提取的关键词更加准确、更加结合实际。主要工作如下:(1)深入研究中文微博数据特征结构,对现有的隐含语义模型结合中文微博数据进行了对比分析。(2)深入研究隐含主题模型在中文微博中的应用,详细的分析了隐含主题模型的特点,构建了中文微博特有的词袋模型,应用到中文微博中,将文本的主题分布向量,直接映射到内部隐含主题,弥补传统的单纯利用词频信息表示文本带来的信息丢失的缺点,减少短文本的数据稀疏性。(3)中文微博的主题是由其本身的内容决定,因此本文提出一种基于文本本身隐含语义与外部语义相结合的多特征融合概率模型,在隐含主题模型上结合《知网》语义库加入统计学权重,从粗粒度“主题层次”和细粒度“词汇层次”对词汇进行研究,提取关键词。并对该方法进行实验分析,实验结果表明该方法在中文微博关键词提取上有很好效果,具有较好的实用价值。图30幅,表18个,参考文献59篇。
其他文献
本研究以莱芜优质生姜为主要原料,研究了一款低盐姜片产品的加工工艺。低盐化是当前世界范围的饮食需求,生姜是药食两用资源,含有丰富的生物活性成分,低盐姜片为研究新型功能
目的探讨以家庭医生为主导的医养结合模式中社区护士的作用及护理效果。方法 2016年11月选取上海市长宁区仙霞街道社区卫生服务中心登记在册的符合条件的高龄失能老人40例,通
目的:推杆技术的稳定性是高尔夫球员获胜关键。按照规则允许的推杆方式和方法提高推杆技术的实用性和稳定性成了当前国际高尔夫球界研究的新热点。推杆技术动作稳定的关键是
词块作为整体存储和提取的语言单位,对二语习得起着至关重要的作用。近几十年,对词块的研究从理论层面到实证领域都得到展开。大量研究对本族语者,二语学习者各自词块使用特
目的评价造血干细胞移植(HSCT)治疗急性髓系白血病(AML)的临床疗效。方法收集2007年1月~2013年7月在我科行HSCT的急性髓系白血病42例,其中自体造血干细胞移植(auto-HSCT)16例,异基
素质教育背景下的物理教学强调学生科学素养的培养,而物理模型教学是有效途径之一。开展物理模型教学,可以丰富学生的问题解决经验、有助于提高学生的建模能力,从而优化学生
研究背景:苯丙胺类药物(Amphetamine, AMPH)是一类成瘾性药物,使用这类药物可以让人产生欣感、厌食以及各种幻想。AMPH类药物的核心结构都是p苯乙胺,这类药物都有容易通过血脑
日趋复杂的管理环境对商科学生的系统思维能力提出更高的要求。教师要在明确提升系统思维能力重要性的基础上,分析系统思维能力的构成要素,厘清现有教学培养体系的能力认可度
摘要:20世纪90年代中期,世界贸易组织正式将教育纳入服务贸易的范畴。随着国际服务贸易的飞速增长,贸易结构逐渐向知识、技术密集型方向发展,教育服务贸易占据着举足轻重的地
党的十八大报告中首次将生态文明建设纳入社会主义现代化建设总体布局,提出经济建设、政治建设、文化建设、社会建设、生态文明建设“五位一体”的建设总布局。标志着我国社