文本挖掘中关键词与文本摘要自动提取研究

来源 :青岛理工大学 | 被引量 : 0次 | 上传用户:nelly45
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的迅猛发展带动文本信息数量以几何速度快速增涨。如何从海量文本信息中迅速捕获到适用于自身的信息,进而对这些信息进行合理的应用与管理是当前急需解决的问题。文本挖掘技术是一项解决从庞杂的文本信息中提取出有用知识的重要技术。关键词提取技术凭借其在文本处理中的基础性作用作为文本挖掘领域中的一项重要技术得到众多研究人员的关注。另外,作为向用户提供有关文本有效信息的简明手段,文本摘要技术同样是国内外学者研究的热点问题。本文将单篇中文文本作为研究对象,分别对关键词与文本摘要的自动提取方法进行研究。首先,提出一种基于复杂网络的中文文本关键词自动提取方法。方法以复杂网络为基础构建文本词共现网络;结合网络节点的度中心性、介数中心性以及特征向量中心性构造节点综合特征值公式;按综合特征值降序输出网络节点,去除单字词节点,提取前K个词语作为文本关键词语。改进方法抽取的关键词能够表达文本主题,相比于传统的TF-IDF算法提升了关键词提取的准确性。是对单文档或多文档进行压缩,总结文档核心思想的方法。现有方法重点关注文摘包含信息量,忽略文摘自身的语句连贯性,生成文摘可读性不强。本文将单篇文本作为研究对象,建立文章句子之间的连接关系,提出一种基于图模型与主题模型的文本摘要自动提取的方法。方法结合文本图模型、复杂网络理论以及LDA主题模型构建句子综合评分函数计算文本单句权重,降序输出文本阈值范围内的句子作为文本摘要。算法在为文本摘要提供足够信息量的同时改善了文本摘要的可读性。最后,结合本文提出的中文文本关键词和文本摘要自动提取方法完成文本分析平台软件的规划和设计,其核心任务包括分词标注(分词及词性标注)、词频统计、关键词提取、句法分析、主题模型以及摘要提取等。
其他文献
作为中国古代重要的美学范畴,"韵"体现着中国古典美学特有的民族特征与艺术魅力,是我国艺术鉴赏的最高审美标准,也是我国民族声乐至高的艺术追求。"韵"作为中国传统美学的概
按照《护士条例》,凡符合规定条件之一,并在教学、综合医院完成8个月以上护理临床实习的毕业生(包括2009年在校毕业生),可报名参加护理初级(士)专业技术资格考试。新规定出台后给在
变量代换法是解常微分方程的一种辅助方法,它能使问题简化.本文通过联系实例给出了变换在求解微分方程中的具体应用。
多年来,本溪市第五中学在市委市政府、市教育局的正确领导下,以"三个代表"重要思想为指导,全面贯彻党的民族政策,巩固和发展平等、团结、互助的民族关系,结合学校实际工作,深
国民党重视对外新闻宣传当始于卢沟桥事变之后。1937年7月,日本连日用英语向世界各国广播,宣传此次中日冲突原因在于中国,使世界各国深信责任真就在于中国而不在于日本。这个问题首先
本文通过链脲佐菌素建立早期糖尿病肾病大鼠模型,考察蝙蝠蛾拟青霉Cs-4提取物高剂量组(2 g/kg·d、中剂量组(0.5 g/kg·d)和低剂量组(0.05 g/kg·d)灌胃给药3周后,对糖尿病大
通过工艺流程,优化操作,利用合成氨装置向炼化制氢装置输送氨合成气,产出满足要求纯度的氢气,在制氢装置制氢能力降低和制氢装置停车检修期间,保证生产负荷和联合装置连续运
深两优58香油占是国家杂交水稻工程技术研究中心清华深圳龙岗研究所、广东省农业科学院水稻研究所合作,用国家杂交水稻工程技术研究中心育成的不育系Y58S和广东省农业科学院
胡适和吴宓是中国新文学史中一组绕不过的关系。吴宓日记中至少有110日提到胡适的名字,胡适二字至少出现145次。吴宓的胡适印象经历了定型化、全面化、复杂化三个阶段。在84