论文部分内容阅读
信息技术的迅猛发展带动文本信息数量以几何速度快速增涨。如何从海量文本信息中迅速捕获到适用于自身的信息,进而对这些信息进行合理的应用与管理是当前急需解决的问题。文本挖掘技术是一项解决从庞杂的文本信息中提取出有用知识的重要技术。关键词提取技术凭借其在文本处理中的基础性作用作为文本挖掘领域中的一项重要技术得到众多研究人员的关注。另外,作为向用户提供有关文本有效信息的简明手段,文本摘要技术同样是国内外学者研究的热点问题。本文将单篇中文文本作为研究对象,分别对关键词与文本摘要的自动提取方法进行研究。首先,提出一种基于复杂网络的中文文本关键词自动提取方法。方法以复杂网络为基础构建文本词共现网络;结合网络节点的度中心性、介数中心性以及特征向量中心性构造节点综合特征值公式;按综合特征值降序输出网络节点,去除单字词节点,提取前K个词语作为文本关键词语。改进方法抽取的关键词能够表达文本主题,相比于传统的TF-IDF算法提升了关键词提取的准确性。是对单文档或多文档进行压缩,总结文档核心思想的方法。现有方法重点关注文摘包含信息量,忽略文摘自身的语句连贯性,生成文摘可读性不强。本文将单篇文本作为研究对象,建立文章句子之间的连接关系,提出一种基于图模型与主题模型的文本摘要自动提取的方法。方法结合文本图模型、复杂网络理论以及LDA主题模型构建句子综合评分函数计算文本单句权重,降序输出文本阈值范围内的句子作为文本摘要。算法在为文本摘要提供足够信息量的同时改善了文本摘要的可读性。最后,结合本文提出的中文文本关键词和文本摘要自动提取方法完成文本分析平台软件的规划和设计,其核心任务包括分词标注(分词及词性标注)、词频统计、关键词提取、句法分析、主题模型以及摘要提取等。