基于特征提取的文本相似性判别方法研究与应用

被引量 : 7次 | 上传用户:lgkenny1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的飞速发展和计算机性能的不断提高,机械化生产、网络办公和网上娱乐等各种工业和生活应用得到快速普及,积累了大量的历史数据。这些看似简单的实时存储信息,蕴藏着许多具有指导意义的未知知识,充分利用好这些数据的潜在价值能够有效帮助企业提高办公效率、节约生产成本、实现利益最大化。近年来信息处理技术不断走向成熟,一些改进的文本挖掘方法、特征提取方法和相似性判别算法被许多学者提出,并取得一定成果。但这些方法基本都是针对特定应用领域开展的研究实现,应用范围相对较小,尤其是在中文信息处理领域,限于中文语言特点,一种算法在另一领域应用的适应性比较差,新应用需要研究新的方法达成基本目标。针对目前信息处理算法的局限性,本文提出了基于多种特征属性提取的文本相似性判别思想。基于多特征的文本相似性判别方法是在传统中文信息处理技术的基础上,通过提取文本词条的多种特征属性,针对待处理文本的数据结构和领域应用特点,抽取合适的特征值进行的中文文本的相似性判别,对于提高判定结果的准确性和方法的灵活适应性具有重要意义。本文研究了目前提出的各种经典特征提取方法和相似性计算模型,结合文本的结构特点,基于词频属性分析了部分特征提取方法在相似性判别中的作用。基于多特征提取的领域主题词表生成和相似性判别是本文的研究核心,通过研究数据的结构特点,针对词条和文本的分布属性,本文提出了词频分布熵和文本分布熵两种新的特征提取方法;结合TF-IDF特征属性、Pearson相关系数和词条分布权值等特征提取方法,研究提出了用于规范化表示文本多特征属性内容的二维特征集合;设计了领域主题词表构成和文本相似性判别的总体架构和工作流程,以经济领域为例,实现了领域主题词表的构成,并进行了相似性判别实验,验证了多特征属性提取判别方法的有效性。基于多特征属性提取的文本相似性判别方法基本满足中文信息处理技术的普适性要求,为企业开发不同领域应用提供了灵活的计算手段,能够进一步提高信息处理的应用效果,为企业节省开发成本。因此,基于多特征提取的文本相似性判别技术的研究与发展对于进一步研究和企业应用具有重要的实际意义。
其他文献
市场经济条件下,一国或地区劳动关系运行状态与其经济表现密切相关。为抑制经济衰减所可能诱发的系列社会问题,中国政府提出了以经济、政治、社会、文化和生态文明建设统筹发
霍夫兰德的态度改变—说服模型(劝说情境的模式)是在其信息传递理论与社会判断理论基础上提出的,社会传递理论及社会判断理论从不同角度说明态度改变—说服模型是一种合理模
随着社会的快速发展,城市水系除了具有防洪、排污、灌溉等方面功能外,更趋于多样化。文章重点介绍了城市水系的保护模式,从洛阳新区城市水系的生态、景观休闲等方面进行分析,
介绍洛阳市新区景观水系的水质特点、水草污染等,针对水系的运行过程中出现的藻类与水草疯长现象,提出有效措施进行净化。
今年5月9日,《人民司法》杂志社与江西省上饶市中级人民法院联合举办了人民法庭司法模式的传承与创新研讨会。来自江西、重庆、浙江、江苏、河北等地具有丰富司法实践经验的
目的探讨血友病患者人工全髋关节置换术的围术期护理方法。方法对5例因股骨头无菌性坏死行人工全髋关节置换术的血友病患者,术前动态监测血Ⅷ因子水平,及时输注凝血因子,予以
辨证治疗心衰汗证122例临床总结泉州市第一医院(362000)蔡光斗许葆雄主题词汗证/中医药疗法心力衰竭,充血性/中医药疗法近10多年来我们对充血性心力衰竭的病人出现多汗(包括自汗和盗汗)主症时,采
采用三硫代碳酸双(α,α′-二甲基-α″-乙酸)酯作为可逆加成-断裂链转移(RAFT)聚合的链转移剂,制备了一系列具有不同相对分子质量,且相对分子质量分布较窄的聚苯乙烯均聚物.
高校体育课与大学生健康教育相结合,是体育教育改革不可抗拒的、必然的发展趋势。2002年9月我国高等学校体育课试行新的教学大纲,"体育课"更名为"体育与健康"课。大学是体育
交感型颈椎病为临床常见病,临床症状常表现为颈、肩臂痛及胸前区疼痛,肢体麻木,肌肉萎缩,以及失眠、头晕、头痛、视物模糊、耳鸣、自汗、心悸、心率或快或慢、血压忽高忽低等