基于文本层次模型的Web概念挖掘研究

被引量 : 0次 | 上传用户:c2t2dy20
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文针对目前Web文本挖掘工具的不足之处,综合运用文献信息自动标引和自动分类技术、数据挖掘技术、模式识别技术、数据库技术,数理统计知识,构建了一个简单易行的信息提取模型,即文本层次模型,针对因特网上三种结构类型数据,进行了基于知识库,即基于概念语义网络的自动标引和自动分类研究。本项目研究具有如下意义:使分类知识库建设系统化和流程化;提供因特网页面和普通文本的标引源选择方案及主题提取时的权重方案;提高同义词的识别能力;增强未登录词挖掘能力。 文本分类知识库的构建主要是利用了数据挖掘技术,数理统计知识,在进行关键词与分类号的相关度度量时,我们为了克服以前度量方法的缺陷,引入了Dice测度的方法。为了确定知识库的规模,我们对Web概念挖掘系统的实际运行结果,进行抽样分析,选择了一个整体性能较好的分类知识库,另外还引入篇名知识来进一步完善分类知识库。 在进行Web文本的主题提取时,为了区分网页不同标引源的主题表达能力,本文根据一定规模的数据调查结果,确定了具有文献依据的权重方案,对文本不同标引源的测试,获得了页面和普通文本的标引源选择方案,随后还对文本多主题挖掘进行了初步的研究。 在同义词的识别上,首次引入《同义词词林》,作为语义体系,提出了基于《同义词词林》语义体系的同义词识别算法,利用词汇间的语义相似度度量,来进行同义词识别,提高了同义词识别系统的识别性能。此外,在进行文本的自动分类时,将语义相似度匹配代替了字面相似度匹配,提高了文本的自动分类能力。 为了解决未登录的挖掘问题,提出了基于字词正向扩展的未登录词识别方法,不同于N-Gram模型的是,本方法不需庞大的语料库,利用局部统计信息即可识别出具有检索意义的未登录词。 本文最后给出了系统的实际测评结果,证明整个系统的可行性。 Web概念挖掘系统采用Borland Delphi6.0,Nicrosoft Visual C++6.0以及Microsoft Visual Foxpro6.0开发。
其他文献
反推力装置安全性一直是民航关注的重点,介绍了反推力装置三道独立控制的机械锁防线的设计,并提出了一种优化改进方案,该方案简化了反推力装置结构,优化了反推作动时序,同时
为了合理、高效延长电动汽车动力电池的使用寿命,设计了一套能实时、准确采集动力电池总电压、电流、单节电池电压和温度的智能诊断系统。采用集中与分散相结合的主、从模块
软组织填充术是整形外科使用最广泛的治疗手段之一,因而探索理想的软组织组织填充材料具有重要的临床意义。自体填充材料存在取材有限、增加创伤等不足。异体及异种组织因移植
本文介绍了全球定位系统(GPS)的组成及工作原理,具体包括空间导航卫星系统、地面监控系统和用户设备系统3个部分,并对GPS技术在金融领域中的应用做了详细介绍
随着移动互联网技术和应用的飞速发展,以及移动终端的普及,移动办公正在逐步改变企业、政府等机构的办公方式,越来越重要的数据资产通过移动办公处理和形成,移动终端成为数据
从绞车故障判断的流程、绞车系统常见的故障、绞车故障排除常用技术三个方面对绞车故障判断和排除技术进行深入的分析和探究,与同行交流。
第一部分不同胎龄新生儿呼吸窘迫综合症高危因素及临床分析目的:比较不同胎龄新生儿呼吸窘迫综合征(RDS)的高危因素、并发症、治疗及预后情况。方法:选择2012年8月至2013年7月入
本文探讨了商丘地区盐碱土形成发展规律,并以此为基础总结了本地区改良利用盐碱土的历史经验。通过对历史经验。通过对历史经验的回顾,从治理原理及其指导思想,改良与利用相结合
本论文以美国为范例,在比较系统和深入地揭示住房抵押贷款证券化的运作原理及其在美国的成功实践基础上,运用制度经济学和新兴古典经济学的有关理论,对住房抵押贷款证券化在我国