面向中文文本的特征值提取

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:hqianhua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的发展,文本分类作为信息整理的手段,在我们的生活中起着越来越重要的作用。特征值提取是文本处理中的关键技术,优秀的特征值才能真正反映出文本的属性。本文主要借助于自然语言语义学、模糊数学、粗糙集、概率论等方面的知识对中文文本的特征值提取作了系统的研究,提出了基于同义概念及多重加权的特征值提取系统(SMFS),具体工作如下: 首先,我们对于现在的特征值加权法做了一定的改进,不仅考虑了文本中的词汇概率信息,还结合文本语义等多方面信息,提出了一种基于多重启发式规则的特征值权值计算方法。我们认为词汇只是表示概念的语言单位,而同义词都可以归结为同一个概念,于是特征提取中我们定义了“同义概念”作为特征值的单位。从而解决了文本处理中的同义词和一词多义问题,在很大程度上降低了特征空间的维数,并且得到了较优的性能。值得指出的是,我们这里的“同义概念”是在训练过程中自动形成其隶属度。最后我们对现在的分类方法作了一定的总结。并且给出了比较试验结果以及SMFS 特征值提取方法在邮件分类系统的应用。
其他文献
日前,备受业界瞩目的第19届“台湾精品奖”,在历时2个多月的书面审查及现场评鉴,经过70多位知名学者专家审慎评选后,最终获奖名单揭晓。全球领先的工业自动化品牌台达的3款产品C2
招远地区是我国重要的产金基地,胶东地区90%以上的金矿分布在招平与焦家两大断裂带及其所夹区域,然而,关于这些断裂带的演化特征、是否控矿及控矿机理尚存在较大争议。本文在充
21世纪是我国汽车工业即将飞速发展的时代,我国汽车企业正面临一个充满机遇和挑战的市场营销竞争新时代。随着国际上知名的“6+3”汽车集团全部进入我国,国内汽车市场营销环
形式化方法是验证并发系统可靠性和安全性的一种手段。模型检测是一种对有限状态并发(分布式)系统进行形式化验证的方法,已应用于软件可靠性和安全性验证。从用高级语言开发
少年宫是一种相对崭新的校外教育形式,曾在社会效益、人才效益方面取得了重大成绩,发挥了重要的育人功能、指导基层学校功能、对外交流功能、营造全社会关心少年儿童氛围等功
广润河水利水电工程功能以发电、城市供水、旅游为主,兼有防洪、灌溉、水产养殖等。工程设计总投资28149.1万元,建红瓦屋、闸木水2座水库和3座电站,整个工程2007年完成。2004
为防止催化原料加氢装置燃料爆燃引起的爆炸,装置配置了火焰检测系统。如何选用安全可靠的火焰检测装置,将直接关系到装置的安全经济运行。以美国FIREYE火焰检测系统为例,介绍其
通过对在校临床医学专业学生进行就业心理评定测试,了解该专业特困生就业心理,以有针对性地对其进行心理辅导,使其顺利就业。
企业对ERP系统的建设与应用实际上是实现管理信息化、精细化的过程。基于五矿地产ERP项目的实施经验,提炼、总结地产行业在ERP系统设计实施中的关键点,并阐述地产企业如何以
《海洋地质与第四纪地质》是国土资源部主管、青岛海洋地质研究所主办、海洋地质杂志社编辑、科学出版社出版的学术性期刊(2006年改为双月刊)。主要刊登海洋地质学及海陆第四纪