文本挖掘技术研究及其在综合风险信息网络中的应用

被引量 : 0次 | 上传用户:snowshine1116131
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子文本以爆炸式地速度增长,从海量的文本数据中寻找有用的知识已成为数据挖掘的重要课题。本文以“十一五”国家科技支撑计划重点项目——“综合风险防范(IRG)关键技术研究与示范”(2006BAD20B02)为研究背景,针对综合风险信息智能采集和分类任务结合互联网上风险灾害信息的特点,研究文本挖掘中的表示模型、特征选择、文本分类和文本关联关键技术,研究具有重要意义和实用价值。主要研究进展包括:(1)提出了一种综合风险信息的表示模型。分析了空间向量模型的tf~*idf权重计算方法忽略了特征在类间分布情况的不足,结合综合风险信息为Web信息的特点,设计了一种综合考虑特征项频率、逆文档频率、特征项类别权重和HTML标签的综合风险信息的特征权重计算方法。实验证明可以改善风险信息的分类性能。(2)提出了基于ReliefF结合RMI评估函数的特征选择方法。针对传统文本挖掘的特征选择方法因忽略了特征项之间的相关性导致特征子集中存在大量冗余特征的问题,设计一种组合式的文本特征选择方法,基于ReliefF特征选择算法将无关特征去除的基础上,利用RMI评估函数对冗余特征进行过滤。实验证明与传统的特征选择方法相比可有效去除文本特征中的冗余性。(3)提出了基于可信度的AttributeBagging文本分类算法。针对Bagging算法中弱分类器具有相同权重的不合理问题,设计改进的Bagging算法,通过对训练样本的属性进行重取样获得多个训练样本集合,以kNN为弱分类器,计算各个弱分类器的可信度得到其投票权重,最终根据投票规则获得集成分类结果。实验证明该算法构建的文本分类器比Attribute Bagging算法具有更好的分类效果。(4)提出了基于灰色关联分析的主题词提取方法。通过计算综合风险信息的给定主题词与特征项之间的灰色关联度来实现主题词的提取,其主要优点是克服了“小样本”问题,对于样本量的多少和有无规律同样适用。解决了数理统计的主题词提取方法忽略专业低频词贡献的问题。(5)将文本挖掘关键技术研究成果应用于综合风险信息网络中,结合网络主题爬虫技术,设计实现了互联网上综合风险信息的智能采集和分类,取得了良好的效果。
其他文献
从世俗的角度来看,项羽乌江自刎肯定是一种失败;盖世英雄最终却以失败而告终,肯定会让人惋惜;而且他还是败在常打败仗而又有些流氓无赖习气的刘邦手下,这更是让人扼腕痛惜。但如果
报道了内蒙古巴彦淖尔盟474例蒙古族人、508例汉族人的9项形态特征.调查结果显示:有内眦褶率蒙古族为90.51%,汉族为93.50%;有上眼睑皱褶率蒙古族为78.06%,汉族为80.71%;铲型
<正>主任、各位副主任、秘书长、各位委员:我受主任会议委托,就《天津市人民代表大会常务委员会关于修改〈天津市人民代表大会常务委员会关于加强对法律、法规实施情况检查监
世博会也是世界建筑的博览会,它是城市文化记忆的丰碑。多元文化在世博会的影响下发生碰撞、冲突与融合,将认识过程中不同文化的边界一次次打破,从建筑的角度形成一种文化迁
班固的《西都赋》中有大量文字记录和描写了西汉长安城市和建筑,具有建筑史研究的重要的价值。文章通过对《西都赋》的研读,尝试分析西汉长安城的建筑形制、选址规划在中国城
大学生作为网络使用的重要群体,网络成瘾问题已经成为了一个严重的社会问题,对于高等教育的健康发展产生了重要影响。本文通过对大学生网络成瘾的原因分析,提出了社会干预、
在社会经济和科技快速发展的驱动下,信息化管理在各行业中应用逐步普及,高校作为培育人才的重要场所,已开始实行信息化管理。高校体育管理与现代科技信息化相结合,使高校体育
目的:探讨彩色多普勒超声(彩超)诊断精索静脉曲张对临床指导作用。方法:回顾性分析50例精索静脉曲张患者阴囊彩超检查结果,记录精索静脉在平静呼吸时和站立位作Valsalva动作后内径
《边城》作为沈从文的文学代表作,是享誉世界的名篇。《边城》被选编入高中语文教材,对发扬作者在作品中寄托的文学理想、对中学生普及《边城》以及巩固与提升沈从文文学大师
凤画作为安徽一种特有的民间美术形式始于明初,出自民间。在中国传统五色观的映照下,凤画呈现出鲜艳、明快的色彩效果,表达了淮畔人民丰富的创作情感和对美好生活的追求,体现