面向文本分类的信息提取和特征集自动构造

来源 :北京大学 | 被引量 : 0次 | 上传用户:Mciael
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文主要描述了五方面的工作.首先是在已有关键词表和大量训练集的基础上,应用词频统计的方法对关键词计算适当的权值,并在此基础上进行属性提取和使用借鉴VSM(向量空间模型)的思想对文档进行分类.其次,将上述方法加以推广,用正则表达式表示的特征模式代替关键词刻画属性特征,从而有可能得到更精确的结果.再次,探讨取消对于人工关键词表依赖性的方法,并描述了一个从训练文集中自动提取双字关键词的快速算法.第四,将关键词自动生成算法推广到任意长度的无重字关键词和简单正则表达式.最后,由于该类算法在Internet上具有重要应用价值,因此特别针对HTML页面探讨了一个利用其半结构化特点而设计的优化方法,并且考虑了其他基于启发式规则的优化方法.这些工作在吸取前人的经验的基础上在以下方面有自己的特色;一、尝试从信息提取的角度求解分类问题;二、设计了一个快速易用的关键词匹配和统计计算法;三、用简单的算法通过对训练文本的单遍扫描提取并构造有效关键字词典;四、证明了单链正则表达式在特征检测问题域中有较强表征能力,并在此基础上设计了一个特征集自动构造算法;五、探讨了一种利用HTML文档的结构化信息帮助信息提取的方法,并尝试了其他的启发式优化规则.用该TextCategorizingAndTargetingEngine),在典型应用环境中其最佳情况下召回率达到99.9﹪,准确率达到99.2﹪.
其他文献
智能主体(intelligent agent)技术为复杂软件的分析、设计、及实现提供了一种崭新的途径.无论是在理论研究领域,还是在实验应用领域,主体技术已越来越受到人们的重视,成为人
该文将计算机辅助设计(CAD)引入到水闸的体型设计上,以期在理论和应用上解决工程设计人员的设计要求.该文在水闸的二维平面图生成,三维设计生成,尺寸自动标注,产互式参数化设
随着计算机网络技术的高速发展,Internet对社会政治经济生活的各个领域产生了重要影响。与此同时,网络安全问题正日益突出地显露出来,受到人们越来越多的关注。 防火墙技术,是
Internet时代的到来,带来的是机遇与挑战的并存.为了谋生存图发展,各行各业都在积极开展面向Internet的应用研究和开发,并成功地创建了一批面向Internet的应用系统.同时也产
该文就MAS的语义模型等进行了研究.主要工作包括:(1)提出了一个多Agent信念逻辑MBL,定义了MBL的Aumann语义,证明了MBL的Kripke语义与Aumann语义等价.提出了一个多Agent概率信
本文较为详细的介绍了一个基于XML的报表系统的设计思想和实现方法,实现了大连国际合作公司的子公司与总公司间的远程报表系统。 在对大连国际的工作流程与企业上报报表的
随着市场经济的不断发展,电力系统已经开始由计划经济向市场经济转变,电能计量精度关系到电力参源供需双方的经济利益,因此电能计量的重要意义就显得更加突出.随着计量的电能
该文提出了一个神经网络集成规则抽取算法REFNE.该算法采用一种独特的数据生成方式,可以将不同连续属性的取值范围离散化为不同数目的区间,还可以避免不必要的聚类处理.此外,
该文研究目的是针对现代企业的特点,为企业及其过程的描述和分析提供一套较为全面的模型体系和动态评价体系,并以此为基础为复杂过程的建模、模拟和运作提供方法和环境的支持
该文介绍了CGIS的总体设计、实现,以及在该平台支持下建造的SESD2.0系统.在介绍GIS的一些基本概念和GIS发展概况的基础上,该文介绍了CGIS系统的各个组成部分,并详细介绍了CGI