基于Web信息抽取的专业知识获取方法研究

被引量 : 35次 | 上传用户:chcer1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的飞速发展使其成为全球信息传播与共享的重要资源,Web上的数据一直呈几何级数增长,要想从Web上获取一条有用信息的难度却越来越大,“信息过载”已经成为一个亟待解决的问题。一种理想的情况是:人们可以像查询数据库一样查询Web上的数据。然而,如何从浩繁的Web数据中抽取出有用的信息成为众多研究工作希望解决的问题。Internet具有的海量、异构、动态变化等特性使Web信息抽取不同于传统信息抽取,同时带来了新的挑战。抽取技术随着需求的增加而不断丰富,近年来国内外涌现了多种信息抽取方法。本文针对智能教学系统中需要构建的学科知识数据库,研究根据用户需求从Web中自动获取各学科专门知识的方法。本文提出的基于Web信息抽取的专业知识获取方法主要是受SRV把信息抽取问题看成是一种分类问题的启发,结合目前已有的基于HTML结构的Web信息抽取技术,构造了基于Web信息抽取和分类技术的Web专业知识获取系统的框架,并针对该系统框架下的若干关键技术进行了专门研究,具体内容如下:1.研究Web网页的批量获取及预处理方法。基于Web的专业知识获取需要收集大量同一主题的网页,目前各搜索引擎所提供的服务还不能满足需求,本文提出了一种简单高效的从Web自动批量获取网页,并利用正则表达式匹配出具有主题内容的网页的方法。2.研究网页预处理的方法。根据HTML文档结构中的标签含义,构造HTML容器标签树,针对网页中各噪音块和主题内容块的特点,删除标签树中的噪音结点,确定主题内容块。3.研究网页的主题信息抽取方法。该研究针对当前的信息抽取方法需要有较多的人工干预,需要较多的先验知识,不同的系统使用的描述语言不同等特点,采用了基于XML映射的信息抽取方法,提出了利用DOM构建Jtree,根据treenode结点自动获取信息抽取的路径,学习信息抽取规则,从而达到信息抽取自动化的目的。4.研究中文文本特征表示方法和文本分类算法。针对向量空间模型的文本特征表示方法中特征词数量的多少,以及数据搜索空间的大小与分类算法的效率有着密切关系的特点,提出了基于词性的特征词提取方法,有效降低了特征向量的维数;提出了基于特征词减少的改进的KNN算法和基于数据分割的改进的KNN算法,提高了分类算法的效率和性能。5.研究训练库的自动获取方法。要提高分类算法的性能,必须建立高质量的训练库,以往的研究都是基于一个已经建立好的训练库,本文提出通过Web挖掘自动生成一个高质量的训练库,以进一步提高专业知识获取的自动化程度。6.研究信息的组织和存储方法。对提取的专业知识组织成用户的应用系统——智能教学系统可以直接访问的形式,并对数据按照应用系统的要求进行了初步整理。本文对基于Web信息抽取的专业知识获取过程中各环节的关键技术进行了研究,建立了知识获取框架,初步实现了整个获取过程的自动化。
其他文献
在知识经济时代,随着智力成果日益商品化、产业化、国际化,商业秘密成为整个国际社会日益关注和重视的问题。尽管对于商业秘密究竟是什么,人们的认识还很不一致,但都承认商业秘密
近年来,随着Internet,Carnet(中国教育和科研计算机网)的发展与普及,国内许多院校已初步建成自己的校园网,并且通过Carnet接入Internet。利用先进的Web技术,以校园网为依托,
基于技术创新的产业理论和“结构-行为-绩效”范式,采用DEA技术效率分析、动态计量经济分析、经济福利测算以及策略行为分析等方法,以中国电信市场为具体对象,从产业层面研究
刑事诉讼中的证人是知悉相关案情,负有向司法机关作证的义务并享有相应保障权利的,当事人以外的自然人。刑事证人的证言对于查明案件事实具有不可替代性。然而,在司法实践中
现代企业80%的利润是来自20%的重要客户,而其余80%中的大部分客户对企业是微利的,甚至是无利可图的。因此如何建立高效的客户知识管理,实施合理的客户分析,有效地获得企业的
本文利用全国12个省份2330个消费者数据,运用描述性统计方法、K-Means聚类方法和Logistic回归模型,就消费者生态意识对生态消费的影响进行了实证研究。结果表明:消费者的社会
在有色金属资源稀缺,电子废弃物持续高速增长的今天,对电子废物中的金属进行资源化再利用意义深远。本研究采用微波消解-电感耦合等离子体发射光谱法(ICP-AES),结合火焰原子吸收
RAW264.7细胞分别用阳性药地塞米松和青天葵黄酮F(nervilifordin F,从毛唇芋兰中提取得到)处理后,再用脂多糖(LPS)刺激2 h诱导炎症反应。采用Griess法测定一氧化氮(NO)含量,ELISA法
期刊
公允价值是会计发展的方向,新《企业会计准则》实现了与国际财务报告准则的趋同,其标志之一是公允价值的全面应用,这也意味着,公允价值在我国面临的主要问题已经由“是否应当