基于Internet的信息抽取技术研究

被引量 : 0次 | 上传用户:tezon1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet上信息的迅猛增长,网络已成为最为重要的知识库,人们对高效率的信息获取技术的需求越来越迫切。因此,应用信息抽取技术,从网页中自动地抽取有用信息是的智能信息处理的一个重要研究课题。信息抽取系统从Internet上抽取的信息不仅可以直接提供给用户,还可以作为构建智能查询系统和数据挖掘系统的基础,有着广阔的应用前景。目前,信息抽取技术的研究已成为国际上自然语言处理领域的研究热点之一。 本文首先介绍了信息抽取技术的发展历程、关键技术、困难问题和评价标准,回顾了信息抽取技术研究的进展,对几种典型的Web信息抽取技术进行了综合比较。 本文提出一种改进的Wrapper归纳方法,半自动地生成Wrapper程序,提供一个很友好的可视化的交互式用户界面,让用户以可视化、交互式的方式对样本页面中的信息进行标记,用户既不需要手工地转换HTML文档,也不需要更多相关语言学知识,只需要直接在浏览器显示的样本页面中对文本做出标记。系统通过学习用户标记的信息集,实现包装器的自动生成,对同类网页进行信息抽取。 考虑到中文处理的特点和信息抽取的目标要求,本文利用基于最大熵模型的中文组块分析方法,对文本进行浅层句法分析。文中明确了中文组块的定义,列出了模型中所有的组块类型及组块标注符号,然后讨论了模型中组块的划分识别及特征选取,给出了相关的特征选择过程和算法。本文引入基于聚类的模式生成方法自动生成抽取模式,采用模式匹配的方法,实现中文自由文本信息的自动抽取。本文利用数据库与XML相结合的方式组织信息库,实现信息的Web表示。 在此基础上,本文设计并实现了一个基于Internet的军事演习信息抽取系统,并就信息获取、信息抽取、信息库组织及用户查询进行详细介绍,最后给出了实验结果和系统分析。
其他文献
话语标记语在日常语言使用中几乎无处不在,对其正确的使用和理解不仅有助于我们更好的理解他人的话语,还可以使自己的话语更加连贯。因此,对话语标记语的研究有着重要的理论
<正>1充分认识治霾的长期性、复杂性和艰巨性雾霾已肆虐横行多时,虽经各方全力治理,重拳出击,但雾霾并未止步。雾霾发生频率高、时间长、地域广、间隔时间短,应该引起我们的
女性在政治视阈中话语权缺失是西方文化传统上公共领域与私人领域二元对立和中国传统父权制的超稳定性造成的。赋予女性政治领域应有的话语权必须建构先进的性别文化、和谐的
幼儿的同情心与生俱来。但是,它还需要成人们不断地呵护和培养。在这个充满竞争的现实社会里,社会因素、家庭因素和幼儿园教育因素都在某一程度上影响或阻碍幼儿同情心的发展
素质教育是当前教育的主旋律,可持续发展思想是从古到今最完美的一种发展思想,如果能从思想转变为实践,人类社会的长期发展就将变为现实,但是目前来看,很多国家和地区由于盲
由于受计划经济体制的影响,加之医疗卫生事业具有人道性、福利性、专业性等特点,使得医疗卫生体制改革受到诸多因素的影响和制约,改革的步伐相对滞后,已经不能很好的满足人民
目的观察肺复张后PEEP滴定过程中最佳肺氧合与最佳肺动态顺应性(Cdyn)的关系,探讨通过肺Cdyn确定最佳PEEP的方法。方法静脉注射油酸复制犬ARDS模型,采用压力控制通气(PCV)实施肺
<正>一、精心种好头季稻1.选用适宜品种。应选择高产、优质、耐肥、抗病虫、抗倒伏、再生能力强、头季稻生育期130~140天的品种。如Y两优9918、Y两优2号、准两优608等。2.秧田
随着新时期社会经济的发展和社会对现代化复合人才的需求,体育越来越受到人们的广泛关注与重视。高校体育教育作为高校教育的一个普遍现象和重要组成部分,是新时期大学生日常学
采用 CTA- EC5 0有机氟拒水拒油剂对涤、棉织物进行拒水拒油整理 ,探讨了主要工艺参数 ,即整理剂和配套交联剂浓度、催化剂、焙烘温度和时间对整理效果的影响 ,并在此基础上