基于特征词统计的网页结构化信息抽取

来源 :嘉应学院学报 | 被引量 : 0次 | 上传用户:sbsiqyd9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为垂直搜索的关键技术之一,网页结构化信息抽取近年来得到越来越多的关注.网页结构化信息抽取通过打碎网页,从中提取"精细化"、"条目化"的信息,存储在数据库中,通过对数据库的查询达到垂直搜索"精准"的目的.已有的方法大多是基于规则的模型和基于隐马尔可夫的模型,这些方法要么依赖特定网页结构,适用性差;要么依赖大量的训练样本,训练效率低.结合垂直搜索特定领域特征词数量有限的特点和统计方法,提出基于特征词统计的结构化信息抽取技术,解决了只能抽取特定HTML标记节点和单个信息块的问题,关键信息块的抽取平均准确率为9
其他文献
时下,大学生寝室里差不多都有电脑。大学生在网络和计算机面前个个成为神通广大的"孙悟空"。可是,电脑对人体的危害也影响着"孙悟空"们的身体健康。这就需要我们有凌厉的招法
期刊
大自然中的声音像一曲交响乐,而风,雷,雨的声音就像一个个跳跃的音符,忽上忽下,奏出一首又一首美妙动听的曲子。而这种声音是人类无法演奏出来的。  风声  风姐姐温柔地吹拂着,唱着欢歌。它游过湖面,鱼儿就会调皮地在水里跳跃,发出“啪啪”的落水声;它拂过树梢,轻摇的树枝就会发出细不可闻的碰撞声;它掠过屋檐,被惊扰的燕子就会发出“叽叽喳喳”的声音……正因为有了风姐姐,大自然又一次恢复了往日的生机勃勃,让我
期刊
使用加性Schwarz算法求解带T-单调函数对应的非线性互补问题(NCP),该算法在特殊选取初值情况下具有单调收敛性.
1. 意识调控法。人的意识能够调整情绪的发生与强度。一般来说,思想修养水平较高的人往往比思想修养水平较低的人能控制、调整自己的情绪。如很多人在成绩面前喜而不狂,在讽
期刊
刘华杰是我的师弟。他是北大的副教授,却常背着一个大号的Lipano紫色书包,以致于在校园里人们问路时都称他为“同学”。他精力总是十分充沛,兴趣广泛,经常用混着京腔的吉林话
期刊
宇宙万物在发生发展中有一个奇妙的数字比——0.618,古希腊美学家柏拉图把0.618誉为"黄金分割律"简称"黄金律"或"黄金比"。事实证明,0.618在建筑、书
期刊
企业廉洁文化是廉洁建设与文化建设相结合的产物。在阐明企业廉洁文化的内涵基础上,论述企业廉洁文化与廉洁制度的逻辑关联,提出政企共建企业廉洁文化制度安排的具体路径,实
杜牧在秦淮河夜泊时,听到对岸酒家的歌声所作的“商女不知亡国恨,隔江犹唱后庭花。”李商隐在讽刺隋炀帝时也写下“地下若逢陈后主,岂宜重问后庭花。”的名句。“后庭花”究
期刊
8.1 中国战略环境评价制度的建立与发展中国在环境影响评价制度建立初期,将建设项目环境影响评价纳入法律要求;随后,区域的环境影响评价作为战略环境评价在中国的雏形也在相关法
嘉应学院自2001年开始招收工商管理专业本科生,并在2003年始开设人力资源管理课程,先后在工商管理、财务管理、市场营销与国际经贸四个本科专业开设并作为任选课向全校开设。在