图书网页的自动识别及书目信息抽取研究

来源 :现代图书情报技术 | 被引量 : 0次 | 上传用户：wudidewohaha

【摘要】

：

【目的】以相关的图书类网页为对象,研究图书网页的自动识别及书目信息抽取方法。【方法】在分析不同图书网页标签使用特征、布局结构以及书目信息表征的基础上,通过定义通用

【作者】

：

李湘东霍亚勇黄莉

【机构】

：

武汉大学信息管理学院,武汉大学信息资源研究中心,武汉大学图书馆,

【出处】

：

现代图书情报技术

【发表日期】

：

2014年04期

【关键词】

：

网页图书网页书目信息自动识别信息抽取抽取方法网站信息抽取技术布局结构算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

【目的】以相关的图书类网页为对象,研究图书网页的自动识别及书目信息抽取方法。【方法】在分析不同图书网页标签使用特征、布局结构以及书目信息表征的基础上,通过定义通用规则及共现词和页面分析等技术建立图书网页自动识别及书目信息抽取模型。【结果】实验证明,该模型针对来自一般性网站的图书网页识别率可以达到近80%,而针对各类图书网页书目信息的抽取准确率平均也达到79%左右。【局限】该方法中阈值的设定综合考虑了多种类型图书网页信息特征,但对于部分特征极其特殊的网页存在误判现象,若进一步改进算法,可能效果更好。【结论】此方法对于各种类型图书网页的自动识别和书目信息抽取均能取得比较理想的效果,普适性较强,同时也为图书网页信息组织管理和自动分类研究奠定了基础。【Objective】 To study the automatic identification of web pages and the method of extracting bibliographic information from related web pages. 【Method】 On the basis of analyzing the usage characteristics, layout structure and bibliographic information characterization of different book web pages, this paper establishes a web page automatic identification and bibliographic information extraction model by defining general rules, co-occurrence words and page analysis. [Results] The experiment proves that this model can achieve a recognition rate of nearly 80% for the web pages from general websites and about 79% for the bibliographic information for all kinds of books. [Limitations] The threshold setting in this method takes into account the information characteristics of many types of book web pages. However, for some web pages with extremely special characteristics, there is a misjudgment phenomenon. If the algorithm is further improved, the effect may be better. 【Conclusion】 This method can achieve ideal effect and universal applicability for automatic identification and bibliographic information extraction of all kinds of book web pages. It also lays the foundation for the study of book web page information organization management and automatic classification.

其他文献

应用圆形分布法分析间日疟流行区疟疾发病与传疟按蚊的季节特征及其关系

了解间日疟流行区疟疾发病与传疟媒介按蚊的季节分布特征及其两者的关系,为防止输入性疟疾引起二代病例及消除疟疾路径分析和验证工作提供依据.收集湖北省疟疾消除启动前2005-2009年5个疟疾监测点疟疾疫情和蚊媒监测的历史资料,按月统计间日疟发病数和蚊媒密度,采用圆形分布法进行分析.湖北省2005-2009年疟疾发病高峰日、高峰期和流行期分别为7月28日、5月26日至9月28日和3月27日至11月28日

期刊

疟疾媒介按蚊分布特征季节性

读者了解我们吗

读者了解我们吗张卉最近，我在北京市部分科技图书消费者中做了一次调查，接受调查的对象绝大部分是年龄在２０～５０岁的院校师生和科研人员，每人每年约购科技图书５．５册，可以说他们是科技图书消

期刊

科技图书图书出版科研人员图书信息音像出版物电子工业出版社讯报电子出版内容介绍中央广播电台

影响人们生活的发明——空调的前世今生

空调(Air cool Chiller,简称Chiller)是空气调节器的简称,是使室内空气温度、湿度、清洁度和气流速度(简称四度)保持在一定范围内的一项环境工程技术,它满足生活舒适和生产工

期刊

室内空气温度环境工程技术卡里尔气流速度开利公司生产工艺布法罗空气调节系统主流品牌印刷出版

《中国煤炭》赴美参展和工作访问

《中国煤炭》赴美参展和工作访问王道温，李忠民应美国ＩＮＴＥＲＴＥＣ出版公司的邀请，ｌ９９６年９月煤炭科技信息所所长、《中国煤炭》杂志社社长李锡林率代表团一行３人赴美国访问，主要进行以下工作：（１）参加’

期刊

李锡林美国能源部煤炭科技美国访问能源信息期刊杂志拉斯韦加斯信息依据世界煤炭广告合作

东北师范大学出版社贺我校50年大庆向全国读者朋友致意

东北师范大学出版社创建于1983年8月,是国家教育委员会所属的大学出版社。本社设有社会科学、自然科学、中小幼、音像及美术等8个编辑室,出版、发行、财务等7个科室,拥有一

期刊

编辑队伍国家教育委员会代办站肖章社平

获取更多的层次与细节

一张照片要有丰富的层次与细节并包含有尽可能广的影调范围,为达到这个目的,摄影师们投入了极大的精力来研究感光材料与摄影技术,这其中最著名的就是安塞尔·亚当斯及其区域

期刊

高动态范围摄影技术安塞尔·亚当斯应用软件影调数字摄影阴影区域尼康包围曝光滤镜

孩子们的困惑——几种未被重视的家长侵权透视

随着我国普法工作的深入开展,公民遵纪守法观念日益强化,家长侵犯子女正当权益的事已受到社会各界的广泛重视。打骂虐待、遗弃子女、包办婚姻等侵权现象日益减少。然而在现

期刊

遗弃子女侵权行为包办婚姻侵权现象现实生活姓名权未成年子女不知道终成眷属水产养殖场

海润国际作品欣赏

海润是一九八九年由一群靠动脑谋生的人组建的。海润由中国国内贸易部和中华广告(香港)有限公司合资建立。国际广告(IAA)协会会员,中国广告协会会员,中国对外经济贸易广告协

期刊

中国广告协会广告代理国际广告广告公司国内贸易部作业方法作业能力后己系列广告对外经济贸易

日本老人游学热

短期游学是目前日本银发族的时尚,他们提出的口号是‘活到老,学到老,玩到老’。住在东京都涉谷区69岁的奥野道治和63岁的玲子夫妇,今年2月至3月,在新西兰体 Short-term tra

期刊

银发族横滨市日语学习奥克兰市东京都

忠于事实　忠于真理

《党史文汇》办了100期，这是值得大庆大贺的。多年以来，贵刊坚持向广大党员和人民群众进行党史教育，激发了人们热爱党的感情，坚定了人们对党的信念。贵刊还发表了不少认真总结我

期刊

刊物编辑文汇文艺刊物周恩来同志党史资料访问记党的建设版面编排人物形象资料保存

图书网页的自动识别及书目信息抽取研究

与本文相关的学术论文