基于谱聚类的图书目录重构

来源 :浙江大学计算机科学与技术学院 浙江大学 | 被引量 : 0次 | 上传用户:viviane_px349
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪是信息和科技的世纪。信息技术的进步在促进时代发展的同时,也给残疾人带来了前所未有的机遇和极大的挑战。数字图书馆是残疾人获取信息的一种重要的途径和手段。结构化的目录信息能够大大提高残疾人阅读电子书籍的速度。本文提出了一种基于谱聚类的目录信息重构算法,实现对文本书籍目录的抽取和目录索引结构的构造。目录信息的重构使用了信息抽取的相关技术。目录信息的重构包括文本信息解析、目录信息建模和目录树的生成。对文本信息进行的预处理,需要对不规范的文字信息进行整理和替换。然后使用一种适合目录信息的结构和存储格式的分词方法,对目录文本进行分词处理并对目录信息中的特征项进行标注。通过对目录的结构和特征进行分析,本文提出了一种基于特征的目录结构表示模型。使用这种模型来表示目录结构中的每个目录条目。基于该模型,使用了一种基于规范化分割的谱聚类算法对目录项进行聚类,从而获得目录项的聚类信息。最后,结合目录项的聚类信息和顺序信息,使用一种基于深度优先策略的目录生成算法,重构出结构化的目录树。实现的算法在盲人数字图书馆中进行了测试,通过对于702本书籍的解析和处理,获得了较好的准确率,大大减少了人工操作的工作量。
其他文献
本文研究了基于形态学的血管图像分割技术,首先对血管图像采用基于最小误差法的分段线性变换方法进行增强预处理,其次针对本文实验所采用血管图像的形态结构特征选取特定的结
DCS控制系统在电力、机械、石油、化工等领域应用越来越广泛,它是随着现代大型生产系统自动化水平的不断进步和过程监控要求的日益复杂而产生的综合控制系统。本文介绍了一种新型DCS系统的体系结构,它是基于CAN总线之上的一种新型控制系统。根据新型DCS系统的要求和特点,对小热电的锅炉系统进行研究时,采用了AVR系列Atmega16单片机作为主控制器,设计了智能CAN节点电路。并设计了温度传感器和输出等外
随着我国国民经济的飞速发展,人民生活水平不断提高,鸡肉作为主要的肉类供给食品之一,其需求量也日益增大。但相关食品安全事件的频繁发生极大地影响了肉鸡产品的消费需求,肉
放射治疗已经成为治疗恶性肿瘤的重要手段。放射治疗计划系统(TPS: Treatment Planning System)用于放射治疗的术前规划,对放射治疗的精度和效果有重要影响,是放射治疗的核心
万维网服务作为一种蓬勃兴起的分布式计算技术,建立在一系列开放标准技术基础之上,例如SOAP、UDDI和WSDL等,其具有完全的松散耦合、平台无关性、开放性和语言无关性等特点,这些特
随着软件外包产业的快速发展,软件在人们的生活中起着越来越重要的作用。软件质量是软件的生命,因此,提高软件质量是软件外包行业面临的首要问题。本文从软件外包的质量要求
乘用车的普及给人们的出行带来了极大的便利,人们的工作和生活方式也因此发生了翻天覆地的变化,但同时也给道路交通带来了巨大的安全隐患,交通事故的频繁发生给许许多多的家
目前软件产业已成为推动一个国家国民经济增长的中坚力量,也是维护国家独立自主的强有力保障。如何提高软件的生产效率,延长软件的生命周期,增强软件可维护性和可扩展性,已经
近年来,电力电子嵌入式系统发展迅速,产生了很多芯片开发商,日本NEC公司的V850系列处理器在电力电子、汽车电子、工业控制等领域都有着广泛的应用,而随着嵌入式芯片的不断成
随着多媒体技术和网络通信技术的不断发展,多媒体通信业务逐渐在应用中占据主导地位。SIP凭借其简单、灵活、开放、扩展性好等特点,已成为业界研究的热点。本文分析了视频会