基于自动标引技术的特定领域XML文档自动生成

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xulee_jj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文提出了基于自动标引的经济领域XML文档自动生成系统的设计方案、该系统具有HTML文本信息抽取;自动标引出经济文献的重要信息,如主题词、关键词、相关人物、上市公司、相关机构等信息;自动生成XML文档的功能.通过对XML的理论研究,为XML文档设计了简洁、便于检索的DTD,用来规范XML文档的有效性,另外,考虑到用户对XML知识有可能匾乏,提供了直观的显示方式,用XSL语言编了样式单,供用户在IE中浏览生成的XML文档的内容.自动标引采用了基于关键词词典和统计相结合的方法,利用TFIDF算法作为加权算法来统计词频.对文献按其大小进行分类处理,兼顾了标引质量与标引速度的协调,取得了理想的效果.该文中所阐述的方法可以移植到其它类型文献的XML格式转换上,具有很广阔的应用前景.
其他文献
数学公式是教育、科技类文档的重要组成部分,也是科学技术交流的重要语言。目前互联网上积累了海量的包含数学公式的文档资源,如何识别及检索文档中的公式成为很多领域中的关键
该文介绍了一个分布式频繁项集挖掘算法,该算法借鉴了Fpgrowth算法的思想,并充分利网格系统提供的数据访问服务和元数据服务,使得频繁项集的挖掘能在网格平台上运行,并因此获
事务处理技术是保证信息可靠性和一致性的关键技术。事务是具有ACID(atomicity,consistency,isolation and durability)特性的原子操作序列。 恢复处理是事务处理的核心问题
该文通过对供应链中采购管理的研究,针对中国企业自身的特点,实施供应链管理环境下的采购管理,全面应用电子商务,采购招投标与比价采购相结合,全面实施基于供应商信誉积分的
随着互联网的不断发展与扩大,域名系统作为网络的基础设施扮演了越来越重要的角色.当前作为域名系统重要组成部分的域名注册系统所遵守的RRP协议由于缺乏可扩展性,难以满足不
利用激光扫描等技术获取三维场景数据,然后进行三维场景重建是计算机视觉研究的一个重点,该技术在城市三维建模等领域中发挥着重要作用。在进行数据获取时由于受视场或遮挡等因
语言是人类特有的文化现象,经历着生生不息的变迁过程。语言变迁的历史是人类历经的兴衰史。而语言变迁的一个重要现象就是词汇的语义变化(简称词义变迁),这也是本文的研究重点。
IP网络条件接收技术是数字版权管理中比较重要的IP网络内容保护安全传输部分,它融合了最新的IP网络传输技术,网络安全技术,信息安全和数字电视广播条件接收技术等体系,条件接
该文首先介绍了该课题研究的背景和内容.第二章叙述了与基于内容检索相关的技术和标准.第三章介绍了基于MPEG-7标准的多媒体内容检索系统的设计方法,提出了特征提取、特征描
随着网络技术的迅猛发展和因特网的广泛普及,网络安全问题变得日益突出。防火墙(Firewall)是网络安全的第一道屏障。合理的使用防火墙有利于提高网络抵抗黑客攻击的能力和系统