基于Tika语义分析的文档标题提取研究

来源 :长沙大学学报 | 被引量 : 0次 | 上传用户:huangweiririri
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web的爆炸性增长,更精确的内容检索受到广泛关注.文档的语义信息提取是内容检索中的关键问题.Tika是近年来出现的一个用来获取文档语义的一个工具软件,支持HTML、PDF、word、PPT、mht等众多格式的文档语义提取.给出了用Tika实现文档元信息提取以及文档内容提取的编程调用方法;分析了Tika进行语义提取中的一些缺陷,并针对文档标题的提取处理给出了纠正解决方案,从而为基于语义的资源检索和全文内容检索提供更为准确的信息表达.
其他文献
本文对2003年至2009年我国A股上市公司自愿性会计政策变更趋势与特征进行了分析。结果发现:上市公司进行自愿性会计政策的现象比较普遍,这种现象在2006年新公司法实施前后得到
不久以前结束的党的十五大为我们全面部署了迈向新世纪的行动纲领。这个纲领既包含了经济建设,也包含了文化建设。党的十五大报告强调指出:社会主义现代化应该有繁荣的经济,
转变经营方式是当前国有企业进入市场面对的一个新课题。长期习惯于产品经营的国有企业,普遍被融资渠道单一、经营空间狭小、抗市场风险能力弱等问题困扰而不能自拔。国有企
结合某在建水库大坝的粘土直心墙和斜心墙两种坝型方案,分别在静力和地震力作用下对坝体在竣工期和运行期的变形、应力及坝体的稳定性进行了计算,从应力、变形和安全的角度对两种坝型的优劣进行了比较分析,得出了一些有益的结论,可以为类似工程及设计提供参考.
采用弹性成层介质模型,应用概率分析方法,推导地下体波斜入射成层介质,在自由表面形成体波地脉动的水平分量与竖向分量谱比表达式.然后,通过大量模型计算,论证体波斜入射单层
本文对<企业经济活动分析>这门课程如何实施案例教学法进行了阐述,并就案例教学法在<企业经济活动分析>这门课程的实施中如何取得好的效果,提出了几点应注意的事项.
目的 建立测定羟乙桂胺霜剂中羟乙桂胺含量的方法.方法 采用紫外分光光度法,测定波长为273nm.结果 羟乙桂胺在1.028~6.168μg@ml-1(r=0.999 9)范围内,吸收度值与其浓度呈良好
未成年人犯罪呈逐年上升的趋势,越来越引人关注。从未成年人犯罪的原因看,主要是犯罪的未成年人主观认识能力和控制能力差;同时各种外部因素也是诱发未成年人犯罪不可忽视的
目的:研究当归精油治疗痛经的药理作用。方法:采用小鼠扭体法,观察当归精油对醋酸所致小鼠疼痛及雌性小鼠痛经模型的影响;通过对正常和经缩宫素处理的小鼠离体子宫平滑肌实验,考察