基于Tika语义分析的文档标题提取研究

来源 :长沙大学学报 | 被引量 : 0次 | 上传用户：huangweiririri

【摘要】

：

随着Web的爆炸性增长，更精确的内容检索受到广泛关注．文档的语义信息提取是内容检索中的关键问题．Tika是近年来出现的一个用来获取文档语义的一个工具软件，支持HTML、PDF、word、

【作者】

：

丁振凡

【机构】

：

华东交通大学信息工程学院

【出处】

：

长沙大学学报

【发表日期】

：

2012年5期

【关键词】

：

Tika 内容语义文档元信息标题提取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Web的爆炸性增长，更精确的内容检索受到广泛关注．文档的语义信息提取是内容检索中的关键问题．Tika是近年来出现的一个用来获取文档语义的一个工具软件，支持HTML、PDF、word、PPT、mht等众多格式的文档语义提取．给出了用Tika实现文档元信息提取以及文档内容提取的编程调用方法；分析了Tika进行语义提取中的一些缺陷，并针对文档标题的提取处理给出了纠正解决方案，从而为基于语义的资源检索和全文内容检索提供更为准确的信息表达．

其他文献

上市公司自愿性会计政策变更趋势与特征——2003年至2009年数据

本文对2003年至2009年我国A股上市公司自愿性会计政策变更趋势与特征进行了分析。结果发现：上市公司进行自愿性会计政策的现象比较普遍,这种现象在2006年新公司法实施前后得到

期刊

自愿性会计政策变更趋势特征Voluntary accounting policy changes Trends Characteristics

文化,一个不可无视的需求——浅谈文化建设中的三个关系

不久以前结束的党的十五大为我们全面部署了迈向新世纪的行动纲领。这个纲领既包含了经济建设,也包含了文化建设。党的十五大报告强调指出:社会主义现代化应该有繁荣的经济,

期刊

三个关系文化建设华夏文化思想文化经济增长传统文化西欧文化物质价值国内环境时代精神

资本经营的战略选择与思考

转变经营方式是当前国有企业进入市场面对的一个新课题。长期习惯于产品经营的国有企业,普遍被融资渠道单一、经营空间狭小、抗市场风险能力弱等问题困扰而不能自拔。国有企

期刊

资本经营战略选择资本市场无形资产产品经营国有企业入换国有资产走出困境经营空间

初访济南化肥厂印象

期刊

领导干部化肥厂思想政治工作转变观念领导班子建设企业发展济南国有企业生产商品化利益分配

两种土石坝型应力和变形特性的比较分析

结合某在建水库大坝的粘土直心墙和斜心墙两种坝型方案,分别在静力和地震力作用下对坝体在竣工期和运行期的变形、应力及坝体的稳定性进行了计算,从应力、变形和安全的角度对两种坝型的优劣进行了比较分析,得出了一些有益的结论,可以为类似工程及设计提供参考.

期刊

土石坝力学特性数值分析对比

体波地脉动单点谱比法研究

采用弹性成层介质模型,应用概率分析方法,推导地下体波斜入射成层介质,在自由表面形成体波地脉动的水平分量与竖向分量谱比表达式.然后,通过大量模型计算,论证体波斜入射单层

期刊

体波地脉动谱比法场地传递函数地震灾害场地厚度波阻抗microtremors spectral ratio method site transfer

企业经济活动分析案例教学的几点思考

本文对<企业经济活动分析>这门课程如何实施案例教学法进行了阐述,并就案例教学法在<企业经济活动分析>这门课程的实施中如何取得好的效果,提出了几点应注意的事项.

期刊

企业经济活动分析案例教学思考

紫外分光光度法测定羟乙桂胺霜剂中羟乙桂胺的含量

目的建立测定羟乙桂胺霜剂中羟乙桂胺含量的方法.方法采用紫外分光光度法,测定波长为273nm.结果羟乙桂胺在1.028～6.168μg@ml-1(r=0.999 9)范围内,吸收度值与其浓度呈良好

期刊

紫外分光光度法羟乙桂胺霜剂羟乙桂胺含量测定乳膏剂Idrocilamidum creamUltravoilet spectrometryDetermin

未成年人犯罪原因及对策分析

未成年人犯罪呈逐年上升的趋势,越来越引人关注。从未成年人犯罪的原因看,主要是犯罪的未成年人主观认识能力和控制能力差;同时各种外部因素也是诱发未成年人犯罪不可忽视的

期刊

未成年人犯罪道德心理品质

当归精油治疗痛经的药理研究

目的：研究当归精油治疗痛经的药理作用。方法：采用小鼠扭体法，观察当归精油对醋酸所致小鼠疼痛及雌性小鼠痛经模型的影响；通过对正常和经缩宫素处理的小鼠离体子宫平滑肌实验，考察

期刊

当归精油痛药药理学子宫平滑肌动物实验Angelica sinensis DielsEssential oilUteriDysmenorrhea

基于Tika语义分析的文档标题提取研究

与本文相关的学术论文