基于NLTK的中文文本内容抽取方法

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户:sayaka66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
NLTK是Python中用于自然语言处理的第三方模块,但处理中文文本具有一定局限性.利用NLTK对中文文本中的信息内容进行抽取与挖掘,采用同语境词提取、双连词搭配提取、概率统计以及篇章分析等方法,得到一个适用于中文文本的NLTK文本内容抽取框架,及其具体的实现方法.经实证分析表明,在抽取结果中可以找到反映文本特点的语料内容,得到抽取结果与文本主题具有较强相关性的结论.
其他文献
由于气象测点个数有限、分布不均匀且与线路走廊不一致,无法为研究灾害引发的线路故障及其防御技术提供精确的输电线路气象环境数据模型.为此,本文分析了Kriging空间插值方法
电力设备锈迹目标的识别在电力安全方面具有极高的应用价值,但是锈迹具有大小、形状不规则等特点,利用传统的机器学习算法检测效率和准确率不高.针对这一问题,研究分析锈迹特
为了解决基于相关滤波器的跟踪方法在长期遮挡或尺度变化情况下跟踪性能降低,对核相关滤波器目标跟踪方法提出了改进.首先将目标区域的方向梯度直方图、颜色名特征进行融合,对目标外观进行建模;然后对目标构建尺度金字塔,求取尺度的最大响应.最后,引入再检测机制,只有当目标的置信度小于阈值时,才利用在线随机蕨分类器重新扫描窗口,获取检测结果.实验结果表明,该文提出的改进算法在目标发生快速运动、遮挡和尺度变化等复
在基于图像的人机交互智能装配的手势识别与动作跟踪中,手部关节的图像定位是基础,并且关节信息的准确性对手势描述和行为识别与理解有直接影响.针对指节图像特征分布具有较强随机性,利用同态滤波进行图像预处理,以增强图像特征.基于高斯过程模型对手部指节图像二类特征进行学习,用样本对象的聚类测度,学习数据分布的特征模型,将学习获得的两类特征模型作为图像特征的检测器,检测结果即为图像的两个似然值.将经过正负类样
圆角过渡特征的识别在特征识别与设计特征重构方面有着非常重要的作用.本文提出了一种基于设计意图推理的圆角过渡特征识别方法.该方法首先对圆角过渡面几何形状进行识别,然
在安卓系统中,一些安卓应用为了避免被系统杀死,会通过各种方式在后台占用系统的CPU,内存等资源,实现后台保活.这类行为会加速安卓系统的电量消耗.其中一种后台保活的方式是
危险化学品行业属于高危险性行业,各类爆炸、火灾、泄漏和中毒事故时有发生.传统的基于因果关系的事故链分析方法受限于传统安全工程所依赖的技术基础和假定无法适应于今天所
本文先研究分析了当前ZigBee网络支持的3种路由算法,并针对目前最常用的ZBR路由算法在路由发现过程中会产生大量无用RREQ分组且能量消耗快的缺点,本文提出了一种改进的分层能量控制算法.本文从控制节点能量阈值、限制RREQ分组的传播范围、限制网络深度入手对其进行优化,优化后的算法丢弃了不需要的RREQ分组包、降低了网络的能耗.最后通过NS-2进行仿真,实验结果证明,改进后的算法在保证网络传输稳定
在计算机计算能力大大增强的时代,为了提高对时间自动机进行空性检测的效率,进一步高效利用多核处理器的优势,研究了利用Büchi自动机的多核空性判定算法改造CTAV,使它成
引力搜索算法是最近提出的一种较有竞争力的群智能优化技术,然而,标准引力算法存在的收敛速度慢、容易在进化过程中陷入停滞状态.针对上述问题,提出一种改进的引力搜索算法.