利用串匹配技术实现网上新闻的主题提取

来源 :软件学报 | 被引量 : 0次 | 上传用户:KOUHUIKING
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从文本中提取主题串是自然语言处理的重要基础之一,传统的提取方法主要是依据“词典加匹配”的模式,由于词典的更新速度无法同步于网上新闻中新词汇涌现的速度,而且词典的内容也无法完全涵盖网上新闻的范围,因此这种方法不适用于网上新闻的主题提取,提出并实现了一种不用词典即可提取新闻主题的新方法。该方法利用网上新闻的特殊结构,在标题和正文间寻找重复的字串。经过简单的处理,这些字串能够较好地反映新闻 的主题,实验结果显示该方法能够准确、有效地提取绝大部分网上新闻的主题,满足新闻自动处理的需要。该方法同样适用于其它亚洲语
其他文献
提出一个生成中国画风格水动画的方法.首先检测手工绘制国画水波的位置,然后利用自回归模型合成这些水波形状.合成的水波用基于图像方法来绘制以使水波与手工绘制国画风格一
Buttyan等人提出了一个简洁的逻辑,他们把它用于改进Woo-Lam协议,并且未证明地声称:改进后的协议是抗协议与自身的交互攻击的.为表明他们的结论是不正确的,找到了改进协议的
提高学生计算机理论水平和实践动手能力,培养企业所需要的人才,是中职学校计算机教育的首要任务。由于中职学生理论水平不高,计算机学习效率低下,在中职计算机课程中采用项目
在建筑水彩教学中,应注意用实例辅助理论教学,制定课程教学目标,以提高教学效果。
在许多光学路由中,对于给定一组通讯路的集合,必须对有公共边的路安排相同的波长,为了充分利用光学的带宽,目的是安排尽量少的波长数,但有时候也考虑使用波长转换器,如果一个顶点安
CC4神经网络是一种三层前馈网络的新型角分类(corner classification)训练算法,原用于元搜索引擎Anvish的文档分类。当各文档之间的规模接近时,CC4神经网络有较好的分类效果,然而
研究防火墙(或过滤路由器)应用于传输网络中的管理问题与吞吐量问题.一方面,手工配置分布在各个接入点的大量防火墙,无法满足开放的、动态的网络环境的安全管理需求;另一方面
<正>临床资料患者52岁,男性,农民,长期吸烟,1包/天,约30年。因"反复咳嗽、咳痰、呼吸困难半年"予2017年12月29日入院。查体:体温37. 2℃,脉搏96次/分,呼吸21次/分,血压134/85
一位农村青年叫余创,他1990年初中毕业后,因家境困难,告别贫瘠的故土,挤上南下的列车,去广东湛江姨父家打工。 在姨父家近一年,学到了姨父的一些养鱼技术。1991年4月回到家中
传送功率控制是无线自组网中资源管理和控制干扰的中心技术、传统上功率控制只是用作消除信道消隐负作用的一种手段,当前观点一般认为功率控制是一种可以为单个用户提供服务质