利用串匹配技术实现网上新闻的主题提取(英文)

来源 :软件学报 | 被引量 : 0次 | 上传用户：secretcode

【摘要】

：

从文本中提取主题串是自然语言处理的重要基础之一.传统的提取方法主要是依据“词典加匹配”的模式.由于词典的更新速度无法同步于网上新闻中新词汇涌现的速度,而且词典的内

【作者】

：

尹中航王永成蔡巍韩客松

【机构】

：

上海交通大学电子信息学院,上海交通大学电子信息学院,上海交通大学电子信息学院,上海交通大学电子信息学院上海200030,上海200030,上海200030,上海200030

【出处】

：

软件学报

【发表日期】

：

2002年02期

【关键词】

：

网上新闻匹配技术 string 网页信息字串自然语言处理串匹配 match instance extracting

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

从文本中提取主题串是自然语言处理的重要基础之一.传统的提取方法主要是依据“词典加匹配”的模式.由于词典的更新速度无法同步于网上新闻中新词汇涌现的速度,而且词典的内容也无法完全涵盖网上新闻的范围, 因此这种方法不适用于网上新闻的主题提取.提出并实现了一种不用词典即可提取新闻主题的新方法.该方法利用网上新闻的特殊结构,在标题和正文间寻找重复的字串.经过简单地处理,这些字串能够较好地反映新闻的主题.实验结果显示该方法能够准确、有效地提取出绝大部分网上新闻的主题,满足新闻自动处理的需要.该方法同样适用于其它亚洲语言和西方语言. The extraction of subject strings from texts is one of the important bases of natural language processing.Traditional methods of extraction are mainly based on the “dictionary plus matching” mode.Due to the speed of updating the dictionary can not be synchronized with the emergence of new words in the online news, and the dictionary The content can not completely cover the scope of online news, so this method is not suitable for the thematic extraction of online news.It proposes and implements a new method that can extract news topics without using a dictionary.With the special structure of online news, Search for repetitive strings between the title and the text, and after a simple process, these strings can better reflect the theme of the news.The experimental results show that the method can accurately and effectively extract the theme of most online news and satisfy the news The need for automated processing is equally applicable to other Asian and Western languages.

其他文献

对联

兰台长春室藏丰富列列组组密集架满载中华儿女赏心乐事门类齐全层层叠叠八宝箱盛装炎黄子孙伟业丰功远景辉煌党报政报档案报读报用报政通人和九洲传捷报民情国情兰台情尽情

期刊

兰台读报用报密集架九洲室藏

基于机能主义视角下的企业员工建言行为

本文以机能主义理论的视角分析了建言行为的动机基础,以便更好地理解员工为什么会做出建言行为。通过对文献的分析和梳理,本文提出建言行为的机能包含他人导向的机能和自我导

期刊

机能主义建言行为自我导向学习动机自我保护沟通行为亲社会行为内在动机交换关系社会交换

怎样理解“有计划的商品经济”

笔者认为,“社会主义经济是公有制基础上的有计划的商品经济”这句话,包括以下三层含意: 第一层含意,社会主义经济是商品经济,价值规律作用将渗透在所有经济领域,这是不依人

期刊

社会主义企业计划机制利益对立生产力水平社会主义公有制劳动能力运行调节比例关系分配形式杜会主义

Hunan Corun stopped the purchase of Yiyang Hongyuan

(Source:sina website) “Hunan Corun will positively participate in Hunan Rare Earth Industrial Group and is going to be the first largest shareholder.And the Gr

期刊

Hunanstoppedpurchaseguaranteepowerfulmateriasmeltingparticipatepositivel

精索结核病1例报告

精索结核病１例报告哈尔滨铁路肿瘤医院王娟王明兴漠河卫生院李翔云患者，男，４０岁。血精史４年余，在外院以抗痨治疗未愈，于１９９４年５月１０日来我院门诊。该患首次婚姻３年，因不孕离婚。再次婚姻１年余

期刊

抗痨治疗抗酸杆菌精液检查翔云泌尿系统结核生殖系统随访病人排精留检

尿路结石的螺旋CT平扫:适应证、技术和解释

螺旋CT平扫现用于检查急性侧腹痛的患者 ,以发现疑有尿路结石者。螺旋CT对尿路结石的显示比平片、超声或排泄性尿路造影更准确 ,而且用低照射量的方案即可完成。几乎所有的尿

期刊

平扫尿路结石排泄性尿路造影侧腹痛照射量影像检查黄嘌呤收集系统

小幽默

哈里少校是一个不学无术且又独断专行、好耍威风的家伙,所以他手下的人对他不仅敬而远之,而且经常拿他取笑。 (一)“这么严重的故障一定要抓紧时间修理” 一个周末的下午,哈

期刊

汽车分队员领克一修之

午后的时光

①当工友们如往常一样聚扰在一起沉醉于渐矮的砖垛和渐高的楼体以及仿佛已然变作一张张簇新的票子时，阿旺却独自躲到树荫下。平日短暂的午休变得漫长……来京打工已半年的阿旺

期刊

鸣蝉阿旺聚扰光里

雪落无声

雪，纷纷扬扬地落下了，一朵朵纯洁的白色的花朵，宛若一只只白色蝴蝶的翅膀，扇动着冬之灵韵，在风中慢悠悠地旋转着，舞蹈着，扑向大地的怀抱。　　鲁迅说，雪是死去的雨，是雨的精魂。而在

期刊

一朵朵生命形态我一化归洁净化西方国家浸洗

数字化成像在泌尿系检查中的临床应用

目的评价数字化成像在泌尿系统检查的临床应用价值。方法采用数字化成像对112例患者进行尿路造影检查,包括38例静脉尿路造影(IVP),74例逆行尿路造影。结果运用数字化成像能

期刊

数字化成像尿路造影检查泌尿系统疾病输尿管结石静脉尿路造影输尿管狭窄尿路梗阻充盈缺损肾母细胞瘤临床应用

利用串匹配技术实现网上新闻的主题提取(英文)

与本文相关的学术论文