基于自然标注信息和隐含主题模型的无监督文本特征抽取

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:dusan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
术语和惯用短语可以体现文本特征。无监督的抽取特征词语对诸多自然语言处理工作起到支持作用。该文提出了"聚类-验证"过程,使用主题模型对文本中的字符进行聚类,并采用自然标注信息对提取出的字符串进行验证和过滤,从而实现了从未分词领域语料中无监督获得词语表的方法。通过优化和过滤,我们可以进一步获得了富含有术语信息和特征短语的高置信度特征词表。在对计算机科学等六类不同领域语料的实验中,该方法抽取的特征词表具有较好的文体区分度和领域区分度。
其他文献
近些年来与花岗岩有关的有色金属矿产成为矿床勘查和开发的重点对象之一。如何结合我国的具体地质实际,深入开展这类矿床的地质研究与勘查开发工作,是一个亟待解决的重大问题
目前上海自由贸易区内的文化产业发展势头强劲,但各种问题也逐渐产生,如国家相关的政策不够完善、跨领域间的合作缺乏、业务较为单薄等。上海自贸区作为国内首个"改革创新的
<正>论"十年",能见证事务所的稳步发展,可回顾建筑师的摸索奋进;论"胜景几何",是李兴钢——中国现当代颇具代表性的著名建筑师,对自己十年的工作和思想变迁,所做出的清晰的梳
纳税筹划是企业的一种理财活动,在投资回收期长、政策性强、投资风险大、资金占用量大的房地产业进行纳税筹划非常必要。针对我国房地产开发企业的特殊性,提出了房地产开发企
针对股票选取的多因子问题,利用MATLAB软件建立股票的基本面指标(市净率、市盈率、资产负债比率等)、技术面指标(当日涨幅、10日涨跌比率ADR、10日相对强弱指标RSI、当日K线
<正>两年前,曲阳某雕塑工厂的举措让我着实吓了一跳:居然有成千上万的城市雕塑预制件!它们被打上产品标号,密密麻麻、星罗棋布充满了厚厚的几本产品介绍书页,任由顾客挑选去
<正>"1981年,美国艺术家理查德.塞拉(Richad Serra)的《倾斜的弧线》在纽约联邦广场落成。这是一件12英尺高,120英尺长的作品,由一种露天环境中会生锈的钢板制成的巨大弧形雕
<正>项目名称:纽顿轩公寓新加坡项目地点:新加坡,牛顿路60号设计及建造时间:2003年12月~2007年6月项目造价:2350万新币建筑面积:11834.93m~2用地面积:3842.5m~2主要景观植被:
<正>在芝加哥联邦政府中心广场上坐落着一件纯红色巨型雕塑《火烈鸟》。它形似一架弯下了吊臂的起重机模样,高达15.9m,整个作品用钢板铆接而成,人们可以在它的身体下穿行。以
顶岗实训是高职教育培养面向企业的高素质技能型专门人才的重要手段,通过对旅游专业群学生顶岗实训运行情况的分析,初步进行了旅游专业学生企业顶岗实训管理方法,为企业顶岗