短文本语言计算的关键技术研究

来源 :中国科学院研究生院(计算技术研究所) | 被引量 : 60次 | 上传用户:zane35
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着信息时代的到来,我国互联网事业和通讯事业发生了翻天覆地的变化,导致以电子形式存储和处理的数据爆炸性增长,存储成本的降低进一步使海量数据的存储和处理成为可能。这些数据中有很大一部分是长度很短的文本数据,如移动通信网络发出的手机短消息、即时通讯软件发出的即时消息、在线聊天室的聊天记录、BBS标题、博客评论、新闻评论等。各种形式的短文本已经成为我国各阶层普遍接受的信息沟通渠道和情感交流手段,深刻改变了亿万中国人的沟通方式和生活习惯。短文本数据量异常庞大,数据中包含人们对社会各种现象的种种观点和立场,话题涉及政治、经济、军事、娱乐、生活等各个领域,因此短文本语言计算在话题跟踪与发现、流行语分析、舆情预警等领域有广泛的应用前景。短文本伴随着Web2.0的兴起而逐步引起研究者的注意,目前短文本语言计算的研究方兴未艾。短文本独特的语言特征导致其语言计算不同于传统文本的自然语言处理。单条短文本一般长度都非常短,样本特征非常稀疏,很难准确地抽取有效的语言特征;短文本实时性特别强,数量异常庞大,对短文本语言计算提出了比常规文本语言计算更高的效率要求;短文本表达简洁,错误拼写、不规范用语和噪音比较多,给短文本语言计算带来了更大挑战。针对短文本的特点,本文对短文本语言计算的若干关键技术进行了研究,主要包括短文本的冗余检测、短文本的有意义串发现和幽默短信的识别等。本文的主要研究成果包括:首先,本文提出了短文本网络的概念,给出了两种常见的短文本网络的构建算法,这两种短文本网络分别为短文本指纹网络和短文本共现网络。通过构建短文本指纹网络实现了短文本语料的快速精确去重;通过构建短文本共现网络实现了短文本语料的快速近似去重。通过构建相应短文本网络,将短文本冗余检测问题转换为无向图的连通分支查找问题。本文还发现近似冗余短文本之间共现的一般是那些具有较高区分能力的词语,两条近似冗余短文本一般只是连词、代词、数词、标点符号等的使用不同,冗余传递性也是短文本语料特有的性质。本文提出的SimFinder冗余检测算法就是利用短文本语料的这些特性,进一步提高短文本网络挖掘的速度,从而提高短文本冗余检测的速度。再次,本文提出了一种大规模语料频繁模式发现算法──Crusher。Crusher提出了一种大规模语料的划分策略,将待发现频繁模式的原始语料划分为若干子语料。Crusher对每个子语料独立发现其频繁模式结果,并能保证对各子语料发现的频繁模式结果的并集即为原始语料的频繁模式集。Crusher能够避免处理低频模式,从而大大提高频繁模式发现的速度。本文还提出了有意义串的局部性原理。有意义串的局部性原理包括时间局部性、空间局部性、地域局部性、说话人局部性和会话局部性等。本文将局部性原理应用于有意义串发现,先使用Crusher算法发现若干候选有意义串,并记录各候选有意义串的出现位置,依据其出现位置计算各候选有意义串的局部性,AV值差不多的两个候选有意义串,局部性较好的更有可能为有意义串。局部性原理的应用能够更好地发现频次不是非常高的有意义串,从而提高了有意义串发现算法的准确率和召回率。最后,本文对人们熟悉的幽默手机短信的识别进行了若干探索,将幽默手机短信分为形式幽默和内容幽默两种,并对每一条短信分别计算排比指数、对联指数、押韵指数、内容幽默指数等,并综合计算其最终的幽默指数。实验表明,本文提出的幽默指数的计算方法总体上能够反映短信息的幽默程度,人工检验的结果表明,幽默手机短信的识别准确率能够满足实用需要,对短信关联的幽默指数也能够一定程度上反映短信的幽默程度。
其他文献
本文参考自然计算方法的思路,借鉴了博弈理论,模拟人类社会中的经济系统,通过对经济系统中人的行为和相互作用建立模型来构造出一个多主体系统,并使得系统在整个演化过程中呈现出
独立分量分析是信号处理技术的新发展,它作为盲信号分离的一种有效方法而受到广泛的关注。独立分量分析算法通过计算数据的高阶统计信息,可以从观测信号中估计出相互统计独立的
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
期刊
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
数据挖掘(DM)就是从大型数据集中抽取知识,其目的是发现深藏在一般数据之中的有用模式。本文介绍了DM的任务和方法,总结了DM的研究现状,指出关联规则发现和复杂数据挖掘是DM
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
【正】杜邦财务分析体系(The Du Pont System)是一种比较实用的财务比率分析体系。这种分析方法首先由美国杜邦公司的经理创造出来,故称之为杜邦财务分析体系。这种财务分析
<正>在有"美洲华侨之乡"之称的江门五邑大地上,清末民国时期修建的一座座青砖青瓦、古色古香、巍峨屹立的碉楼、洋楼、别墅以及华侨捐建的学校、医院仍然提醒着人们:这里曾经
会议