领域术语自动抽取方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：rilton

【摘要】

：

领域术语是反映领域特征的词语，可以从一定规模的语料中自动抽取。领域术语自动抽取是自然语言处理中的一项重要任务，可以应用到领域本体构建、专业搜索、文本分类、类语言建模

【作者】

：

刘桃

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2008年期

【关键词】

：

领域术语自动抽取方法文本判别特征选择算法新词发现方法统计量度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

领域术语是反映领域特征的词语，可以从一定规模的语料中自动抽取。领域术语自动抽取是自然语言处理中的一项重要任务，可以应用到领域本体构建、专业搜索、文本分类、类语言建模等诸多领域，其研究基础是领域文本的自动判别技术。本文主要研究了领域文本自动判别方法、领域术语自动抽取方法及其应用，具体内容包括如下五个部分：　　第一，研究领域文本自动判别方法，首先针对完整分类体系下的领域文本判别问题，实现了一个包含多种可定制的特征选择算法和分类算法的文本分类评测平台。其次，针对基于正例和未标注数据的领域文本判别问题，提出了基于样本置信度划分的领域文本判别方法：采用多策略样本标注算法，自动标注尽可能多的样本，并为不同途径得到的标注样本赋予不同置信度，最后采用基于样本置信度划分的加权支持向量机算法进行分类器训练。与传统方法相比，该方法可以提高基于正例的领域文本判别的性能。　　第二，研究中文新词发现方法，为词语的领域类别判定提供候选新词。汉语词语是关联度较大、结合较为紧密的字序列。传统基于结合力抽取候选新词的方法均采用全局经验阈值的策略，而事实上很难选取一个恰当的全局阈值对新词进行合理有效的筛选。本文将局部最大算法引入汉语新词发现，利用词语的高内聚性和上下文独立性来筛选候选新词，并采用基于后缀数组的字串频率统计方法以提高计算效率，实验表明该方法是一种高效快速的新词发现方法。　　第三，研究基于统计量度的领域术语抽取方法，在中文分词的基础上，将属于特定领域的词语抽取出来。在给定领域对比语料的前提下，利用信息熵来衡量词语在不同领域类别间的分布以及在其相关领域类别内的分布，并根据语料规模作正规化，提出了基于正规化的类间分布熵和正规化的类内分布熵的领域术语抽取方法。实验表明该方法能够更加准确和鲁棒地抽取领域术语。　　第四，研究领域术语抽取自助学习方法。在给定种子术语集上，通过自助学习法来训练支持向量机分类器，利用术语分类器迭代地从未标注文档中获取属于给定领域的新术语。在术语表示上，传统方法将术语表示在文档空间中，这种表示法无法表示文档内部的信息，并且只能获取在多个文档中出现的术语。本文采用全局上下文表示法来表示每个词语，并采用潜在语义索引技术将词语特征空间映射到潜在语义空间。实验表明，基于全局上下文表示的术语抽取方法比基于文档表示的方法具有更高的术语抽取精度。　　第五，研究了文本自动分类和领域问答式信息检索两方面的应用技术。在文本自动分类方面，首先将新词发现方法用于特征集扩展，其次将基于正规化分布熵的领域术语抽取方法用于特征选择；在领域问答式信息检索方面，本文首先给出了领域文本自动判别技术在领域文本采集中的应用框架，其次给出了旅游领域概念语义网络的构建过程及其在问答式信息检索系统的查询扩展中的应用。

其他文献

岭回归及其改进的算法在红外光谱数据中的应用

红外光谱数据的模型构建是化学计量学研究的重要内容,根据红外光谱建模的目的不同,可以分为定量分析和定性分析,在分析的过程中,使用红外光谱数据建立预测模型,从中选取预测最佳的模型做预测。现代各种便捷式的红外分析仪器为样本的测量提供了方便,但是实际问题中碰到样本少且变量多的问题,通常采用最小二乘的方法建立模型就难以满足其建模要求。为了弥补这种建模方法的不足,本文就采用了岭回归算法,是一种专门解决多重共线

学位

基于数据仓库的辽宁省中小企业产业集群战略设计

随着国际分工的不断深化,在经济全球化和产业地方化的两大趋势的背景下,中小企业集群化成长作为一种广泛存在的经济现象,已经成为广泛关注的问题。经过多年的酝酿与发展,我国

学位

数据仓库产业集群BP网络REF网络

基于改进GrowCut算法的彩色图像分割方法研究

随着互联网技术与成像技术的不断发展，彩色图像分割成为人们日常生活需求的一项新技术，相应的越来越受人们关注。目前，图像分割方法主要向快速、自动、精确、健壮等方向发展。自

学位

彩色图像分割细胞自动机交互式图像分割法形态学重建

非高斯随机系统的残差分布和熵的研究与分析

状态空间模型是一类应用范围很广而且实用性很强的统计模型,在一定假设条件下,由状态空间模型导出的各类Kalman滤波和平滑可以应用到模型推断的各个方面,因此,状态空间模型对

学位

非高斯随机系统残差分布状态空间模型Kalman滤波线性时变控制信息熵

IMS体系离线计费采集系统的研究与实现

为适应IP多媒体应用的发展趋势引入了IMS(IP Multimedia Subsystem,IP多媒体子系统),它是第三代移动通信核心网络的重要组成部分,是实现全方位网络融合的最佳选择。离线计费

学位

Diameter离线计费计费采集功能高可用性主从热备IP多媒体子系统

基于GPU的流场可视化技术研究

流场可视化是科学计算可视化中最具有挑战性的研究热点之一,有着十分广泛的发展前景和应用领域。本文主要对计算流体力学流场数据可视化的方法进行了研究和探索。针对FDS(Fir

学位

流场可视化GPU标量场矢量场

社会治安动态防范系统中数据传输可靠性的研究

加强社会治安动态防范系统中多媒体数据实时传输的可靠性是提高视频监控有效性的重要环节,受到社会各界的极大关注。社会治安动态防范系统中多媒体数据实时传输不同于传统的

学位

社会治安动态防范系统拥塞控制RTP/RTCPSIPPadhye模型

基于.NET辅助教学平台的设计与实现

随着融合影像、语音和数据等多媒体信息网络技术的成熟，以及Internet的不断普及，使得网上教学获得了前所未有的强大技术支持手段。教学平台是适合校园网、通用性强的软件，提供一

学位

教学平台辅助教学平台多层体系结构ASP.NETADO.NET.NET框架

可复用资产管理系统中资产检索方法的研究与实现

随着软件行业的发展,软件的需求量迅速增加且软件系统规模也日益扩大,越来越多的软件企业意识到软件复用的重要性。软件企业实施软件复用最有效途径是对企业自身的资产进行复

学位

Dewey编码领域刻面检索可复用资产

基于自主配置的系统可生存性增强设计与实现

在现代网络环境中,各种社会活动对网络服务的依赖不断增加,然而网络服务系统的自然故障和人为破坏给信息化社会带来了普遍的灾害。因此,网络服务系统的生存性成为了人们越来

学位

可生存性增强自主配置TCP迁移

领域术语自动抽取方法研究

与本文相关的学术论文