互联网新技术术语发现研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:qqllql
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网科技蓬勃发展,新技术术语层出不穷。云计算、大数据、物联网等信息通信技术的发展,互联网+与各领域的融合,AI浪潮推动使互联网行业的竞争格局新变化。及时发现互联网新技术术语,可以辅助领域知识库构建,帮助人们把握互联网科技领域动态,发现研究热点和研发机会。本论文主要研究以互联网科技领域各种相关新闻资讯、博客、微信公众号作为信源,自动发现其中的新技术术语,例如:“虚拟货币”、“自动驾驶”、“胶囊网络”等复合型新技术术语。  统计学的术语度指标可以表征抽取词成为与特定领域有关的专业词汇的可能性大小。传统的TF-IDF术语度存在以下问题:①低频术语不易被提取。②对于“领域噪音”过滤能力不足。③将文档不同位置的权重不加区分。本文提出基于聚类和位置加权的wTF-ICF术语度算法。根据术语和噪音词位置分布特点,提出了从标题到正文不同位置权重递减的加权词频wTF统计方案。此外,将信源文档集按照内容相似度聚类,计算候选词的逆簇频率ICF。高频术语对应的文档数非常多,内容可能涉及多个不同的子话题,可能在多个簇中出现,低频术语可能聚成极少数的簇,故低频术语的ICF值会相对较高,从而缓解了低频术语不易提取的问题。由于领域噪声和背景噪声的出现并不依附于具体的新技术术语或话题,而是随机分布在很多不同的簇,故ICF得分很低。这样,降低了领域噪声、背景噪声的术语度得分。实验证明,根据wTF-ICF术语度算法可以很好地从候选词集合中初步筛选出新技术术语。  领域术语抽取通常采用机器学习算法将候选术语的语言学特征、统计学特征相结合。常用的是二分类或者序列标注的方法,这种方法只能定性判别哪些是术语,无法评价候选术语之间的好坏,无法量化每个候选术语的可靠性程度。而采用的单一统计指标或复合统计指标,并不能完全确定候选词应当是术语还是非术语,如“比特币”为强概率术语,“移动端”为弱概率术语。从排序学习的角度出发,我们提出了一种基于Learning-to-Rank的排序学习方法来进行候选术语的可靠性排序,并从语言学、统计学、位置分布、word embedding等多个维度提取候选词的特征,选择pointwise和pairwise方法和分类算法进行对比实验,结果表明Learning-to-Rank的方法提高了术语的准确率和召回率,并能给出一个更加有意义且用户友好的新技术术语列表。  最后集成前两部分的研究内容,设计并实现了一个完整的互联网新技术术语自动发现系统INTTADS(Internet New Technology Terminology Automatic Discover)。系统主要包含基于标题奇异度的垃圾文档过滤、基于单元度的候选术语提取、基于领域无关词的垃圾候选词过滤、基于wTF-ICF的术语度分析、基于Learning to Rank的候选术语排序这几大模块。应用于互联网新技术术语的自动发现,在实际中达到了良好的效果。
其他文献
伴随着科学技术的飞速发展,尤其是计算机技术等日新月异,各种数据也在逐渐增多。这大大促进了数据库技术的发展。海量数据的涌现使人们不借助工具就无法处理。如何从海量数据中
学位
长期以来,过程感知信息系统的研究主要是从过程建模和过程实施的技术角度出发,而对其所表现出的过程价值性却关注甚少,这主要表现在:(1)传统的成本分析方法将PAIS系统与一般软件
以XML文档形式发布和查看数据库已经成为时下研究的热点。这种方法主要来自于XML的普及,利用XML提供的工具可以对封装信息实现可视化处理。本文研究了这种方法为模糊数据处理
无线传感器网络(Wireless Sensor Networks,WSNs)由随机分布的集成了传感器、数据处理单元和通信模块的微小节点通过自组织的方式构成。它借助于节点中内置的形式多样的传感
提高软件可靠性是软件开发的重要课题之一。软件可靠性手段包括分析、测试和验证等,其中测试的投入往往占系统开发总成本的很大比例,因此测试效率的提高可以有效缩减成本。但
随着我国城市化进程的不断加快,铁路客运市场需求不断快速增长,传统的人工售票方式已经难以满足大流量旅客快速乘车购票的需求;另一方面高速铁路客运专线建设尤其是京津客运
随着新时期军队的数字化,具有快速、高精度、高稳健性等突出优势获取DEM数据的多基线InSAR技术,已经成为获取虚拟战场地表信息最具潜力的观测新技术之一。但目前国内外多基线
随着Internet的快速发展和普及,网络化应用大量涌现。Web应用是Internet中典型的应用,近年来也出现了多种被业界概括成Web2.0的应用类型。Web2.0应用包括博客(Blog)、播客(Podc
模式识别技术已经在社会的各个领域发挥着巨大的作用,是一个具有重大科学意义的研究领域。信号波形轮廓形态的分析和识别是模式识别应用中的一个重要技术,具有广泛的应用。句法
现实世界许多应用中的数据,不是有限的离散数据集,而是无限的连续数据集。这种由连续、无限、随时间变化的数据项组成的有序序列被称为数据流。数据流的到达速度及数据量一般是