互联网信息关键词抽取的研究与实现

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:guobinlei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词抽取是自然语言处理领域中重要的基础技术,被广泛应用于信息检索、文本聚类、文本分类等方面。目前,互联网中的资讯规模急速增长,包含了大量富有价值的数据,关键词是检索及分析互联网信息的重要手段。但是,相当数量的网页没有标注关键词,通过人工标注是一个繁重而又困难的任务,因此,需要一种自动抽取关键词的方法。同时,以微博为代表的新兴信息传播平台出现,具有与传统媒体不同的传播特点,需要对传统文本关键词抽取方法做出改进。此外,互联网具有传播快速和参与广泛的特点,使得大量新词不断涌现,也给中文信息处理带来了挑战。   本文从两个方面研究互联网信息:以网页为代表的长文本信息、以微博为代表的短文本信息,主要研究工作如下:   针对网页信息,提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。首先,选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词;然后,根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,通过无监督方法将候选关键词扩展为关键词串。实验数据表明,该方法能在一定程度上改善针对未登录词及短语的抽取结果,提高中文网页关键词抽取结果的质量。   针对海量微博信息,提出一种多步骤的热词抽取方法。首先,选择用户行为特性、微博信息的文本特征构建用户行为模型,并在此基础上,提出一种基于规则的话题树生成过滤算法,筛除微博中大量无关信息,进而对生成的话题树修剪优化;然后,根据话题树的节点内容,使用词频及其波动特性设计热词抽取算法,获取微博的热词信息。实验数据表明,该方法能大大减小输入的数据规模,同时保留重要信息,从而较好地实现热词抽取。   最后,在上述研究工作的基础上,本文设计了一个互联网关键词自动抽取系统,系统实现对网页及微博的自动抓取,并且抽取其中的关键词,实验证明,获得的结果具有一定的可读性及实用性。
其他文献
磁悬浮技术是将电磁学、动力学、电力电子以及自动控制等多学科有机结合在一起,并随着这些技术及理论的发展而建立起来的一种典型的机电一体化技术。目前,越来越多的国内外学
随着电子控制技术的迅速发展,电子节气门将取代传统机械式节气门。电子节气门控制系统能够根据驾驶员操作意图、汽车工况、外部环境等因素控制节气门的开度,实现最佳进气,电
行人运动目标的检测和跟踪技术在视频图像处理领域是个很活跃并且很实用的研究方向,行人的检测与分析在地铁、道路、超市出入口等交通通道的客流量统计中有着重要的作用,尤其
随着收押人数的逐年增多,犯罪分子知识水平的不断提高,监狱对在押人员的管理难度越来越大,警力不足的问题日益突出。设计监室管理系统可彻底改变目前这种“人防”为主的勤务
涡街流量计由于无机械可动部件,安装方便,量程比较宽,并且可以测量气体和液体介质等优点,被广泛应用于石油化工等领域。但是,涡街流量计在实际应用中,由于目前普遍使用应力式涡街流量计,容易受到管道强振动干扰容易对测量精度造成的较大影响,特别当振动信号能量大于涡街信号能量时,功率谱分析的方法无法正确得出涡街频率。因此,抗强振动干扰问题是涡街流量计亟需解决的问题,本文基于单传感器抗强振动干扰问题进行了算法和
随着基于P2P的流媒体视频点播(P2P-VOD)系统的日益流行,许多工作都致力于研究如何提高该类系统的性能,以使得系统能更好地支持VCR操作。本文针对P2P-VOD系统,以提高系统性能为目
随着计算机技术、互联网技术的快速发展,数字图像库越来越庞大,传统的基于文本的图像检索方法已经不能满足人们的需求。基于内容的图像检索技术进入人们的视线并迅速成为当前的
猫从高处坠落能安全落地的能力一直被研究者们关注。当一只猫从高空跌落时,它总能通过姿态调整使四肢朝下,加上腿部具有减少地面冲击作用,最终能实现安全落地。机器人在未知
随机系统是一类状态演化表现为随机过程的动态系统,它广泛地存在于实际的工程应用中。相较于一般的确定性系统,其稳定性分析、控制器设计、滤波等问题都更为复杂。本文特别关注
随着能源消耗日益增长、环境污染日渐严重,迫使人们考虑新能源和可再生能源的开发和利用问题。风能已经发展成为世界各国普遍关注的新能源,由此风力发电技术的研究和应用在这几年中突飞猛进,而矢量控制技术在风力发电中具有关键性作用。本文分析了双馈风力发电机的基本工作原理和数学模型,木文介绍了双馈发电机两电平电压型双PWM变流器工作原理、拓扑结构,建立了其基于开关函数的数学模型,并依照功率恒定原则进行三相静止坐