短信联系人关系判断系统设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yyzw98
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
短信是人们日常生活工作中常用的一种通信工具,通过对其内容的分析获得联系人之间在现实生活中可能存在的关系,有助于短信数据的再应用。目前可用于短信联系人关系判断的系统很少,但是该类系统具有很重要的理论和应用价值,因此有必要对该系统进行研究和设计。考虑到中文短信的非规范化和非结构化,在对常见的文本分词方法进行介绍和分析的基础上,本系统选择了恰当的分词方法对短信进行分词操作,同时使用《百度停用词表》对分词结果中的停用词进行了去除操作。在对传统文本表示方法进行分析的基础上,选择了向量空间模型进行短信文本的表示,并根据短信的特点,设计了满足需要的短信文本特征向量。在确定了特征向量之后,对主流的分类方法进行了讨论与分析,选择了K最近邻方法作为本系统的分类方法,并针对K最近邻(K-Nearest Neighbor,KNN)算法效率不高的问题,提出了用高效的K中心点聚类(K-medoids)方法对样本进行裁剪的方法。以此来提高分类系统的效率和准确性。介绍并选择了相关技术后,对系统进行了详细地设计。将系统分为了文档解析模块、文本预处理模块、特征提取模块和分类模型建立与应用模块。详细介绍了各个模块的流程与实现方法。最后设计了相应的实验方案,对系统进行了进行了短信联系人关系的判断实验,实验结果表明系统拥有较高的效率及准确性。
其他文献
名词动用是先秦汉语乃至现代汉语中一种常见的复杂的语言现象,以往对该现象的研究主要停留在描写层面,较少涉及更深层次的解释。《左传》是先秦时期一部重要的历史文献,具有很高的语料价值。从认知角度出发,运用原型范畴、概念转喻和概念隐喻等相关理论分析《左传》中名词动用现象,对了解上古汉语中名词动用的语义基础和认知机制具有重要意义。名词动用现象,属于原型范畴,范畴内的成员有典型和非典型之分。词类活用和词的兼类
淀粉作为一种天然可再生高分子资源,具有来源广、价格低、可降解等优点,这使其成为三大浆料之首,并在天然纤维素纤维及其与化纤混纺经纱的上浆中大量使用。但淀粉材料分子结
增强型长期演进(Long Term Evolution Advanced,LTE-A)是基于LTE的技术演进,是3GPP(The Third Generation Partnership Project)提出的一种新型的标准。LTE和LTE-A的同频组网
剩余污泥随着污水厂的建成而大量产生,严重危害人类健康和生态环境,将剩余污泥用于制备活性炭可解决这一难题。本论文以污水处理厂的剩余污泥为原料,选用ZnCl2、KOH和H3P04三
随着云计算技术的普及,用户可以通过互连网络获取自己所需的资源,系统以云服务的形式满足用户的请求。然而,对于同一个用户请求,往往有多个具有相同功能而服务质量(QoS)不同
进入信息化时代后,许多企业和组织机构纷纷部署自己的信息系统。主要的方法是独立购买相应的计算机硬件设备和软件系统,然后组织专门部门和技术人员负责部署、管理和维护。这
铜(Cu)是植物生长发育所必需的营养元素之一,当其过量时会对植物造成严重的伤害,同时也是对环境造成严重污染的元素之一。由于铜的氧化还原特性,能够通过Fenton反应产生如O2
近年来,随着网络规模的日益扩大,入侵检测设备必须对海量的网络流量进行分析,然而,这些网络数据集具备维数高、冗余大等特点。现有的特征选择和聚类等方法在简化计算量方面取
目前互联网发展已经非常迅速,伴随着也产生更多的Web应用,在此基础上对于Web应用的要求也逐渐变高,为此需通过技术和方案来实现对用户请求的高效处理,满足用户需求,在大规模
可见光通信技术(VLC)近几年来受到研究者的广泛关注。可见光通信使用的是未授权的可见光频谱,海量的潜在带宽是可见光通信最大的一个优势。除此之外,可见光通信还具有安全性