基于软件介绍文本的网传识别及应用研究

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:lang_yin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络传销由传销发展而来,是一种借助互联网传播的新模式,具有传播速度快、涉案范围跨地域、隐蔽性强等特点。网络传销恶化了互联网的良好环境,严重影响了群众的财产安全和社会的和谐稳定。因此,对网传传销行为进行识别和监测具有重要意义。目前,关于传销行为的检测研究主要存在两个问题:一是研究所用数据,由人工收集并整理得到,耗费大量时间精力,不能通过感知互联网信息自动识别传销行为;二是一部分研究从账号资金交易的行为数据着手,将识别传销行为的领域范围局限在金融传销,而传销还包括电商直销等领域。因此,本文主要研究如何从互联网信息中感知网传线索,发现可疑的网传目标,其对于监管部门侦查和打击网络传销具有一定的理论意义和应用价值。在第三章中,首先经研究得知:网传项目通常借助APP应用发布如何发展下级成员及其对应收益的运营模式等奖金制度。因此,本文选择pc6网站为爬虫站点,爬取其上金融理财类和生活服务类APP的软件介绍文本为基础数据,进而实现对网传项目的分类识别。然后,基于已知传销项目的奖金制度文本,计算各词语的逆文档频率IDF值,从而构建网传的奖金制度特征词典。并且,结合三类特征词的不同特性,自定义其计分机制。最后,通过识别实验的精准率确定最优的分数阈值和一类特征词总词频阈值,并统计分类结果得到:软件介绍文本为不均衡数据集。同时,分比例从识别为网传和非网传的类别中抽取样本进行人工标注,从而计算得到86%的召回率和80.96%的精准率。在第四章中,将上章的抽样结果作为训练集和测试集,使用文本分类技术对软件介绍文本进行网传识别。首先,本文引入类别相关因子CRF,并结合实际计算结果对其公式进行优化得到CRF*,提出基于文本类别信息的CRF*特征选择方法。实验表明,与传统TF特征频率和DF文档频率相比,CRF*特征选择方法在特征空间为5000维度时,其分类效果最好。然后,使用特征词在各类别中的词频比率RCTF因子对TF因子进行叠加,使用CRF*因子替换IDF因子,得到基于文本类别信息的TF-RCTF-CRF*特征加权算法。实验表明,与传统TF-IDF加权相比,使用TF-RCTF-CRF*进行加权的分类效果更好。最后在第五章中,对使用文本分类技术得到的网传目标进行进一步的监测分析,主要包括提取网传目标的名称、细分类型的判定和曝光度的判定三项工作。
其他文献
越南,在中国“走出去”战略和中美贸易战的影响之下,成为了企业移出中国的首选目的地。不过,因为中国-越南两国之间的文化、法律、环境等方面的差异,导致了在越中资企业不能直接采用中国工厂的管理方式到越南工厂,即使企业已经成功绕开新市场进入壁垒,内部运营过程中发生意想不到的纠纷,影响了生产活动的正常运作。运营出现诸多问题、生产效率低下、人力资源利用困难等是在越中资企业常遇到的问题之一。越南MS企业是典型的
学位
在资源匮乏与环境约束加剧的二十一世纪,推进绿色产业发展,促使其成为经济增长的新动力是中国乃至全球实现可持续发展的必然选择。中国最早于2013年提出“推动绿色发展,建设美丽中国”的诉求,并指出绿色产业发展俨然成为我国环境治理、增加就业、经济高质量增长的新驱动力。但受限于起步较晚与技术积累不足等因素,中国绿色产业发展较欧盟等发达国家间仍存在一定差距。同时,随着“一带一路”倡议的实施,经济全球化不断深入
学位
世界主要发达国家在经济高速发展的同时经历过严峻的环境问题,许多国际组织和各国政府除了末端治理之外更认识到了绿色金融在资源配置上发挥的积极作用。绿色金融能够充分发挥资金配置的激励机制,引导社会资金投向具有正外部性的绿色项目并实现产业结构的变革,这是全球各国实现可持续发展的关键一环。而我国经济尚处于向绿色低碳循环经济转型时期,同时产业结构正在不断优化调整的阶段,因此推动绿色金融发展,促进产业结构优化升
学位
随着比特币受到的关注日益增加,以比特币为代表的加密货币市场开始快速发展。2021年加密货币市场的总市值突破1万亿美元,为投资者提供了一个与传统金融市场相关度较低的投资平台。由于许多市值排名靠前的主流币种之间存在着同根同源的关系,主流加密货币的间的相关性非常高。对主流加密货币的价格进行统计分析后发现,为了在加密货币市场获得投资效益,可以从统计套利的思路出发,利用动量因子作为交易信号,构建一个截面型投
学位
中国目前正处于逐步实现全体人民共同富裕的新时代,优化收入分配已经成为经济增长中必须面对的问题,劳动收入分配作为收入分配中的重要组成部分,对收入差距起着至关重要的作用。然而,伴随着经济的持续快速增长,中国正面临劳动收入份额低位运行和技能工资差距持续扩大两大问题。与此同时,作为引领新一轮科技革命的战略性技术,人工智能正在全球范围内蓬勃兴起。由于技术革命推动经济增长的过程向来都是具有偏向性的,社会各界对
学位
股指期货,也被称为股票价格指数期货,是一种重要的金融衍生品。股指期货可以通过套期保值来规避风险,也可以影响股市的价格波动,使得股票市场更为活跃。我国三只股指期货的上市丰富了我国的金融期货种类,同时也满足了不同投资者的风险管理需求。因此,研究股指期货的市场波动和投资风险具有重要意义。随着计算机技术的快速发展,高频金融数据的获取和存储难度逐渐降低,越来越多的学者关注高频金融数据并展开深入研究,提出了一
学位
2020年以来,新冠肺炎疫情爆发后沪深市场开市的第一天,数千支股票跌停,随后疫情在我国得到良好的控制,疫情防控进入“常态化”阶段,国内股票指数回升,经济逐渐回暖。波动性作为股市的基本性质,可以帮助投资者估计股市风险和预测股票价格,寻找合适的模型和方法来研究股市的波动性和度量股市的金融风险至关重要。考虑到股市存在日内动量效应,本文对混频Realized GARCH模型进行拓展,将基于高频数据的Rea
学位
为了与国际审计准则接轨,同时为了增加审计报告质量,满足投资者的信息需求,我国财政部于2016年12月颁布了新的审计准则,进行审计报告改革。审计报告改革最重要的一点就是沟通关键审计事项。然而,各会计师事务所披露关键审计事项仍存在模板化趋势,信息增量仍没有得到显著提升。当被审计单位聘任的会计师事务所行业专长发生变化的时候,不同会计师事务所对关键审计事项的判断与披露是否会出现较大差异,从而提供更多的信息
学位
电子商务的蓬勃发展推动了退货运费险的诞生,使其迅速进入大众视野。退货运费险作为一款新型的互联网保险产品,虽然在一定程度上解决了消费者退货纠纷问题,但在使用过程中,并没有为保险公司带来期望收益。对此,本文从网购消费者角度出发,以预期损失定价法为基础,将贝叶斯网络方法引入退货运费险定价问题,提出一种基于贝叶斯网络的退货运费险定价模型以实现保费的合理定价,为制定退货运费险定价方案提供了一种全新的思路,具
学位
渐进迭代逼近(progressive iterative approximation,简称PIA)是一种简单且直观的散乱数据点拟合和插值的方法。作为Bézier曲线在三维空间的自然推广,三角Bernstein-Bézier曲面在计算机辅助设计和计算机辅助造型中作为造型工具而被广泛使用。因此,本文主要研究了三角B-B曲面的两种渐进迭代逼近性质——局部PIA性质和加速最小二乘PIA性质。针对均匀参数的
学位