TF-IDF相关论文
随着虚拟化技术的爆炸式增长,Docker已占领了容器技术主流市场,但由于其轻量级的隔离方式导致安全问题频出.如阿里、京东、字节跳动......
作为一种新颖的金融模式和商业形态,金融科技的出现拓展了服务对象范围,普及了各种新兴金融产品。在金融科技的冲击下,作为在金融......
区块链技术的出现给各行各业带来了新的变革,同时也给诈骗提供了新的平台。作为金融诈骗的代表形式——庞氏骗局借助智能合约在二代......
随着互联网行业的不断发展以及网络覆盖率的逐步扩张,包含各种各样社会、娱乐的信息和新闻在网络社交媒体上广泛传播,其中不乏普通......
城市建设步入高质量发展的新时期,客观准确地进行城市现状用地功能识别,是确定城市未来发展方向的基础,有助于推动国土空间规划顺......
由于互联网和自媒体的快速崛起,人人都可以是内容生产者,各种信息文件呈爆炸式增长。我们不缺乏信息的来源,但找到需要的信息却愈......
食品检测数据作为食品风险分析的重要工具,针对同类食品所做检测项目不同而导致最终的数据矩阵部分缺失,且已有的食品检测数据大部分......
数据的自动分类有利于实现数据高效管理。针对政府结构化库表数据中标签数据少、数据交叉多所导致的分类难点问题,提出了结合知识图......
在信息数据爆炸式增长的今天,各类信息如潮水般呈现在人们面前,利用文本分类技术可以高效、准确地找到人们需要的有关分类信息,为进一......
近些年来突发事件的频发使得人们对该领域的关注越来越多,因此对突发事件进行自动分类的研究,以提高文本分类的效率。在构建突发事件......
卖空机制能够有效约束信息披露中管理层语调操纵现象,是提升信息披露质量重要的外部治理机制。本文利用2004—2019年中国A股上市公......
随着信息时代的到来,网络上充斥着越来越多的数据信息,使得用户面对大量数据信息时不能从中得到感兴趣的部分数据信息,导致用户浪......
近年来自驾车旅游人数与日俱增,自驾车营地建设也随之增多,但新兴行业缺乏统一的标准,直至2019年9月《自驾车旅居车营地质量等级划......
为了实现根据商品标题信息进行商品自动分类的功能,提出了基于词频-逆文本频率(TF-IDF)的中文Fasttext商品分类方法。该方法首先利用F......
用户画像是真实用户的虚拟代表,是建立在一系列真实数据之上的目标模型,可以用来描述用户的需求、个性化偏好以及用户兴趣。随着近......
裁判文书记载人民法院审理的过程和结果,它是诉讼活动结果的载体。法院经常需要针对不同主题或者案由的案件做专题分类统计,但是相......
近年来,深度学习理论被广泛应用在各个领域之中,在机器翻译、语音识别、计算机视觉等领域都有着优秀表现。现如今的信息时代充斥着......
随着互联网技术的飞速发展,文本信息资源不但呈爆炸性增长,同时还蕴藏了大量可利用资源。因此通过机器学习、模式识别、深度学习的......
近年来互联网的发展给世界带来了焕然一新的面貌,电子商务异军突起,进入大众视野,持续改变人们的生活习惯,O2O(Online To Offline)商......
随着首个在线旅游数据生态共建倡议书的发布,在线评论数据更加真实、准确地表达顾客的客观感受,成为商家和消费者情报的重要来源。......
在当今互联网环境下,愈来愈多的文档出现被随意复制、修改、变换格式、替换同义词等现象,这将导致大量核心内容甚至全部内容一样的......
在互联网信息量越来越大的情况下,如何快速、有效地从海量的信息中提取用户关注的热点话题,已成为互联网信息处理的基本任务.本文......
[目的 /意义]从海量的学术文献内容中,抽取科研人员所需要的目标数据,一方面有助于提高研究者的科研效率,另一方面有利于改善目前......
随着全球制造水平的提高,下游制造业对带钢产品质量要求越来越高。带钢表面质量评估作为带钢产品质量检验的重要一环,对用户选择具......
协同过滤技术存在数据稀疏性和可扩展性问题,容易导致推荐准确度和推荐效率低下,严重限制推荐技术发展。针对上述问题,本文采用频......
我国已经形成了较为完整的建筑标准体系,该体系能对建设项目的设计、施工、验收等各个阶段进行规范。目前,建筑从业者使用建筑标准......
视频是承载着动态信息的多媒体载体,蕴含了丰富的语义信息,而高层的语义信息与常规认知中的低层特征之间常常存在“语义鸿沟”。为......
工业化进程的加速和城乡建设空间的扩张推动了我国城乡结构的巨大变化,具体而言,2019年我国的常住人口城镇化率约是1978年的3.4倍,......
文本相似度计算是文本挖掘过程中的一项关键技术,被广泛应用于文本分类、机器翻译、搜索引擎、抄袭检测、自动问答等领域。目前应......
随着互联网的发展,传统的教育方式受到冲击,在线学习成为国内外高校关注的热点。传统的批改编程作业的方式给教师和学生带来了极大......
城市热点分布决定了城市的空间结构,为对城市热点进行分析,提出一种基于社交媒体签到数据的城市空间热点分析方法.首先,针对离散化......
针对传统分类标引系统算法模型准确率低、难以有效解决线性不可分数据的分类问题,引进了SVM模型,设计了基于SVM的书目数据智能分类......
传统的基于纸笔测试方法的教育评价,因其具有公平公正、公开透明的特点而在我国得到了广泛的应用。然而,基于纸笔测验的教育评价注......
2020年初,新冠肺炎的爆发改变了普通民众的生活习惯,长期居家无法外出导致民众情绪起伏,网络媒体作为疫情信息交流的前沿阵地承担......
随着互联网技术的高速发展,人们可以方便的从各类网页上获取海量信息和资源,生活生产方式与互联网的联系越来越紧密,然而网络规模......
随着互联网信息技术的快速发展,数据规模的速度呈指数增长,文本信息出现爆炸性增长,人们几乎被文本大数据所淹没。庞大的文本数量......
文本分类是自然语言处理技术之一,许多研究都与文本分类有关,例如新闻主题分类、问答系统分类和电影评论分类等。依靠人工进行文本......
随着互联网大数据的普及,云计算作为一种多技术的集成创新,企业和个人越来越愿意应用各种便捷高效的云服务进行海量数据存储和共享......
眼睛是心灵的窗户,人类从外界接收到的信息中,大部分来自眼睛,同时人类也会通过眼睛释放出一些潜在信息。眼动仪是集成了红外光源......
基于现有文档相似性比较方法进行改进,该方法由前人提出,但在实际应用中暴露出问题.所提出的改进是对现有方法过程进行部分改进,如......
文章提出了一种基于主题分类与语义相似度的专利推荐算法.该算法通过引入神经网络Bert,将专利标题及摘要进行关键词提取与词向量转......
为了解决传统TF-IDF算法太过依赖词频,未考虑关键词在不同文本的不同分布对其权重影响的问题,提出一种基于信息论的TF-IDF特征选择......
构建好的文本向量表示对文本情感分类任务十分重要.针对文本中词语类别区分能力的不同,提出了一种用改进的TF-IDF加权Word2Vec的文......
[目的 /意义]如何将网络文物信息资源中不同的知识提炼后推荐给有关用户,是文物信息资源开发与利用过程中的关键问题.[方法/过程]......
电商市场日益完善,网络购物成为更多人的消费方式,用户在电商平台上保留了大量的产品评论信息,通过人工对文本评论情感分类任务愈......
近年来,自然语言处理领域的研究出现的文本向量表示方法大多无法解决一词多义的问题,导致向量的表示脱离句子意义,引入BERT模型利......
情感词典技术是文本情感分析的基础。受领域的限制,基础情感词典并不能满足特定领域的情感分析的需要。本文提出一种融合词向量和......