基于改进的Trie树和DFA的敏感词过滤算法

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:gulingling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过对文本内容中敏感词过滤方法及相关技术的研究,提出了一种基于改进的Trie树和DFA的敏感词过滤算法,解决了敏感词过滤技术中的人工干扰、分词障碍等关键问题,提高了文本中敏感词过滤的准确性和有效性。提出的算法包括三个步骤:基于排列组合的数学原理对中文词向中拼混合词进行扩充;采用改进的Trie树结构来存储DFA的所有状态,构建敏感词树;根据构建的敏感词树结构以及采用最小匹配规则对文本内容中的敏感词进行检测和过滤。通过分析得到构建敏感词树算法的时间复杂度为O(n×■),敏感词检测及过滤算法时间复杂度为O
其他文献
分析日本现代建筑中的传统要素表现方式。文章分析了日本传统建筑的形成背景和特征,并以日本现代主义建筑大师隈研吾的作品为研究对象,分别从材料的表现,自然与建筑的连接方
本研究以明胶、壳聚糖为主要原料,考察了采用层层自组装(LbL)技术制备的可食性涂层对樱桃柿子的保鲜效果。通过分析明胶、壳聚糖的浸涂顺序、涂层层数、明胶浓度和壳聚糖浓度
在新时期的草原丝路建设中,探索城市公共设施设计对于本土民族文化地域性特色的传达与展现。通过对鄂尔多斯市蒙古族部落文化进行研究、阐述,挖掘出当地蒙古族传统文化的地域
针对传统LDA类半监督特征提取方法的解矢量非正交、解空间不稳定和非线性处理能力不足等问题,提出LPA-SKFST方法。该方法的前置级LPA通过标签传播提高标记样本容量,后置级SKFST(半监督核最佳鉴别矢量集)采用双向正则方法对KFST引入全局结构保持正则和Tikhonov正则,并以成对空间求解方法求取Fisher分母矩阵奇异和非奇异时的统一形式解。在circle、iris、wine和自有珍珠光谱
针对人工蜂群算法开发能力不足的问题,提出一种子种群规模可变的多种群人工蜂群算法(DMABCPS)。在算法中,以个体均值位置作为中心点将整个种群划分成多个子种群;雇佣蜂阶段使用三种不同策略协同搜索,保证对优良种群的开发、中间种群的平衡和较差种群的探索;观察蜂阶段采用基于成功率的选择机制对两个搜索策略进行自适应选择;此外,算法建立了新的概率选择模型,对子种群以及其内部个体进行选择。最后,通过22个标准
新型非易失存储(NVM)可字节寻址,具有近似内存的低延迟特性以及外存的非易失性,受限于软硬件技术成熟度,目前首先被用于外存。讨论了NVM用于持久性外存所面临的一系列问题,以及管理上的一些挑战;对现有的典型NVM文件系统及其主要特性进行了梳理。归纳起来,这些特性主要围绕降低一致性开销、降低软件栈开销、内存与外存的融合、分布式文件系统、NVM文件系统安全、容错、空间管理几个方面展开。最后,展望了NVM
航运联盟成员在运力合作时,在数据共享和信任方面的协同存在一定障碍,导致联盟利益最大化的目标难以实现,而区块链的去中心化、共识机制、智能合约、分布式账本等特点可以保障联盟利益分配的公开透明,无法窜改。因此,以联盟成员之间的舱位互租为研究内容,将博弈论、数学规划思想和区块链技术结合构建利益分配机制,实现舱位在成员之间的合理分配和联盟利益的最大化。最后,通过区块链的Hyperledger Fabric技
知识图谱表示学习将实体和关系映射到一个连续的低维空间。传统学习方法是从结构化的三元组学习知识表示,忽略了三元组之外与实体相关的丰富多源信息。针对该问题,提出一种将实体概念描述和图像特征与事实三元组相结合的知识图谱表示学习模型DIRL。首先,利用BERT模型进行实体概念描述的语义表示;其次,使用CNN编码器对图像总体特征进行提取,然后通过基于注意力的方法表示图像特征;最后,将基于概念描述的表示和基于
目前多种眼部信息被用于情感识别,针对一般眼部信息如注视时间、瞳孔直径、扫视时间等数据需要使用专业的眼动仪采集这一问题,提出了一种基于瞳孔位置的情感识别方案。该方案采用基于梯度的瞳孔定位算法,直接从面部视频中获取瞳孔位置坐标数据。对于预处理后的数据,又提出了综合波形复杂度作为特征值,通过对瞳孔位置坐标波形进行分段,求取所有分段之间的相关性系数绝对值之和,从而得到波形的综合复杂度。实验结果表明,瞳孔位
针对樽海鞘群算法在对函数优化问题求解上出现的求解精度不高、收敛速度慢的缺点,提出了一种改进的群海鞘群算法。对于领导者引入加权重心取代最优个体位置,防止过早聚集在最优个体附近;对于追随者引入自适应惯性权重平衡算法的全局搜索和局部寻优能力;最后对于个体进行逐维随机差分变异,减少维间干扰,提高了种群的多样性。仿真实验结果表明改进的樽海鞘群算法在均值、标准差和收敛曲线优于标准樽海鞘群算法和其他改进算法,说