多管齐下复制网页内容时去除多余字符

来源 :电脑爱好者 | 被引量 : 0次 | 上传用户:boge66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读

1.复制后的多余内容是怎么来的


  类似从百度知道中复制网页内容时出现的多余字符,其实是网站设置的一些代码,增加的这些看似“多余”的字符,是制作者不希望读者直接引用该内容,因此这些复制的内容只适合作为个人的参考资料,不适合发表。我们在使用时需要注意这个问题。
  这些代码不会在正常的网页中显示其内容,但复制粘贴后会显露出来。比如图1的例子,在网页中右击并选择“查看网页源代码”,在打开的页面中就可以看到在“简单”和“来说”之间有段代码,属性值是“hidden”(即隐藏),代码是“2112”(对应“bai”),这些代码所对应的内容会在粘贴为文本形式后自动显示(图2)。


2.对症下药解决问题


  既然多余字符是由于网页中的代码导致的,如果要解决这个问题,我们就需要根据不同的需求对代码进行处理。
  方法1:使用浏览器组件屏蔽代码
  现在很多浏览器都有“沉浸式阅读器”,在这个模式下会自动屏蔽上述代码。以在新核心的Edge中复制知乎页面的内容为例,当我们在页面上直接复制文本后,粘贴的文本没有换行格式,而且会在内容的最后自动加上版权字段。如果在打开的页面中点击地址栏后的“沉浸式阅读器”按钮,进入该模式后再进行复制,粘贴后就不会有这些字符了(图3)。
  如果网页(如上述的百度知道页面)不支持“沉浸式阅读器”,我們还可以在网页中按下“Ctrl+A”组合键全选内容(或者使用鼠标选中需要复制的内容),接着在网页中右击并选择“在沉浸式阅读器中打开”,手动设置网页使用沉浸式阅读器浏览(图4)。
  此外,我们还可以使用打印模式进行复制,依次点击Edge浏览器右上角的“…→打印”,接着在打开的打印窗口中进行文章的复制即可(在这个页面中也会自动屏蔽上述代码)(图5)。



  方法2:使用插件自动去除代码
  如果觉得上述的方法麻烦,那么还可以使用插件来去除。比如Edge的用户,可在扩展商店中搜索并安装“Tampermonkey”,启动该插件后点击“+”新建一个脚本,在脚本编辑页中按下“Ctrl+A”组合键全选默认的内容并删除。接着到“https://greasyfork.org/en/scripts/415814”下载脚本,下载后使用记事本打开并全选内容进行复制,接着粘贴到“Tampermonkey”的新建脚本窗口中,保存后即可使用(图6)。之后再打开百度知道页面,按下F5键刷新页面,再次复制内容,其中就不会包含那些字符了。
  如果要去除类似知乎网站复制后自带的字符,则可以使用CopyAsPlainText插件(同样在Edge插件商店中搜索并安装即可)。完成插件的安装后,在需要复制文本时右击并选择“CopyAsPlainText”,这样粘贴后就是选择的文本了(图7)。
  方法3:使用Word查找替换
  很多朋友喜欢将资料粘贴到Word中保存和整理,利用Word的“查找和替换”功能也可以快速完成整理操作。比如当需要将百度知道中多余的字符删除时,可在网页中选中需要复制的资料,接着使用鼠标将选择的内容拖拽到Word窗口中。拖拽完成后,在Word窗口中可以看到,其中字体为微软雅黑、字号为1的内容就是“bai、du、zhi、dao”这类的多余字符(这里为了方便文章显示,手动将“dao”设置成了二号字体显示),因此要删除这些内容,我们只要将字号为1的内容替换为空即可(图8)。
  具体方法是,点击“ 查找和替换”,点击“查找”下的“格式→字体”,在打开的窗口中,字体选择微软雅黑、字号选择1,替换为留空,点击“全部替换”即可(图9)。
其他文献
显存访问革命  在AMD推出RX 6000系列显卡的时候,同时宣布了一个“新技术”——Smart Access Memory,简称SAM。它其实就是一种让处理器可以访问全部显存,即拥有全部权限(Full Access)的技术(图1)。①  在十几年前,当显卡接口转向PCIe插槽时,显卡与处理器的通信能力就是PCIe总线的重要“卖点”。当然,处理器和显卡的通信并不是直接访问处理器或者GPU,那样会扰
期刊
自从英特尔的NUC面世,它基本上就在跟着每一代英特尔处理器升级,如今的最新产品当然就是NUC 11系列了。在这一产品线中不仅有我们熟悉的NUC 11 Enthusiast(代号Phantom Canyon幽灵峡谷)等型号,还出现了一个很特殊的模块化产品——NUC 11 Compute Element(代号Flk Bay)。作为一款专业办公型产品,NUC 11 Compute Element外形小巧
期刊
雖然显卡是决定电脑游戏性能的最重要配件,但处理器对游戏画面和运行的支持能力也是非常重要的一环,毕竟在游戏中出现的各种场景生成、物体的碰撞与破坏效果、NPC的行动等等还需要处理器的计算。  那么,目前在售的常见处理器,对游戏的支持能力如何呢?我们选择了处理器游戏能力测试时常用的3DMark软件,在其FireStrike项目中,“物理得分”与处理器在实际游戏中的表现相关性较大。  从成绩排行、分布可以
期刊
什么是AirTag?简单说,AirTag是一款可以挂在随身物品上的蓝牙追踪器。大小与硬币相仿,方便与其他物体挂在一起,只要AirTag离开配对的iPhone一定范围,手机就会发出声响、跳出警讯通知用户。若第一时间没有收到,也可以通过iPhone的“Find My”定位,一步步找回物品。  正如笔者所言,这种防丢失的工具设备,苹果并不是第一个开始制作的,今天笔者就带大家一起了解一下,我们这个世界在“
期刊
DTaskManager是免费绿色软件(下载地址:ht tp://dimiodati.altervista.org/zip/dtaskmanager.zip)。下载后解包,右键单击其中的DTaskManager.exe文件并选择以管理员身份运行,启动该软件。  软件运行后,其窗口默认置于最前端,该窗口会遮挡住其他窗口而无法将它们切换至前端。所以我们需要先最小化该软件,使其退缩到系统托盘上,或者右击
期刊
安装Windows系统或进行系统维护,拥有一份符合自身使用特点的WindowsPE启动盘很有必要。创建属于自己的WindowsPE启动盘其实并不难,用AOMEIPEBuilder软件就能轻易做到。  先下载并安装AOMEIPEBuilder软件(下载地址:http://www.aomeitech.com/pe-builder.html)。启动软件后会自动弹出关于该软件的基本功能的说明,大致包括如下
期刊
一、裁剪圖片  我们首先要在浏览器中打开“Resizing.app”网页,点击其中的“Clickheretouploadyourimage”按钮(图1),在弹出的对话框中选择需要处理的图片。它支持PNG、JPG、BMP、TIFF、GIF等常见图片格式,以及苹果的HEIC格式和谷歌的WEBP格式。该服务只支持每次上传一张图片,如果需要处理的图片比较多,只能处理完一张后再上传新的图片,略显繁琐,好在它
期刊
B560主板有何不同  与Z590一样,B560也能够支持英特尔第10代、11代酷睿处理器。支持新产品不必多说,但为什么要兼容“老家伙”呢?很简单,10代酷睿处理器只上市了一年左右的时间,如果在接口不变的情况下只支持新品,对市场上的存量10代酷睿销售非常不利。此外,向下兼容还可以方便那些资金有限,需要分步升级,无法同时更换处理器与主板的用户,这一需求在资金有限的主流用户中更为普遍。火速链接  关于
期刊
Netsh+任务计划程序联网定时控制  对于程序联网的定时控制,我们可以借助Netsh命令和任务计划程序来实现。比如现在需要限制孩子每周一到周五的19:00-22:00点都无法玩网络游戏,假设游戏程序是“C:\Program Files\game.exe”。  先启动任务计划程序,新建一个任务,在创建任务窗口中切换到“常规”选项卡,设置任务的名称为“禁止游戏联网”,同时勾选“使用最高权限运行”复选
期刊
Rootkit病毒的开发者常常是把后门写成符合微软WDM规范的驱动程序模块,然后把自身添加进注册表的驱动程序加载入口,很多还会通过添加的服务进行自我监视。这样一旦发现驱动文件被删除则会立刻“复活”,这就导致此类病毒极难被彻底查杀。因此如果大家怀疑自己的电脑中招Rootkit病毒,首先就要检查当前加载的驱动,这可以借助OpenArk软件(下载地址:https://openark.blackint3.
期刊