不知你是否有这样的经历,在搜索引擎查找某一问题时,点击相应搜索结果时不是你所需甚至大相径庭的内容。比如你点进了一个 CSDN 的链接,出现的却是相似的重复内容,更有甚者直接是另一篇文章的链接;再比如点进去却发现内容排版糟糕、代码块缩减完全没有,页面侧栏、底栏又充斥着好长一串的猜你喜欢、推荐文章,仔细一看豁然是个采集站。

如果说这些还是小打小闹,那不知你是否遇到过云厂商的邀稿,许诺只要迁移文章就赠送优惠券云云,殊不知这类大厂权重高排名靠前,迁移后整个一搜索全是他们的内容,但内容上又容易和采集站一样排版欠佳。

一、uBlacklist

中文搜索不知不觉间变的相当糟糕了,找不到需要的内容。一眼望去,相似、无关的内容又排在前列。有时候真的想对搜索结果进行过滤,把不喜欢/需要的内容去除,而这正是 uBlacklist 所做的事。

具体的说,uBlacklist 支持 Google, Bing, Brave 等搜索引擎的结果过滤,我们可以使用 匹配模式[1]正则表达式[2] 对搜索结果进行过滤,直接拒绝查看低质量内容。其扩展下载地址为:

二、过滤规则

这里是一些常用的规则推荐,原则上排除名单因人而异,根据实际需求自行选取。

1. 基础屏蔽列表

  • 屏蔽 http 站点
/(http:\/\/.*)/
  • 屏蔽移动端(桌面端不看移动端排版内容!!!)
/.*:\/\/(wap|m)\..*/
  • 屏蔽搜索列表(点进去是一个搜索列表页面,鸡肋的一批)
/.*\?q=.*/
/.*\?s=.*/
/.*\?keyword=.*/
/.*collections\/.*\?.*/
*://*/s/*
*://*/so/*
*://*/so.php
*://*/informat/*
*://*/zhuanti/*
*://*/keyword/*
*://*/*/searchList.jsp?*
*://*/*dictionary?p=*
  • 屏蔽云厂商文章(抓取类文章较多)
*://cloud.tencent.com/developer/article/*
*://developer.aliyun.com/article/*
*://bbs.huaweicloud.com/blogs/*
*://www.ucloud.cn/yun/*.html
*://www.yisu.com/zixun/*
*://www.huoban.com/news/post/*

2. 激进屏蔽列表

  • 不会有博主以程序员/开发者当作网站名称的一部分吧?
    可能误拦截形如『开发者平台』名称的网站
title/^.*(程序员|开发者).*/
  • 原则上大概率是采集站(存在误伤可能性)
title/^.*(学习|学识|资讯|知识)$/
  • 谷歌的搜索结果出现了好多繁体字结果,我有些不想看…
/.*\.(hk|tw|taipei)\/.*/

3. 讨厌的网站

  • CSDN、简书、Gitee 的仓库推荐页
*://*.csdn.net/*
*://*.jianshu.com/*
*://*.juejin.cn/*
*://*.php.cn/*
*://*.51cto.com/*
*://*.gitee.com/explore/*
  • 百家号、百度知道、搜狐、头条
*://baijiahao.baidu.com/*
*://zhidao.baidu.com/*
*://wapiknow.baidu.com/*
*://www.sohu.com/a/*
*://www.toutiao.com/article/*
  • 不看抖音视频、文章;番茄阅读最离谱:描述部分和搜索词相关,但点进去是小说。
*://*.douyin.com/video/*
*://*.163.com/dy/article/*
*://*.fanqienovel.com/page/*

三、终结内容农场

相对来说,uBlacklist 直接隐藏搜索结果,在不点击显示前无法查看被过滤的条目,这就需要过滤名单准确性较高,经常维护,但名单一长维护成本就很大,所以这里还可以搭配另一类浏览器插件:终结内容农场

终结内容农场更倾向于拦截链接、标识内容农场,它不会主动隐藏结果:

内容农场拦截演示

内容农场拦截演示

如上图,试图访问的网站为快懂百科,被插件的默认屏蔽列表拦截(个人认为该网站不完全算是内容农场网站),用户可以选择解锁查看网站内容的。但倘若是在 uBlacklist 的拦截名单中,那就真看不到这个结果啦。

两相搭配,效果更佳。


  1. 匹配模式是一种指定网址组的方法:一个匹配模式匹配特定的一组 URL。 ↩︎

  2. 正则表达式是用于匹配字符串中字符组合的模式。 ↩︎

评论