不知你是否有这样的经历,在搜索引擎查找某一问题时,点击相应搜索结果时不是你所需甚至大相径庭的内容。比如你点进了一个 CSDN 的链接,出现的却是相似的重复内容,更有甚者直接是另一篇文章的链接;再比如点进去却发现内容排版糟糕、代码块缩减完全没有,页面侧栏、底栏又充斥着好长一串的猜你喜欢、推荐文章,仔细一看豁然是个采集站。
如果说这些还是小打小闹,那不知你是否遇到过云厂商的邀稿,许诺只要迁移文章就赠送优惠券云云,殊不知这类大厂权重高排名靠前,迁移后整个一搜索全是他们的内容,但内容上又容易和采集站一样排版欠佳。
一、uBlacklist
中文搜索不知不觉间变的相当糟糕了,找不到需要的内容。一眼望去,相似、无关的内容又排在前列。有时候真的想对搜索结果进行过滤,把不喜欢/需要的内容去除,而这正是 uBlacklist 所做的事。
具体的说,uBlacklist 支持 Google, Bing, Brave 等搜索引擎的结果过滤,我们可以使用 匹配模式[1] 或 正则表达式[2] 对搜索结果进行过滤,直接拒绝查看低质量内容。其扩展下载地址为:
二、过滤规则
这里是一些常用的规则推荐,原则上排除名单因人而异,根据实际需求自行选取。
1. 基础屏蔽列表
- 屏蔽 http 站点
/(http:\/\/.*)/ |
- 屏蔽移动端(桌面端不看移动端排版内容!!!)
/.*:\/\/(wap|m)\..*/ |
- 屏蔽搜索列表(点进去是一个搜索列表页面,鸡肋的一批)
/.*\?q=.*/ |
- 屏蔽云厂商文章(抓取类文章较多)
*://cloud.tencent.com/developer/article/* |
2. 激进屏蔽列表
- 不会有博主以程序员/开发者当作网站名称的一部分吧?
可能误拦截形如『开发者平台』名称的网站
title/^.*(程序员|开发者).*/ |
- 原则上大概率是采集站(存在误伤可能性)
title/^.*(学习|学识|资讯|知识)$/ |
- 谷歌的搜索结果出现了好多繁体字结果,我有些不想看…
/.*\.(hk|tw|taipei)\/.*/ |
3. 讨厌的网站
- CSDN、简书、Gitee 的仓库推荐页
*://*.csdn.net/* |
- 百家号、百度知道、搜狐、头条
*://baijiahao.baidu.com/* |
- 不看抖音视频、文章;番茄阅读最离谱:描述部分和搜索词相关,但点进去是小说。
*://*.douyin.com/video/* |
三、终结内容农场
相对来说,uBlacklist 直接隐藏搜索结果,在不点击显示前无法查看被过滤的条目,这就需要过滤名单准确性较高,经常维护,但名单一长维护成本就很大,所以这里还可以搭配另一类浏览器插件:终结内容农场。
终结内容农场更倾向于拦截链接、标识内容农场,它不会主动隐藏结果:
内容农场拦截演示

如上图,试图访问的网站为快懂百科,被插件的默认屏蔽列表拦截(个人认为该网站不完全算是内容农场网站),用户可以选择解锁查看网站内容的。但倘若是在 uBlacklist 的拦截名单中,那就真看不到这个结果啦。
两相搭配,效果更佳。


