让搜索引擎更好用的秘密

搜索引擎,已然成为我们在互联网上获取信息的最方便渠道。然而互联网上信息良莠不齐,各家搜索引擎的使用体验也相差极大。那么,如何挑选合适自己的搜索引擎?如何用有限的时间高效搜索信息?

本篇文章,我尝试从多方面带大家探索搜索引擎的发展和使用,以及在中外互联网的各自独有环境下,如何高效地检索到我们需要的信息。

有一天,我和一位同学聊起网络搜索,他让我帮他看看他在网上一百多块钱「买」的Premiere Pro是不是「正版」,我一看是他是被骗了,就问他是在哪搜的。结果他打开 Bing 一查,那个所谓的「Premiere Pro官网」的广告,还挂在搜索结果的顶部。

所以,大家都用同一个搜索引擎吗?在可选有限的情况下,我们如何保证搜出来的信息是自己想要的?

从浏览器和网站聊起

别惊讶,这一定不是废话。要想用好搜索引擎,我们应当知道它本身是一个网站。既然是一个网站,我们就应当在浏览器里通过网址访问它。

什么是浏览器呢?手机上自带的「浏览器」APP 肯定算,电脑上那些 Edge、Chrome、360 浏览器之类肯定也算;微信里那个天天屏蔽链接的浏览器应该算,手机上的「百度 APP」呢?或许吧。

我们首先要知道,浏览器是我们访问网站的工具。各种 APP,本质上也是通过类似浏览器的方式向各个网站发送请求。

但是,能打开网页的软件,并不一定就是正统的浏览器。

像是打开手机百度 APP,把一长串网址粘贴到搜索框的行为,其实是从一开始就放弃了畅游互联网的权利。

要想跟随本文继续探索「让搜索引擎更好用的秘密」,那么首先先按照下面的排名选择一个趁手的浏览器吧。

让搜索引擎更好用的秘密 - 1
资料来源:「小站背面」近期访客统计(图中资料均为匿名收集)

再选一个搜索引擎

在介绍国产搜索引擎「F 搜(现已停运)」的 文章 中,我用一个例子简单地对比了常见的几大搜索引擎。

让搜索引擎更好用的秘密 - 2

需要提前说明,这是一个简单的、不严谨的、甚至有些断章取义的测试。结果不一定具有普遍性。

在这一个测试中,F 搜的搜索结果几乎照搬 Google,但事实证明这是正确的。

应该庆幸,TA 用的是百度,官网只是以不显眼的方式摆在第三位,如果 TA 用的是搜狗,那么官网会出现在搜索结果的第二页。

结果就是这么个结果,当年的事情,现在在文章开头那位搜索Premiere Pro官网的同学身上又重演了一遍。

还是上文的方法,我们通过本站的访客来源认识一下常见的搜索引擎。

让搜索引擎更好用的秘密 - 3

「小站背面」内容调性较为偏技术向,因此访客也以技术爱好者为主。从图中也不难看得出这一部分受众群体更偏向 Google 。

本来这一部分直接无脑推 Google 就完事了,可是出于大家都知道的原因,国内并不能顺畅地访问 Google。

更好玩的是,图中的Google、Ecosia以及DuckDuckGo在国内都是不能访问的。

因此,百度和Bing也许会成为最后的选择。我们就详细说说这两者。

百度作为最大的中文搜索引擎,在国内搜索行为的积累方面具有得天独厚的优势,在搜索本地化资讯时,百度可以作为一个很好的选择。

但是不知道你有没有听说过这样一个说法:「水一百度会开,人一百度会死」

百度在专业性内容的收录上,实际上存在一定缺失。同时,百度的本地化优势也被用在了广告展示和排名上,这也一定程度上劣化了用户的体验。

互联网是全球的互联网,中文内容不止存在于国内网站。很多你需要通过搜索引擎才能获得答案的问题,其实并不一定能在「境内网站」找到准确答案。

让搜索引擎更好用的秘密 - 4

举个例子吧,加入你要搜索「如何在 Word 中显示分节符」,你会希望看到知乎/百度经验的截图教程,还是 Microsoft 官网提供的官方教程?

刚刚拿百度开刀其实不完全公平,因为国内版的 Bing 也没好多少。

关于广告问题,国内版 Bing 的搜索广告由 360 提供,在审核上基本相当于没有,因此才会导致文章开头那位搜索「Premiere Pro官网」的同学上当受骗。

Google 一定高尚吗?当然也不是。

如果你用 Google搜索英语内容,大概率就能看到 Google 的广告了。

只是Google不会把要价一百多块钱的「Premiere Pro官网」放在真正官网的头顶上就是了。

从中文分词谈起

中文搜索一个很大的挑战在于我们习惯的输入总是完整的句子,而分割词语的过程无形中就交给了搜索引擎来完成。在这种情况下,搜索引擎其实不一定能完整把握我们的意思。

整理搜索词的过程,其实就是把博大精深的中文,转换为机器可以理解并进行检索的关键词,而这个过程完全可以由我们自己完成。

举个例子吧,如果我们要搜索「中国去年的电动汽车渗透率」,如果直接搜索,结果会是这样的:

让搜索引擎更好用的秘密 - 5

两个搜索引擎都给出了具体的数字结果,但其实都是错的

这时候,我们可以尝试优化一下搜索关键词:

「中国」是必要信息吗?不是,因为搜索词本身是简体中文,大概率得到的结果就是中国的数据,并且我们通过搜索结果的来源网页就很容易判断数据对应国家。

「去年」是有效信息吗?不是。因为每一篇文章中所写的「去年」指代的年份并不一定是我们想要的那个「去年」,而搜索引擎也没有能力帮助我们完成这个同义替换。因此,我们应当使用具体的年份代替模糊指代。

在这个例子里分不分词倒是不太影响,但是分词搜索可以帮助我们更好地理清搜索思路,再说了,多打一个空格倒也不影响多少效率。

于是乎,我们可以将上面的搜索词优化为:「电动汽车 渗透率 2022」。

搜索结果如下:

让搜索引擎更好用的秘密 - 6

很明显这里我们已经得到了 25.6% 这个结果,也许你会问百度的答案在哪,答案是搜索结果的第五位。这一张图已经截不进去了 (在本文撰稿完成后重新测试发现,百度已经悄悄优化了这一搜索词,现在搜索同一关键词会显眼地显示正确结果,而 Bing 则会突出显示一个来自「两个来源」的错误数字)

半眼真,一眼假

有了合适的关键词,对于事实类资料的查找,效果应该会好上不少。可是让我们回到开头的例子,如果我们需要搜索「Premiere Pro官网」,从上文来看,这个搜索关键词已经是最佳选择,为什么那位同学还是没法找到正确的结果呢?

此图片的alt属性为空;文件名为d2b5ca33bd970f64a6301fa75ae2eb22.png

要想分辨清楚哪个是真正的官网,我们先来认识一下域名的基本结构。

我们看到的网址,大部分时候是这样的:

https://www.ygxz.in/announce/1182

这其中,「https://」部分是协议前缀,而「/announce/1182」部分是路径。协议前缀和路径中间的部分,就是网站的域名。

域名部分,或者具体地说,顶级和二级域名部分,就是我们辨识一个网站的根据,也是我们在浏览器上到访一个网站最少需要输入的部分。

举个例子吧,假如我要访问一个小站,我至少需要输入「ygxz.in」,这样浏览器才能知道我具体要访问哪一个网站。[1]

这也就是说,我们可以根据网站的顶级和二级域名来分辨不同的网站。

「ygxz.in」是一个域名,而「ygxz.xyz」就是另一个域名了。它们可能是同一人拥有,但更可能不是。

但是如果我们已经知道「ygxz.in」是一个小站的正确域名,那我们就可以很轻易地判断出「read.ygxz.in」也是一个小站提供的服务,只是它和「www.ygxz.in」的功能不同而已。

现在翻回去看看 Bing 搜索「Premiere Pro官网」的结果,第一页的搜索结果域名(位于搜索结果标题下方)分别是:

  • adobe.cqlbn.cn
  • adobe.tfdsa.cn
  • adobe.sytskji.cn
  • adobe.wxqef.cn
  • www.adobe.com

在已知「Premiere Pro」是 Adobe 公司的产品的前提下,你能一眼分辨出哪个域名是正确的官网吗?

这看起来似乎很简单,但是一家公司不可能真的把某一二级域名对应所有顶级域名全部买完,因此在遇到一些迷惑性强的域名时,我们可能真的难以分辨。

举个例子,已知「bing.com」是必应搜索引擎的官网,那么以下哪些才是 Bing 的中国官网?

  • A. www.bing.com.cn
  • B. cn.bing.com
  • C. www.bing.cn

答案是 A 和 B。

互联网的世界就是这么魔幻。

直觉判断法:从域名判断网站可信度

本节的标题是「半眼真,一眼假」,通过直觉从域名判断网站可信度虽然做不到百分之百准确,但也是一个重要的技能。

对于我个人经验来说,判断域名可信度,很重要的一个维度是评估「域名价值」。

「域名价值」是什么?你可以简单理解为这个网址值多少钱。越大的公司,往往拥有越值钱的域名。

比如顶级域「.com」代表Company(公司),也是很多商业公司树立品牌形象的名片。公司名+.com,往往就是这个商业公司的官网。比如baidu.comdouban.comtaobao.com等等。

当然啦,不是所有网站所有人都是商业公司,.com也不是只有商业公司才能注册,这个世界上也不是所有公司都能抢注到对应的.com域名,因此这个方法并非唯一标准。

你看看人家islide.cc,不也没用.com域名吗。

另外,对于非盈利组织,一般会使用组织名+.org作为官网域名,这里的「org」是「Organization(组织)」的缩写。比如wto.orgun.org等等。

专业的事情,交给专业的人

老话说得好,「术业有专攻」嘛。传统的搜索引擎提供的是一种横向搜索,它们能覆盖极其广泛的信息领域,但在需求明确的情况下,广泛也可能意味着鱼龙混杂。

这里就引出了一个「垂直门类」的概念。「垂直」是指专注于特定领域或行业,用在搜索上,这一「专精」的特质可以极大地提高我们搜索信息的效率和准确性。

举个例子,如果你是一位计算机专业的学生,你需要搜索各种技术问题,CSDN、GitHub、Stack Overflow以及很多技术大佬的个人博客都会是理想来源,至于什么「xx经验」「xx知道」「xx教程」「xx学堂」之类,见仁见智吧。

回到网络搜索领域,善用「站内搜索」,就像把专业的事交给专业的人,可以提高我们的搜索效率和准确性。

举个例子,如果我们需要查询关于汉语字词的相关资料,汉典(zdic.net)的站内搜索就方便许多;如果我们需要搜索某个影视作品的信息,豆瓣(douban.com)、IMDb(imdb.com)或者TMDB(themoviedb.org)就是不错的选择;但如果你要搜索的是某一部动漫番剧的信息,以上又都不如番组计划(bangumi.tv)来得全面。

大多数情况下,对于某一领域的优质网站的认识来源于我们网上冲浪的日常积累。平时养成整理浏览器书签的好习惯,就不难在需要的时候信手拈来。

如果某一个网站不提供站内搜索,那么我们可以使用搜索引擎的site」命令代替站内搜索,具体方式后文会介绍。

当然啦,网上也有不少现成的优秀网站合集,比如 「奔跑的奶酪」大佬的书签,整合了不少常用的、好用的网站,值得了解。

让搜索引擎更好用的秘密 - 7
优秀的书签整理方案 图/奔跑的奶酪

「奔跑的奶酪」大佬是一位浏览器修改大佬,他修改的浏览器不仅免安装,而且附加了很多使用的功能和高级玩法,几乎算得上是「浏览器DIY最佳实践」,如果你有兴趣的话也可以前往大佬的网站去了解一下。

高级搜索语法简介

相信很多介绍搜索引擎的文章都会大讲特讲所谓「高级搜索」功能。诚然,「高级搜索」为我们的搜索结果添加了筛选条件,使得我们更容易看到符合预期的结果。但是其也因为语法繁多,上手难度大等原因,许多朋友并不会真正在搜索时使用。

「高级搜索语法」真的有那么高级吗?其实不然。

所谓高级搜索,其实就是给搜索加上了限定条件,比如我要搜索哪个网站、什么时候、什么格式的结果。通过限定条件,我们在「大海捞针」时往往可以有更高的效率。

这里简单介绍几个我自己常用的高级搜索语法吧。

site: 语法——站内搜索

site: 语法可以帮助我们筛选来自特定网站的搜索结果,可以作为站内搜索使用。

熟悉「website」这个单词的话,site: 语法其实很容易记忆,就是「网站:」的意思。

site: 后一般接网站的域名部分即可,比如 site:ygxz.in 高三这一年[2]。不过不完全遵守规则也没关系,搜索引擎的纠错能力大概率都能理解你的意思。

site: 语法可以让我们不进入网站而执行站内搜索,也可以方便地结合其他语法进行更高效的站内搜索。

“ ”语法——精确匹配某一关键词

有时候搜索引擎会「智能」地把你的搜索词进行同义替换,将拼写/语义相近的结果一并展现出来。如果你就是希望搜索结果全部包含某几个字,那么可以用英文引号把关键词括起来。

比如 新能源汽车销量 “2023” 就只会返回带「2023」这个数字的结果,什么「今年」「本年度」等等都会被排除。

按时间搜索

这个应该是普通人最常用的高级搜索语法了,因为这个语法在搜索栏下方「工具」选项中就可以进行筛选,并且我个人认为会比在搜索词中使用特定语法更加方便。

让搜索引擎更好用的秘密 - 8
百度中的搜索工具可以方便地筛选结果的时间跨度 图/一个小站

高级搜索语法还有非常多,限于篇幅,这里就先不介绍了。

还想了解更多?那就利用上面的技巧去搜索引擎找一篇高级搜索语法介绍文章继续学习吧。

结语

这是一篇立项于 2022 年 5 月的稿件。由于写作过程坎坷,环境多变,加上网上已经存在很多类似的文章,我曾经多次把它打入垃圾箱。

如今,它终于和你见面了。

为什么我们需要学会搜索?我遇到问题在评论区/好友列表伸伸手找「大佬」帮忙不是更轻松吗?

人能制造和使用工具,而动物不能。

人有具有意识和主观能动性,而动物没有。

人有抽象思维能力,而动物没有。

信息时代的人类,应该能积极使用搜索引擎和公开资料,筛选有效信息,建立个人知识模型。在未来工作效率和经济价值方面,具备这份能力的人,和不具备的人,差距类似于人和大猩猩。如果总是单向接受信息,不去主动建立自己的知识体系,不用公开资料反复验证,就容易被错误的内容误导,陷入信息黑洞。

——《睡前消息》

参考&注释

  1. ^一般来说,公开网站的根域名都会重定向到 www 子域名,根域名和 www 子域名是不同的概念,这里模糊处理是为了简化,敬请注意
  2. ^本系列文章仅Google收录

《让搜索引擎更好用的秘密》是发布于 上的文章。如文中出现错误或侵犯了您的权益,请于评论区指正或发送邮件到 admin@ygxz.in

评论

  1. Avatar of Vinking
    Windows Chrome
    2周前
    2024-2-21 21:46:09

    家里长辈用百度下载东西经常下错成广告软件,以前教过他们怎么去分辨正版软件和推广软件但是都作用不大。后面是直接写了一个脚本去屏蔽百度乱七八糟的推广位,每个星期自动同步一次自己写的规则,这样才很大程度上解决了这个问题。只能说百度对老一辈的人来说太不友好了…

  2. Avatar of ejsoon
    Android Firefox
    2月前
    2023-12-23 11:30:30

    現在是在上大學嗎?考上了哪個大學?

    • Avatar of 别为馒头
      博主
      ejsoon
      iPhone Safari
      2月前
      2023-12-23 11:33:12

      是的 目前就读于华南师范大学~

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇