搜索引擎原理介绍(终于明白它的原理了)

近期有些网友想要了解搜索引擎原理介绍的相关情况,小编通过整理给您分析,同时介绍一下终于明白它的原理了有关信息。在互联网时代,搜索引擎可以说是日常生活的一部分。不仅如此,搜索引擎历经20多年的风霜雨雪...

近期有些网友想要了解搜索引擎原理介绍的相关情况,小编通过整理给您分析,同时介绍一下终于明白它的原理了有关信息。

搜索引擎原理介绍(终于明白它的原理了)-图1

在互联网时代,搜索引擎可以说是日常生活的一部分。不仅如此,搜索引擎历经20多年的风霜雨雪,仍然牢牢占据着流量入口,不得不让人感叹。

而且,提起搜索引擎,我们都会想到一家高大上的巨无霸公司和一家被黑出xiang的巨霸公司。足以见得搜索引擎的巨大作用。

搜索引擎原理介绍(终于明白它的原理了)-图2

搜索引擎原理介绍(终于明白它的原理了)-图3

作为产品人,对此当然不能视而不见,也应该了解了解其工作原理。

搜索引擎工作原理大致可以分为3个步骤

1. 爬行与抓取

2. 预处理

3. 排序

所谓一图胜千言,没图我说个……

搜索引擎原理介绍(终于明白它的原理了)-图4

PS:上图总结自《SEO实战密码》。

下面详细叙述:

爬行与抓取

简单地说:就是搜索引擎蜘蛛沿着互联网络爬行并抓取其爬行的页面,将这些抓取的页面存储起来。

说到这,你可能会问:为什么叫「蜘蛛」?

为了抓取尽量多的页面,搜索引擎会跟踪页面上的链接,从一个页面爬行到下一个页面,好像蜘蛛在蜘蛛网上爬行那样,这就是搜索引擎蜘蛛这个名称的由来。

搜索引擎在跟踪网络上的链接时,会使用一定策略,因为现在的网络链接太多。最简单的爬行遍历策略有两种,一种是深度优先,一种是广度优先。

还有一点值得一提:搜索引擎访问网站页面时类似于普通用户使用的浏览器。搜索引擎蜘蛛抓取的数据存入原始页面数据库,其中的页面数据与用户浏览器得到的HTML完全一样。

预处理

由于抓取的页面数量太大(以”亿”为单位),无法快速实时排序,所以需要预处理。这就是产品设计中的「复杂性守恒原则」,我们没办法让用户等待十几秒甚至更久,就只能在后台处理上下功夫。

搜索引擎原理介绍(终于明白它的原理了)-图5

在一些资料中,「预处理」也被称为「索引」,因为「索引」是预处理最主要的内容。

预处理的过程比较复杂,值得一提的有这么几点:

  • 去重:对于内容相似度高的,搜索引擎不喜欢,因为用户不喜欢这样的内容。而且,搜索引擎的去重算法很可能不止于页面级别,而是进行到段落级别。因此,混合不同文章、交叉调换段落顺序也不能使转载和抄袭变成原创。所以,少抄袭,多原创吧。
  • 正向索引:可以简称为「索引」。通过这个步骤,搜索引擎将页面及关键词形成词表结构存储进索引库。简化的索引词表形式如下。你看,这样就得到了每个文件(如每个页面)的对应关键词。这样用户就能搜索了吗?还不行。

搜索引擎原理介绍(终于明白它的原理了)-图6

  • 倒排索引:正向索引虽然提供了文件与关键词的对应关系,但无奈用户搜索的是关键词,因此搜索引擎还需根据这些对应关系找到某关键词对应的文件,这样的计算量无法满足实时返回排名结果的要求。因此,还需要倒排索引。倒排索引与正向索引刚好相反,它以关键词为关键,简单来说如下表:

搜索引擎原理介绍(终于明白它的原理了)-图7

得到了倒排索引,就能很快地根据用户搜索的关键词找到对应文件,但这样就够了吗?别天真啊。

通过上述步骤,其实只得到了页面本身的内容。说白了,就是页面本身告诉搜索引擎自己如何如何。

俗话说:王婆卖瓜,自卖自夸。

就像我们网购时不仅会看店家给的商品介绍,还会看看买家的评论一样,页面内容质量,也需要其他人的评价——这里的「其他人」指「其他页面。」所以,我们还需要链接关系计算。

  • 链接关系计算:每个页面上都有链接,不同页面之间用链接互相关联起来,这些关联关系,就形成了其他页面对某个页面的评价。这些复杂的链接指向关系形成了网站和页面的链接权重。

排名

发现没有:排名,是用户是用户唯一能感觉到的步骤,爬行与抓取、预处理,都在后台完成。正因如此,用户才会感到用起来十分快捷。

排名的过程也比较复杂,其中值得一提的有如下几点:

  • 搜索词处理:说白了,就是处理用户输入的关键词。这一步对用户来说更为关键,因为搜索引擎还不够智能,需要我们去学习一些高级指令,以获得更为精准的内容。

但由于每个关键词对应的文件数量都可能是巨大的(如几亿个),处理如此庞大的数据量,无法满足用户对「快」的需求。同时,用户并不需要所有内容,他们往往只查看前几页内容,甚至很多用户只查看第一页的前几条内容。因此,选择一定数量的内容进行处理,很有必要。这就涉及到选择初识子集。

但如何选择呢?这是一个问题。

  • 选择初识子集:选择出示子集,关键在于「权重」。所以说权重有多重要,即使页面做得好,但权重不高,连做备胎的机会都没有。
  • 相关性计算:这是排名过程中最重要的一步,最终搜索结果页面的排名基本按照相关性从高到低排序。

但到此就结束了吗?还没有哦。

  • 排名过滤及调整:为了保证用户搜索结果更符合用户需求,搜索引擎需要过滤掉那些处心积虑钻空子的页面,在这一步,搜索引擎会找出这些页面并施加惩罚。典型的例子是百度的11位。所以,过度优化有风险。
  • 查询及点击日志:通过这一步,搜索引擎记录了用户的一些数据,从而为后续的优化提供依据。这和产品日常工作中的数据埋点有些相似。

阅读前请先查看【免责声明】本文内容由互联网用户自发贡献,该文观点仅代表作者本人,本站仅供展示。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 1217266901@qq.com 举报,一经查实,本站将立刻删除。 转载请注明出处:https://m.jingfakeji.com/tech/89077.html

上一篇 2024年12月28日 21:03
下一篇 2024年12月29日 18:31

相关推荐

  • 原宥是什么意思,指原谅/宽恕的意思(主要用于书面中)

    最近《星汉灿烂》热播,引起无数网友的关注,而在《星汉灿烂》中出现了一个词“原宥”,难道了很多人,都不知道原宥是什么意思,甚至连“宥”这个词怎么读都不清楚,其实“原宥”所指的就是“宽恕”、“原谅”的意思,下面我们就一起来具体了解一下!原宥是什...

    2025年06月13日
    181
  • come的喂abc是什么梗,用来和小学生接头的新暗号

    最近在抖音上又火了一个“come的喂abc”,是继孤勇者之后成为了新的“小学生对接暗号”,那么come的喂abc是什么梗呢?其实就是新的小学生暗号梗,如果对着小学生说“come的喂”,那么他们就会回复你“abc”,不信的话你可以去找一个小学...

    2025年06月13日
    129
  • 为什么说千万不要打流感疫苗4价,担心会有不良反应

    “流管疫苗”能预防大量的流感型病毒,但为什么在网上有人说千万不要打流感疫苗4价呢?其实这种说法是完全不正确的,也是太片面的说法。如果对4价流感疫苗本身的成分有禁忌的话才不建议打的,一般情况下接种4价流感疫苗是没有坏处的,所以在接种前要了解清...

    2025年06月13日
    187
  • 斐乐是哪个国家的品牌,来自意大利的高端时尚运动品牌

    近些年来斐乐慢慢走进我们的视野,很多人都以为斐乐是韩国的品牌,但其实不是的,那么斐乐是哪个国家的品牌呢?下面小编就带大家一起来了解一下斐乐这个运动品牌,感兴趣的朋友快来看看吧。斐乐是哪个国家的品牌斐乐是一个来自意大利的高端时尚运动品牌,不过...

    2025年06月13日
    151
  • 充电宝放在车里面会爆炸吗,车里温度过高就会爆炸

    充电宝小巧方便,外出的时候我们都会在车里放个充电宝,便于及时为手机充电。但其实充电宝放在车里并不是一个好的选择,特别是夏季的时候,在阳光的照射下,车内温度极高,充电宝放在车里很危险。那么充电宝放在车里面会爆炸吗?下面我们就一起来了解一下吧。...

    2025年06月13日
    127
  • 光线追踪有什么要求吗,显卡最低rtx2060起步

    对很多喜欢玩游戏的人来说,可以选择实时光线追踪是再好不过的,因为这会让游戏体验有巨大的飞升,可惜的是并不是所有电脑都能开光线追踪。电脑开光线追踪有什么要求吗?下面小编就来跟大家说说什么样的电脑才能开光线追踪,快来看看你的电脑符不符合要求吧。...

    2025年06月13日
    202

联系我们

在线咨询: QQ交谈

邮箱:1217266901@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信