搜索引擎算法是什么?详解搜索引擎的工作原理、工作内容及算法
一、搜索引擎算法是什么
搜索引擎算法(英文:Search Arithmetic)一般简称为搜索算法,搜索引擎算法会对索引库中数以千亿的网页进行整理,以便根据用户查询的关键词提供最相关、最实用的结果。搜索引擎呈现的是成千上万个含有实用信息的网页,有时甚至是数百万个,在输入搜索关键词之前,搜索引擎就已经开始算计要显示哪些结果,这些排名由一系列算法组成,而不是一个算法。搜索引擎算法会查询的关键词、网页的相关性和可用性、来源的专业度,以及用户所在的位置等因素,为每个因素赋予的权重,从而提供最佳的搜索结果给用户。
二、搜索引擎工作原理
首先,我们要先了解搜索引擎的运作原理。搜索引擎蜘蛛又称为网络爬虫,来抓取整个互联网的网站,并且进行检索,最后将这些网页的数据反馈回服务器,并记录在搜索索引中。因此,搜索引擎的检索就像是图书馆的中央归档系统,将每一本书(网页),进行分类、归档,让用户方便搜索。
1、基本概述
搜索引擎蜘蛛即Search Engine Spider,是一个很形象的名字。把互联网比喻成一张蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。搜索引擎蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网,那么搜索引擎蜘蛛就可以用这个原理把互联网上所有节点的网页都抓取下来。
由于互联网上无数的网站页面,搜索引擎蜘蛛无法将所有的页面都下载保存到服务器。因此,许多搜索引擎的网络蜘 蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接广泛度(及外部链接的数量与质量)。
2、抓取网页策略
在抓取网页的时候,搜索引擎蜘蛛一般有两种策略:广度优先和深度优先(如下图所示)。广度优先是指搜索引擎蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中 的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让搜索引擎蜘蛛并行处理,提高其抓取速度。深度优先是指搜索引擎蜘蛛会从 起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是搜索引擎蜘蛛在设计的时候比较容易。两种策略的区别,下图的说明会更加明确。由于不可能抓取所有的网页,有些搜索引擎蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1 层,G、H属于第2层,I属于第3层。如果搜索引擎蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索 到,另外一部分不能被搜索到。 对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。
3、访问网站权限
搜索引擎蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,网站的所有者可以通过协议让搜索引擎蜘蛛不去抓取,但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者查看,这样就需要给搜索引擎蜘蛛提供相应的 用户名和密码。搜索引擎蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。
三、搜索引擎工作内容
搜索引擎的数据库是依靠一个叫"网络机器人(crawlers)"或叫"网络蜘蛛(Spider)"的软件,通过网络上的各种链接自动获取大量网页信息内容,并按一定的规则分析整理形成的。Google、百度都是比较典型的搜索引擎系统。
1、收录页面
一般收录页面需要有搜索蜘蛛抓取完成,通过抓取算法来决定收录哪些页面,在百度的算法调整后,对于伪原创、采集站点予以强烈的打击,所以搜索引擎在收录页面方面变得更加的严格了,高质量内容页面以及权重高的站点一般收录页面的几率会高很多。对于收录页面这方面相信很多的站长都是很清楚的,每天搜索蜘蛛都在分分秒秒不停地收录着,但是你会发现其实大部分的站点的收录都减少了,这是为什么呢?因为搜索需要过滤页面。
2、过滤页面
很多页面被搜索引擎收录之后,搜索引擎认为该页面对用户没有太大的价值,或者是质量比较低的页面,搜索引擎必然就会过滤,这也是用户体验好的一种表现,很多站点以优化为目的,丝毫不考虑用户的体验,例如一些桥页、跳转页面这些就是典型,搜索引擎的k站就是一种过滤页面的表现,把那些作弊的站点的页面全部的过滤掉。要知道多少人在使用搜索引擎,如果搜索出来的信息是你为了优化而运营的站点,低质量的页面,那搜索引擎其实是拿自己未来的前途给你优化站点做铺垫的。所以过滤页面这方面搜索引擎非常的严格,大家也不要使用SEO作弊技术了。
3、建立索引
经过了收录页面以及过滤页面的工作之后,搜索引擎会对这些页面逐一进行标记和识别,并将这些信息进行储存为结构化的数据,储存到搜索引擎的搜索服务器中,这些储存的数据有网页的主要内容、网页的标题标签、关键词标签、页面描述标签、网页外链及抓取记录。还会将网页中的关键词信息进行识别和储存,以便与用户搜索的内容进行匹配。建立完善的索引数据库,方便呈现出最佳的显示信息
4、显示信息
用户输入的关键词,搜索引擎会对其进行一系列复杂的分析,并根据分析的结论在索引库中寻找与之最为匹配的一系列网页,按照用户输入的关键词所体现的需求强弱和网页的优劣进行打分,并按照最终的分数进行排列,展现给用户。一般显示出最佳信息需要是最适合匹配关键词相关的页面,包括站内优化和站外优化的因素。
四、搜索引擎算法
1、百度搜索引擎算法
百度搜索有石榴算法、绿萝算法、飓风算法、白杨算法、轻舟算法、惊雷算法、天网算法、烽火算法、细雨算法、石榴算法、极光算法、闪电算法、蓝天算法、冰桶算法等。谷歌搜索有熊猫算法、企鹅算法、蜂鸟算法、TrustRank算法、BadRank算法、PageRank算法、HillTop算法等。
(1)、石榴算法
算法主旨:主要打击低质量的网站。
算法详情:2013年5月17日,百度搜索针对低质量网站的进一步打击的升级版,与之前百度绿萝算法相对应,这正是百度搜索引擎提高用户体验,提高搜索质量的有力手段。
站长规避:恶劣弹窗、大量混淆页面主体内容等垃圾广告。
(2)、绿萝算法
算法主旨:主要打击链接的买卖,链接的恶意交换以及恶意发布外链的行为。
算法详情:2013年2月19日上线的一种搜索引擎反作弊的算法。该算法主要打击超链中介、出卖链接、购买链接等超链作弊行为。该算法的推出有效制止恶意交换链接,发布外链的行为,有效净化互联网生态圈。
站长规避:买卖链接。
(3)、飓风算法
算法主旨:百度推出飓风算法,严厉打击恶劣采集。
算法详情:百度搜索于近日推出飓风算法,旨在严厉打击以恶劣采集为内容主要来源的网站,同时百度搜索将从索引库中彻底清除恶劣采集链接,给优质原创内容提供更多展示机会,促进搜索生态良性发展。
飓风算法会例行产出惩罚数据,同时会根据情况随时调整迭代,体现了百度搜索对恶劣采集的零容忍。
站长规避:远离内容采集,远离垃圾重复内容、远离抄袭,重视原创内容,多提供原创内容。
(4)、白杨算法
算法主旨:对符合百度地域优化标准的优质站点进行优先展现。
算法详情:白杨算法通过地域优化服务,会将当地资源所归属的城市以前置的形式标识出来,当用户要查找当地或临近的信息时,满足需求的站点会排在前面。
站长规避:仅将需要本地排名的网页进行标注,而无需本地排名的网页则无需标注,这样会更有针对性,减少搜索引擎判断出错的几率。
(5)、轻舟算法
算法主旨:针对PC站点与移动端达到适配。
算法详情:移动优先原则,有移动适配的网站获得更多的展示,可通过跳转适配、代码适配和自适应进行移动适配。
站长规避:移动用户已经超过PC用户,站长建站不仅要考虑PC站,还需要建设移动站,由此获得更好的搜索排名。
(6)、惊雷算法
算法主旨:百度搜索将于5月底推出惊雷算法2.0 打击作弊超链和恶意刷点击的作弊行为。
算法详情:相对于惊雷算法1.0,此次升级主要针对"恶意制造作弊超链"和"恶意刷点击"的作弊行为进行了算法升级。惊雷算法2.0将对作弊的网站限制搜索展现、清洗作弊链接、清洗点击,并会将站点作弊行为计入站点历史,严重者将永久封禁。还请存在问题的站点尽快自查整改。
站长规避:鼓励站长多生产满足用户需求的优质内容来获取良性流量增长。
不要相信或触碰搜索快排技术。抵制以不正当手段获取流量的行为,营造健康的搜索生态。
(7)、天网算法
算法主旨:百度推出天网算法,严打盗取用户隐私。
算法描述:百度网页搜索发现部分站点存在盗取用户隐私的行为,主要表现为网页嵌入恶意代码,用于盗取网民的QQ号、手机号。而许多网民却误认为这是百度所为。为此,百度网页搜索和百度安全联合研发天网算法,针对这种恶意行为进行打击。
给站长建议:有过盗取用户隐私行为的站点请尽快整改,待策略复查达到标准可解除惩罚。
(8)、烽火算法
算法主旨:烽火算法2.0,将严惩"窃取用户数据"和"恶意劫持"的行为。
算法详情:烽火算法2.0主要针对以下两类问题,一是未经用户允许恶意窃取用户手机号码等隐私数据的行为,其次是恶意劫持百度流量的行为。具体包括以下行为:搜索用户通过百度移动搜索到达网站后,完成阅读要离开网站页面时,通过浏览器返回上一级页面被劫持到虚假的百度搜索结果中;搜索用户通过百度移动搜索到达网站后,完成阅读要离开网站页面时,通过浏览器始终无法返回上一级百度搜索结果页,搜索用户会一直被困在站点内;对于网页中自己主动放置恶意代码的问题,请尽快清理问题页面。
站长规避:不要在移动网站中添加恶意代码来获取访客手机号码和隐私数据。不要使用非正常手段劫持百度流量,都将受到算法惩罚和打击。
(9)、细雨算法
算法主旨:主要针对网站标题作弊的行为
算法详情:2019年11月,百度搜索发布细雨算法2.0,针对B2B行业的恶劣违规问题及低质内容。包括网站标题作弊的行为、页面正文内容中存在受益信息、恶劣违规内容、低质内容。
站长规避:正文内容不完整,频繁穿插变形的受益方式,拼接内容、纯采集内容、跨领域采集内容,图片内容与文字描述不一致、图片嵌入电话号码、图片质量极低影响阅读体验等。
(10)、劲风算法
算法主旨:恶劣聚合页问题。
算法详情:2020年2月,百度搜索技术团队发现,部分网站及智能小程序通过恶意构造聚合页面内容来获取搜索排名,获得搜索用户关注,上线劲风算法,控制恶意构造聚合页面的问题对搜索用户的影响。
站长规避:页面内容与站点本身所属领域不符,或站点无专注领域,多为采集拼凑内容;页面内容与标题及页面中标记的标签不符;由网站搜索功能生成的静态搜索结果页;空短、无有效信息、失效的聚合页。
(11)、极光算法
算法主旨:极光算法,倡导重视落地页时间规范问题,打击不符合规定的网站减少展现机会。
算法详情:2018年5月底,百度搜索将上线极光算法,旨在倡导资源方重视网站落地页时间规范。落地页时间因子是百度搜索判断网站收录、展示、排序结果的重要参考依据。为了让用户获得更满意的搜索浏览体验,我们将给予符合落地页时间因子要求且时效性较高的网页更多的收录、展现机会,同时减少不符合规定的网站的展现机会。
站长规避:根据百度搜索落地页时间因子规范文档来规范网页的具体产生时间,满足搜索用户的浏览体验。可以得到更多的展现机会。
(12)、清风算法
算法主旨:移动网站欺骗用户下载的问题进行永久封禁,欺骗下载,恶意引导不相关的APP下载等进行降权惩罚。
算法详情:5月上旬为移动网站推出清风算法2.0,对于欺骗用户下载的问题进行永久封禁;严厉打击欺骗下载,恶意引导不相关的APP下载,下载链接无效链接等。
站长规避:移动网站规范化,不要设置恶意APP下载,欺骗用户下载链接等。
(13)、闪电算法
算法主旨:移动搜索页面首屏加载非常慢(3秒及以上)的网页将会被打压。
算法详情:10月初"闪电算法"上线,移动搜索页面首屏加载时间将影响搜索排名。移动网页首屏在2秒之内完成打开的,在移动搜索下将获得提升页面评价优待,获得流量倾斜;同时,在移动搜索页面首屏加载非常慢(3秒及以上)的网页将会被打压。
站长规避:针对移动网站进行速度优化;确保移动页面首屏加载时间不超过3秒,超过3秒将影响搜索排名。
(14)、蓝天算法
算法主旨:百度持续打击新闻源售卖软文、目录行为。
算法描述:百度持续打击新闻源售卖软文、目录行为,百度反作弊团队发现部分新闻源站点售卖目录,发布大量低质内容现象仍然存在,此举严重违反新闻源规则,并影响用户搜索体验。针对此情况,百度推出"蓝天算法",旨在严厉打击新闻源售卖软文、目录行为,还用户一片搜索蓝天。
算法打击:触发"蓝天算法"问题站点将被清理出新闻源,同时降低其在百度搜索系统中的评价,请其他新闻源站点尽早自查网站内容,有则改之无则加勉。
百度官方表态:"蓝天算法"全力打击有损用户体验的行为,绝不手软。
站长规避:切勿购买所谓高权重或门户网站的目录,远离新闻行业软文,也将对出售这类网站进行打击。
(15)、冰桶算法
算法主旨:针对发布恶劣诱导类广告的页面进行打击。
算法描述:我们发现部分网页通过色情动图、露骨文本、赌博等等吸引眼球的形态诱导用户点击非法广告,为了改善用户体验以及引导行业生态向积极健康的方向发展,百度搜索再次升级冰桶算法,针对发布恶劣诱导类广告的页面进行打击,降低其在百度搜索系统中的评价。在此提醒各位站长,请尽快下线恶劣的诱导类广告,以免被策略命中影响网站排序。
所谓恶劣诱导类广告,指的是通过色情动图、色情导航、露骨文本、赌博等等吸引眼球的形态诱导用户点击非法广告。包含且不限于,色情导航,色情动图类,露骨文字类。触犯"冰桶算法"的网站,百度会降低此类型的网站在百度搜索系统中的评价。
站长规避:网站不要投放恶劣诱导广告,一些色情GIF,露骨文本和赌博等广告内容信息。
2、谷歌搜索引擎算法
(1)、Google Panda熊猫算法
Google一直以来都相当看重用户的体验,为了确保用户在使用谷歌搜索引擎时,都能获得高质量的内容,于是在2011年发布了熊猫算法,目的是减少Google搜索引擎中内容农场或低质量网站的存在。
熊猫演算法主要审查网页内容是否出现以下情况:
1.内容薄弱:每个页面的内容都非常少,内容几乎和网页没有相关性,或内容相当少的网页。
2.重复内容:站内出现多个页面都是相同,或几乎一样的内容。
3.低质量的内容:缺乏深入资讯或缺乏具有建设性的内容,对用户来说毫无价值的页面。
4.内容农场:网站内容来源通常都来自其他网站,非原创性内容。内容农场的目的大多是大量生产内容,为的是提升该网站的SEO排名。
5.内容和关键词相关性低:若网站设定SEO为核心关键词,实际上网页内容都是广告,并没有SEO相关资讯,这种情况就是内容和关键词相关性低。
(2)、Google Penguin企鹅算法
外部链接是Google SEO的重要排名因素之一,为惩罚利用黑帽SEO手法排名的网站,Google在2012 年发布了企鹅算法。
不少黑帽SEO的做法是操纵外链,将链接大量指向同一个网站以提升SEO排名。但该网站和被链接的网站并不具有相关性,这种情况很容易被企鹅算法认定为恶意链接,且违反搜索引擎规则,接着受到惩罚。
若外部链接来源是低质量或内容不相关的网站,且这种外链数量相当大,可能会被企鹅算法视为是通过购买外链等操作。因此,若因商业合作或其他需求,需要建立外链时,将链接加上nofollow标签,可以避免被Google视为恶意操纵链接。nofollow标签的作用就是告诉Google此链接不必追踪,因此这个链接也不会被计入投票。
(3)、Google Hummingbird蜂鸟算法
目前Google搜索引擎已经不再只是针对关键词本身来提供内容,还会从字里行间给你更精准的资讯。2013 年,蜂鸟算法诞生。蜂鸟算法针对用户的搜索意图进行更复杂的分析,甚至了解用户口语化的搜索,就像人工智能一样,让用户有更好的体验,快速且精准地获得自己想要的搜索结果。
蜂鸟算法相当于填补了低质量内容网站与SEO之间的灰色地带,滥用关键词或内容农场将受到蜂鸟算法或其他算法的惩罚。然而,要符合蜂鸟算法,最简单的方法是只要网站内容自然通顺,口语化且容易阅读,符合用户阅读习惯,使其获得良好体验的内容,自然可以获得搜索流量,且页面有机会出现在搜索结果页的知识图谱上!
(4)、TrustRank算法
TrustRank算法是基于链接关系的排名算法,其目的就是在互联网中筛选出高质量的页面。
(5)、BadRank算法
BadRank算法与TrustRank算法的工作原理相似,就是确定一些不可信的页面,然后再通过页面与不可信页面之间的链接关系以及链接距离来计算页面的不可信值,从而确定页面是否是不可信的。
(6)、PageRank算法
谷歌PageRank是一种根据页面之间的超链接计算的技术,谷歌用PageRank来体现页面的相关性和重要性,这也是在搜索引擎优化中经常被用来评估页面优化效果的因素之一。
Google分数=(相关关键词分数X0.3)+(域名权重X0.25)+(外链分数X0.25)+(用户数据X0.1)+(内容质量分数X0.1)+(人工加分)-(自动或人工降分)。
从公式中我们可以清楚的知道,影响pagerank分数的因素依次是"相关关键词"、"域名"、"外链"、"用户数据"、"内容质量"以及"人工干预"六个方面。
(7)、HillTop算法
谷歌HillTop算法的指导思想与PagRank是一致的,都是通过页面被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档的链接对于搜索者的价值会更大,即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。
五、搜索引擎算法的作用
1、分析用户输入的关键词
理解关键词的含义对于返回优质结果至关重要。因此,为了找到包含相关信息的页面,搜索引擎算法第一步就是分析搜索查询中的关键词的含义。
2、搜索相符内容
接下来,搜索引擎会寻找包含与相应查询匹配的信息的网页。搜索引擎算法会在索引中查询搜索关键词以找到适当的网页,这些算法会分析相关关键词在某个网页上(不论是在标题中还是在正文中)的出现频率和显示位置。
3、为实用网页排名
对于一项典型的查询,含有可能相关信息的网页会多达数千个甚至数百万个。因此,为了帮助将最符合需求的网页排在靠前的位置,搜索引擎算法会评估这些网页的实用性。这些算法会分析数百种不同的因素,以尽力呈现网络所能提供的最有用的信息。为了评估内容在相关主题方面的可信度和权威性,搜索引擎会寻找那些看起来在类似查询中受到大量用户青睐的网站。如果与该主题相关的其他知名网站链接到了相应页面,则可充分说明搜索结果页上的信息具有较高的品质。
4、返回最佳结果
在搜索引擎提供搜索结果之前,会评估所有相关信息的综合效果,会根据用户的搜索类型以最有用的格式提供一系列多样的信息。
5、个性化匹配
搜索引擎会根据用户的位置、过往搜索记录和搜索设置等信息量身显示最实用且最相关的结果。
总结
优化猩SEO:搜索引擎算法是变化的,但搜索引擎的本质是提升用户体验,即为用户提供最佳的搜索结果,网站优化需要跟上搜索引擎算法的变化,还需要注重用户体验的提升,为用户提供最佳的内容才会获得更好的自然搜索排名。
参考链接:
搜索引擎算法_百度百科
https://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E%E7%AE%97%E6%B3%95/10116955
什么是Google算法?认识谷歌搜索引擎的3大算法-腾讯云
https://cloud.tencent.com/developer/article/1701758
Google 搜索的工作方式 _ 概览
https://www.google.com/intl/zh-CN/search/howsearchworks/
修改于2023-06-24
想了解更多SEO百科的内容,请访问:SEO百科