SEO优化技巧

当前位置: 首页 > SEO优化技巧 > 做SEO要知道搜索引擎原理

做SEO要知道搜索引擎原理

发布时间:2021-09-09 12:30:00

搜索引擎通常是指一个全文搜索引擎,它收录互联网上几千万到几十亿个网页,对网页中的每个单词(关键字)进行索引,并建立索引数据库。当用户搜索关键字时,页面内容中包含关键字的所有页面都将作为搜索结果找到。在通过复杂算法排序之后,这些结果将按照它们与搜索关键字的相关性排序。

搜索引擎发出一个程序,可以在网上找到新的网页和抓取文件。这个程序通常被称为spider。搜索引擎从已知的数据库开始,就像普通用户的浏览器一样访问这些网页并抓取文件。搜索引擎将跟踪网页中的链接并访问更多的网页。这个过程称为爬网。这些新的URL将存储在数据库中等待爬网。因此,跟踪网页链接是搜索引擎蜘蛛寻找新网址的最基本方式,反向链接成为SEO的最基本因素之一。搜索引擎抓取的页面文件与用户浏览器获取的页面文件完全相同,抓取的文件存储在数据库中。

spider抓取的页面文件被分解和分析,并以巨大的表的形式存储在数据库中。这个过程是索引。在索引数据库中,记录网页的文本内容、关键字的位置、字体、颜色、粗体、斜体等相关信息。

用户在搜索引擎界面输入关键字,点击“搜索”按钮后,搜索引擎程序会对搜索词进行处理,如中文特定分词、删除停止词、判断是否需要启动集成搜索、判断是否有拼写错误或打字错误等,搜索词的处理速度必须非常快。

搜索引擎程序在对搜索词进行处理后,会开始工作,从索引数据库中找出包含搜索词的所有页面,并根据排名算法计算出哪些页面应该排在前面,然后按照一定的格式返回到“搜索”页面。

搜索引擎再好,也比不上人。这就是为什么网站需要SEO。没有SEO的帮助,搜索引擎往往无法正确返回最相关、最权威、最有用的信息。

搜索引擎的核心数据结构是倒排文件(也称为倒排索引)。倒排索引是指利用记录的非主属性值(又称次关键字)来查找记录,组织好的文件称为倒排文件,即次索引。倒排文件包含所有次关键字值,并列出所有相关记录的主键值。它主要用于复杂的查询。与传统的SQL查询不同,搜索引擎在数据采集的预处理阶段往往需要一种高效的数据结构来提供检索服务。最有效的数据结构是倒排文件。倒排文件可以简单地定义为以文档的关键字作为索引,以文档作为索引目标的结构(与普通图书类似,索引是关键字,图书的页面是索引目标)。

在搜索引擎分类部分,提出了全文搜索引擎从网站中提取信息,建立网页数据库的概念。搜索引擎的自动信息采集功能分为两种。一种是常规搜索,即每隔一段时间(比如谷歌一般28天),搜索引擎就会主动发送一个“蜘蛛”程序,在一定的IP地址范围内搜索互联网站点。一旦发现一个新网站,它会自动提取网站的信息和地址,并将其添加到自己的数据库中。

二是提交网站搜索,即网站所有者主动向搜索引擎提交网站地址。它在一定时间内(2天到几个月不等)向您的网站发送“蜘蛛”程序,扫描您的网站,并将相关信息存储在数据库中供用户查询。由于近年来搜索引擎索引规则发生了很大的变化,主动提交URL并不能保证你的网站能进入搜索引擎数据库,所以***的办法就是获取更多的外部链接,让搜索引擎有更多的机会找到你并自动收录你的网站。

当用户用关键字搜索信息时,搜索引擎将在数据库中搜索。如果找到符合用户需求的网站,它会使用一种特殊的算法——通常是根据网页中关键词的匹配程度、位置/频率、链接质量等——来计算每个网页的相关性和排名级别,然后根据相关性程度来搜索网页网站,以便将这些网站链接返回给用户。

与全文搜索引擎相比,目录索引有许多不同之处。

首先,搜索引擎属于自动网站检索,而目录索引完全依靠人工操作。用户提交网站后,目录编辑会亲自浏览你的网站,然后根据一套自定义的评价标准甚至编辑的主观印象来决定是否接受你的网站。

其次,搜索引擎在收录网站时,只要网站本身没有违反相关规则,一般都可以成功登录。然而,对网站目录索引的要求却越来越高。有时,即使登录多次,也可能无法成功。

另外,我们在登录搜索引擎时,一般不需要考虑网站的分类,但在登录目录索引时,一定要把网站放在最合适的目录下。

最后,搜索引擎中每个网站的相关信息都是自动从用户的网页中提取出来的,所以从用户的角度来说,我们有了更多的自主权;而目录索引则要求网站信息必须手工填写,并且有各种限制。更重要的是,如果工作人员认为你网站的内容和信息不合适,他们可以随时调整。当然,他们不会事先和你商量。

目录索引顾名思义就是将网站分类存储在相应的目录中。因此,用户在查询信息时,可以选择关键字进行搜索,也可以根据分类目录进行分层搜索。如果按关键字搜索,返回的结果与搜索引擎相同,但人为因素较多。如果按分级目录搜索,则目录中网站的排名由标题字母的顺序决定(也有例外)。

目前,搜索引擎和索引有相互融合和渗透的趋势。一些原始的全文搜索引擎现在也提供目录搜索

搜骐网络 地址:浙江省杭州市文一西路1217号IT公园11幢1611室 电话:0571-88730320 联系人:刘经理

CopyRight © 2015-2020 souqii.com 备案号:浙ICP备15036601号-1   公安网络安全备案号:浙公网安备 33011002012960号