发布时间:2021-05-05 13:00:00
我一直认为SEO是一门艺术。但可悲的是,这是一门以技术为基础的艺术,所以我们必须像技术一样准确地掌握一些概念。今天,我想写几个概念,这些概念是密切相关的,往往混淆,但不是同一件事,为什么我们需要准确地掌握这些概念。
爬行意味着爬行器沿着页面上的链接找到一个新页面,然后“爬行”以获取新页面。爬行是指蜘蛛发现一个新页面后,像浏览器一样打开页面,将页面的HTML代码导入数据库。在英语中,这两个概念通常用“爬行”或“蜘蛛”(在本例中是动词)来表示,可以根据上下文加以区分。
显然,爬行和抓取是交织在一起的。爬行实际上是一个我们可以观察到的过程。在原始日志中,有蜘蛛爬行的完整记录,如爬行的准确时间、状态码、哪个文件在爬行、文件有多大等,蜘蛛对页面的爬行与浏览器读取文件完全相同。
爬行只是一个比喻。事实上,蜘蛛在抓取文件时不会找到链接,然后立即跟踪过去。蜘蛛抓取文件并将其存储在数据库中后,程序解析文件中的链接并将URL存储在页面地址库中,然后蜘蛛根据一定的规则从地址库中选择URL进行抓取。蜘蛛在访问网页时实际上不会爬过URL。
索引是对一个URL的信息进行分类,如重复数据消除、分词等,然后将该URL的信息存储到数据库中,称为索引库。真正用于搜索的是倒排索引。我待会再谈。需要注意的是,索引库中关于URL的信息不仅是构成页面内容的关键字及其特征(位置、格式等),还收录关于链接和更新的信息。索引这个词就是索引。
收录是SEO最关心的也是最常用的词,其实也是四个概念中最不清晰的。被包含是指我们可以通过搜索引擎找到存储在索引库中的页面。但稍后我们将看到,进入索引库的URL不一定是爬网的,这可能与SEO的直觉不同。
当然,对概念的准确把握不是要一文不值,而是要对很多SEO问题的理解和处理产生影响。这里有一些例子。
页面不收录是SEO最头疼的问题之一,不收录对排名、流量都有影响。博客和论坛里有太多的人问为什么不收录这个页面,也给出了域名,但是这种问题回答不了,即使愿意花时间去诊断,也回答不了(除非列出所有可能的原因,这意味着没有答案),因为缺了一个关键信息:页面被收录了吗抓取?这只有查原始日志才知道,看网站是看不到的,查流量是查不出来的。理解前面的概念就会知道被抓取并不一定意味着被包含,不被包含也不一定意味着不被抓取。
如果页面已被爬网,但未被索引和包含,那么内容(原始)是否有问题?收藏?所谓的伪原创?敏感内容还是产品?复制内容?)找出原因。网站结构应该不是大问题,搜索引擎看到的是不适合收录的内容。如果网页根本没有被抓到,就要去网站和链接结构、搜索引擎不友好的技术壁垒、域名权重等方面。
它被编入索引了,但一定要编入索引吗?
使用site:命令或直接搜索URL可以检查URL是否被索引,但并不一定表示页面已被爬网。人们经常会问,搜索结果中的URL没有说明文字,只有URL,而且标题与页面的真实标题不同。其中一个原因是页面已被索引,但未被爬网。如图所示,淘宝在百度的收藏很典型。百度索引了淘宝的主页,但是百度蜘蛛没有抓取主页的内容,因为淘宝的机器人文件禁止百度抓取。百度索引库中有关淘宝主页的信息来自其他来源,主要是外部链接。百度根据链接信息给出推测的标题(与真实页面标题不同),但没有说明文字。单击快照查看为空。如果你的页面发生这种情况,这意味着搜索引擎知道该页面的存在,但由于某种原因无法抓取该页面。也许机器人文件有问题?可能是服务器设置错误,禁止百度爬网?可能停机时间太长了?
一半的热门分类内容显示出来了,但后面的内容不见了。显然,百度并没有索引整个页面,而只是上半部分。也许文件太大了?也许上半年的链接,百度觉得没有真正的内容?在这种情况下,代码肯定需要简化。比如图中的这个页面,光导航就超过100K,真的有必要把导航弄得这么大吗?
在这种情况下,爬网了多少页?只有查日志我们才能知道。如果抓拍完成,那么页面上的链接可以被爬网,虽然快照不完整,所以影响不大。如果爬行不完整,问题就比较大,页面就会失去显示内页的意义。赶快简化代码。一般来说,蜘蛛能掌握的远不止指数。
即使爬网是完整的并且不影响链接爬网跟踪,如果是内页,正文内容是否不会被完全索引?以下为内页:
从右滑块的位置可以看出,产品属性后面还有很多内容。看看这个页面的百度快照:
百度索引到了产品属性的末尾,所以索引后面的内容很多。如果还有更重要的词呢?如果导航稍微大一点,页面主体根本没有索引,会怎么样?答案是没有索引的内容将不会被搜索。在这种情况下,似乎一切正常,但它也被抓取和索引,但网页不会有排名,而如何调整网页的内容是没有用的,因为真正的索引是没有索引的。
搜骐网络 地址:浙江省杭州市文一西路1217号IT公园11幢1611室 电话:0571-88730320 联系人:刘经理
CopyRight © 2015-2020 souqii.com 备案号:浙ICP备15036601号-1 公安网络安全备案号:浙公网安备 33011002012960号