首页 > seo排名 > 正文

  爬索引

  搜索引擎爬整个网络海量页面执行基本质量分数过滤质量好的小网页生成反向索引(可以通过关键词查询文档)

  召回

  用户开始搜索请求搜索引擎首先处理关键字修改拆分为多个单词项目在索引中查找能够击中这些单词项目的文档。可能是这个数字。

  粗线

  但是,文件的实际数量太多,将一股脑推给用户显然是两种力量。用户看不完,只能看到其中极小的部分,质量也不能保证。。

  因此,必须从大量召回的文档中删除内容重复的文档,过滤与搜索词最相关的760个文档,并向用户显示。

  这个链接属于海船,需要大量计算。为了避免用户等待太久,通常使用BM25、TF-IDF、LDA等快速简单的处理方法。具体来说,我们什么都不知道。

  郑烈

  下面是对760个文档进行排序的过程,最终目的是使排序结果的最大概率与用户想要的结果相匹配。这使用户能够找到详细信息,提高搜索的业务价值。

  这部分比海洋选举复杂得多,涉及数据挖掘、机器学习、用户行为分析、用户意图识别等算法很多。

  将用户搜索词和前n个搜索词与在历史日志中搜索该单词的其他用户的导航行为相结合,推测用户可能的搜索意图

  文档更新的时间

  文件的历史查询数

  找到文档后结束搜索的速率

  用户的网络维特征(IP、网络类型、区域.)

  与搜索词文本最匹配的TopN栏文档

  搜索词潜在意图范围最高的TopN个文档

  .太多了,我不知道。

  上述程序相当于搜索引擎中爬行、索引、召回、粗而精的几个步骤,属于搜索引擎系统的初级常识。

  重排

  现在,排序的背后是重新排序,可以根据用户的搜索场景(网络、设备、最近的单击动作等)和媒体热点实时重新排序。例如:

  使用wifi和手机网络,搜索结果可能会有所不同

  今天上午点击的结果之一在下午再次搜索时排名上升了

  上午,媒体曝光了一个名叫GoGo的神秘人与迪丽热巴约会。

  而且下午GoGo入侵的搜索结果与上午完全不同。

  02

  研究排名的方法(一个家庭的话)

  研究包括vs研究排名

  16年前,本渣认为研究“排行榜”最难,后来有一页的站群、范站群、情报站、16年前,这个渣都接触到了大站,一天UV百万级,所以收录的问题不大。一般来说,某目录的收录率很低,但完全没有收录,也没有收录非常慢的问题。

  毕竟,大站参与760人排序的概率很大,But聚集了大量的小站,没有机会参与召回。

  研究大站对研究小站

  所以本渣认为大站和小站,研究排名是两条路线。

  大车站研究制作的单词如何上传到主页上。

  小站研究说什么单词就能上主页。

  研究方法有两种:正向和反向推演。

  03

  推

  精密是假设一堆条件,一个一个地测试,看能否达到自己想要的结果。例如,快行的开发大部分都在推进,需要大量的测试。

  逆推是分析现有结果,找出其中共同的规律,需要大量观察

  在只研究百度SEO排名规则方面,推的门槛很高。

  比如很久以前,这个渣渣抓住了1000个单词(同一个词根)的搜索结果,把每个单词的760个结果对应的网页都撕下来了,最后我记得不到40万篇,近50%的搜索结果重复了。

  然后把这个网页导入xunsearch(开源搜索引擎,不是说这个好,这个渣渣当时只有这个,还不知道有elasticsearch),建立了倒索引。

  同时,我还整理了基本词汇,使这部分行业语分词更加准确。

  我的想法是这样的。

  第一步:同时在xunsearch和Baidu中搜索单词,调整xunsearch搜索参数,调整与Baidu非常接近的结果(例如,top10文档的大多数内容)。但是顺序略有不同。

  第二步:我修改我网页的内容,推到xunsearch更新索引,再次进行xunsearch搜索,如果top10能出来,在线网页将跟随这次修改的在线。如果不出来,请修改其他地方,直到Top10出现为止。

  理想丰满而现实的骨感。

  不管怎样,第一步没有出来。毕竟商业搜索引擎和开源搜索引擎,很多地方都不一样。

  但是这只能代表百度。因为研究其他搜索入口,例如微信搜索、知乎、小红书排名规律要容易得多。首先,这些平台没有收录的问题,内容不违反的话是收录,其次是影响排序的因素比百度少得多。

  安妮威,我放弃了把我推开。

  04

  逆推

  让我们谈谈当时一个反超的思维方式,相对来说,逆推比政推容易得多。

  长尾关键词

  在站群的时候开发的还不是泛分析程序,可以承载无限的关键词。仓库里有多少单词,这个程序生成多少页面或二级域名。而是说。也就是说,如果仓库里夹着一堆不能上主页的关键词,这是浪费系统资源。毕竟,希望新域名被有限收录的页面都是可以大概率排名的页面。(阿尔伯特爱因斯坦,美国作家)。

  一个流量词呢,在搜索结果中有四个特征。

  top 10结果的is权重较高

  7)。

  top 10结果儿童站权重低

猜你喜欢
发表评论

电子邮件地址不会被公开。 必填项已用*标注

评论信息
picture loss