首页 >> 新闻资讯 >>优站通商学院 >> 优站通商学院:搜索引擎是如何判断网页的相关性的
详细内容

优站通商学院:搜索引擎是如何判断网页的相关性的

相关性是指内容和关键词的相关程度。现在搜索引擎其实并没有真正解决相关性计算的问题,只是通过关键词分词匹配、关键词在内容中的频率密度、关键词字体位置和页面外链等表面特征来进行内容相关度的计算。当下搜索引擎还不能真正理解搜索词和文章所表达的含义,所以也使得部分内容应该有排名但实际上却没有的现象。现在搜索引擎判断相关性般会采用关键词匹配和语义分析两种判断方法。
搜索引擎对索引库的检索过程可以简单描述如下:
(1)把用户提交的搜索词分成词A 和词B。
(2) 同时使用词A 和词B 在索引库中进行检索,并提出所有包含词A 或者词B 的文件,
组成文件集合L。
(3)在文件集合L 中把同时包含词A和词B的文件优先提出来组成文件集合M排在前面,
把只包含词A或词B的文件排在后面。
(4) 继续对文件集合M进行分析,把完全包含用户搜索词的文档提出来组成文件集合N,并排在前面,把内容中没有完全匹配搜索词的文件排在后面。
(S) 再根据搜索词在网页中出现的次数、位置、密度和形式等对文件集合N中的文件进行排序。
(6) 搜索引擎还会分析文件的外链数量、质量和锚文本,根据锚文本辅助分析文件和关键词的相关度、外链的数量和质量来确定文件的重要程度,以进行排序调整。
   以上只是简单模拟搜索引擎的检索排序过程,为了描述方便,引入了“文件集合”。在整个检索和排名过程中,关键词匹配程度、密度、频率、位置、形式和外链情况会应用到所有文件上,而不仅仅是上文所提到的文件集合上。由以上检索排序模拟过程可以看出,搜索引擎判断个网页或者文件与搜索词的相关度,主要根据文件中关键词出现的频率(次数)、密度(占全部内容的比例)、终分词后关键词之间的距离(是否完全匹配)、位置和形式(是否在标题、内容比较靠前的位置以及是否黑体、变色、H标签等突出显示)、文件外链锚文本(是否和内容有统的文本描述) 等,外链的数量和质量并不是判断内容相关性的因素,只是判断文件重要程度、内容质量或可信任程度的标准。

Copyright @ 2018 . All rights reserved.