搜索引擎是数学系统。不是比喻,是字面意思。每一个排名决策都是数学函数处理可量化输入后的输出。理解这些函数是什么、衡量什么、如何组合,是SEO唯一有意义的框架。
这不是理论。搜索引擎所依赖的信息检索(Information Retrieval, IR)文献积累了几十年的公开研究。数学是已知的。问题只在于你是在优化数学本身,还是在优化关于数学的叙事。
排名就是排序——排序需要可计算的值
当Google为一个查询返回十个结果时,它执行的是一个排序操作。文档A出现在文档B上面,是因为系统给A算出了更高的综合分数。这个分数完全来自于可以被转化成数值的信号。
这是一个硬性约束,不是设计偏好。排名函数接收输入、产出一个有序列表。如果某个东西不能被系统观测、编码、建模为特征值,它就不能成为这个函数的输入,就不能影响输出,就不能影响排名。
但这不意味着”信任””专业性”这类抽象概念与排名结果完全无关。它的意思是:如果这些概念要起作用,就必须被拆解成系统能计算的代理特征——链接模式、实体识别、站点历史、语言模型评分、行为信号。抽象标签本身从不进入排名函数,进入的是它被分解后的那些可测量的代理变量。
许多听起来不可量化的东西,其实每天都在通过代理变量被量化:”内容质量”变成语言模型评分、内容结构特征和用户行为模式;”品牌信任度”变成搜索量、点击偏好和链接画像特征;”专业性”变成实体关联、作者信号和引用模式。系统不理解这些概念——它处理的是这些概念被分解后的数值特征。
理解这个区别,就是精准优化与优化叙事之间的分界线。
每一个参与排名的信号都遵循同一个模式:输入 → 函数 → 数值输出 → 比较 → 位置。
第一阶段:检索——进入候选池
在页面被排名之前,它必须先被检索到。搜索引擎处理数十亿文档,但对于任何一个查询只会对几千个文档进行评分。检索阶段决定了哪些文档能进入这个候选集。
实际上,检索不是单一步骤,而是一个多路径过程。词法匹配和稠密向量检索是两个主要通道,但生产系统还会纳入查询改写、历史点击缓存以及其他并行召回路径,汇入一个合并的候选池。为了理解核心数学,两个主要通道就够了。
BM25:词法关卡
BM25长期以来是词法检索中的经典基线模型,由Robertson和Zaragoza形式化,被Elasticsearch、Lucene、OpenSearch等主流检索系统广泛采用。即使现代搜索引擎加入了神经检索,词法匹配仍然是召回阶段的重要基础。
这个函数考虑三个要素:查询词在文档中出现的频率,该词在整个索引中的稀有程度,以及文档相对于平均长度的长短。输出是一个实数——越高意味着词法匹配越好。
Google内部系统大概率使用的是大量变体、扩展和学习型词项权重方案,远超原始BM25。但BM25仍然是理解词法检索工作原理的数学原型:它把原理变得具体可见。
BM25的数学有一个饱和特性:一个关键词出现第十次带来的增益,比第一次出现小得多。这就是关键词堆砌收益递减的原因——无论具体使用哪个变体,底层的饱和曲线都在惩罚它。
不存在固定的”好的”BM25分数。所有分数都是相对于同一查询下的其他文档而言的。你不需要达到某个数字,你需要超过你的竞争对手。
稠密检索:语义关卡
现代搜索引擎增加了第二条检索路径:神经嵌入。查询和文档各自被转化为高维向量——意义的数值表示。两个向量之间的余弦相似度衡量的是查询的语义与文档的语义有多接近,即使使用的词完全不同。
输出是0到1之间的一个值。
RankBrain、BERT、MUM这类系统并不等同于简单的余弦相似度检索——它们涉及交叉编码、上下文语言理解和多任务架构,远超基本的向量比较。但它们共同说明了一件事:搜索引擎会把语言转化为机器可处理的数值表示,再用模型计算查询与文档之间的相关性。具体架构各异,但基础思想——语言变成数字,数字被比较——是不变的。
词法匹配和稠密检索共同构成了主要的检索关卡。页面必须通过至少一个关卡才能进入候选集。两个都没通过,再多的权威性或用户互动都救不了你——你根本不在池子里。
第二阶段:排名——多层管道,而非一次打分
被检索到之后,文档并不是拿到一个固定总分然后直接排位。现代搜索排名是一个多阶段管道,不是一次性排序。
一个典型的架构大致是这样的:先对候选集做一轮轻量级评分,然后用更深的重排序模型对每个文档做更精细的计算,再经过质量和垃圾分类器的过滤或降权,再做多样性和时效性调整,最后是展示层的决策——SERP特性、知识面板、结果分组。
很多”为什么我的页面明明相关却不排名?”的场景,根本不是相关性的问题——而是在下游某一层闸门被过滤或降权了。理解排名是一系列闸门而不是一个单一分数,会改变你诊断问题的方式。
这条管道的每一个阶段仍然运行在可计算信号之上。约束在每一层都是一样的:如果系统不能把它表达为数字,就无法处理它。
基于链接的权威性:PageRank及其后继
PageRank(以Larry Page命名)是Google的基础性洞见:如果其他重要页面链接到一个页面,那这个页面就是重要的。算法将互联网建模为一个有向图,计算所有节点上的概率分布——一个随机浏览者沿着链接点击,最终停留在任何给定页面的可能性。
输出是网络上每个页面的一个数值。值越高,权威性越高。
Google当前的系统使用更精密的变体——比如Nearest Seed,从一组受信任的种子页面出发,向外传播权威性。种子集不公开,所以外部工具用经典PageRank近似。原理一样:权威性从链接图谱中计算得出,输出是一个值。
用户行为信号:NavBoost
Google的NavBoost系统使用聚合的行为数据调整排名——但不是大多数SEO讨论中描述的那种方式。
NavBoost并不是简单地”奖励好内容”给它更高排名。它的功能更接近于误差校正:识别排名模型的预测与用户实际满意度出现偏差的地方,然后进行调整。如果模型把一个页面排在第三,但用户持续选择它而不是前两个结果,行为信号就会修正这个错位。
输入不是原始点击次数。NavBoost会校正位置偏差(排名越高的结果自然获得更多点击),按查询类型和用户群体分段,在时间窗口内聚合以过滤噪音。很多信号是在查询层面而非文档层面运作的——系统在调整的是它对”这类查询用户想要什么”的理解,而不仅仅是给单个页面打分。
这些行为信号会被聚合、归一化、校正位置偏差,并作为排序系统中的一类重要特征或调整信号。它们是可测量、可追踪、可计算的——但它们的角色是校准机制,不是简单的人气投票。
实体识别
搜索引擎从文档中提取命名实体(人物、地点、组织、产品、概念),并将它们映射到知识图谱条目。排名系统中的实体处理涉及多个维度:
实体是否能被消歧到知识图谱中的明确节点。页面的主题实体与查询的目标实体是否一致。共现实体是否落在该主题预期的语义邻域内。实体信号在标题、正文、锚文本、结构化数据和外部引用中是否一致。作者、品牌或组织是否在外部网络中形成可验证的实体。
Google的Cloud Natural Language API不是Google Search内部使用的排名系统,但它展示了搜索系统可能如何把文本中的实体、类别和显著性转化为结构化特征——排名系统所需要的那种数值化、可比较的输出。
综合:信号如何组合
没有单一信号决定排名。但组合方式也不是简单的加权求和。
早期检索系统使用固定的线性公式——score = w₁x₁ + w₂x₂ + w₃x₃——每个信号有一个静态权重。现代搜索引擎已经远远超越了这种方式。当前的标准做法是学习排序(Learning to Rank, LTR):在海量标注数据上训练的机器学习模型,用以预测最优排序。
LTR与固定公式的根本区别在于:
特征之间的关系是非线性的。一个页面的链接权威性在”买iPhone”这类商业查询中可能权重极高,但在”iPhone发热怎么办”这类信息查询中权重明显下降。模型从数据中学习这些依赖上下文的交互关系,而不是由人类编写系数。
特征权重是动态的,随查询类型、意图、垂直领域和其他上下文因素变化。不存在一个单一的排名公式——存在的是一族函数,模型根据查询上下文在其中切换。
特征之间会交互。高权威性 + 低内容相关性的组合,产生的效果不同于任何一个信号单独存在的情况。这些跨特征交互正是神经重排序器专门设计来捕捉的。
然而,输入始终不变:进入LTR模型的每一个特征仍然必须是可计算的数值。模型比线性公式复杂得多,但对输入的约束是一样的。数字进去,分数出来,按分数排序。
这对实际操作意味着什么
为了实践简化,绝大多数SEO操作可以归入两个核心变量:Authority × Relevance = Ranking。用户行为、内容质量特征、实体可信度、技术可访问性、时效性和本地化,最终也会通过不同特征影响这两个维度或下游重排序阶段。
优化相关性意味着把检索和相关性信号做到最强。slug和H1精准反映查询意图。内容与查询及其相关词达到高语义相似度。术语与排名页面的用词对齐——不是因为你在抄它们,而是因为同一个主题需要同样的词汇,而数学就是这么衡量的。
建设权威性意味着积累链接图谱算法会奖励的信号。来自主题相关、高权威来源的链接。将权威性分配给需要它的页面的内链结构。一个在基于图的分析中看起来自然的链接画像。
获取正向用户信号意味着创造能满足搜索者的内容,让行为数据确认排名模型的预测——或者把预测修正到对你有利的方向。在SERP中能赢得点击的标题。能解决查询需求、不让用户跳回的内容。这些行为不是作为”对好内容的奖励”输入NavBoost类系统,而是作为保持排名模型准确的校准数据。
以上每一项操作,针对的都是可以被转化成数字的信号。这是排名模型唯一能处理的输入类型。
评估SEO概念的过滤器
遇到任何SEO概念时——无论来自工具、框架、会议演讲还是博客文章——问三个问题:
1. 这个东西能被系统观测、编码、建模为可计算的值吗? 如果不能直接计算,能被拆解成可计算的代理特征吗?如果都不能,它就不参与排名函数。
2. 这个值是怎么产生的? 是统计函数(BM25)、图计算(PageRank)、神经模型输出(嵌入相似度),还是行为聚合(NavBoost)?理解机制才能知道优化什么。
3. 这个值在哪个阶段起作用? 检索(决定你是否进入候选池)、初排(决定你的大致位置)、重排序(用更多特征做更深评分)、质量分类(垃圾/质量过滤),还是展示层调整(SERP特性、多样性、时效性)?阶段决定优先级:检索阶段的信号是存亡级的——没有它们,其他一切都不重要。
这个三层过滤器可以切穿大量的SEO话语。许多流行概念其实是可计算信号的通俗描述:”匹配搜索意图”就是在词法和语义检索上取得高分。”主题权威性”是实体覆盖度、内链结构和入站链接相关性的组合。这些描述没有错——只是不精确。底层的可计算特征才是搜索引擎实际处理的东西。
一些看似不可量化的概念——”内容质量””品牌信任””专业性”——确实与排名结果相关,但只是因为它们是底层可计算代理变量恰好很强的页面的松散描述。标签不是原因,可计算的代理变量才是。
SEO不是优化形容词,而是优化能进入排名函数的可计算信号。搜索引擎不能处理口号——它只能处理特征、分数、概率、向量、图结构和用户行为数据。谁能把抽象概念还原成系统真正能计算的信号,谁才是在做真正的SEO。
独立Google SEO专家,ylsseo.com创始人,基于Google专利、IR与API Leak解读排名机制,中文SEO启蒙第一人。