Screaming Frog Visualisations:向量可视化分析

Screaming Frog 在接入 AI API 之后,Visualisations 模块的能力发生了质变:它不再只是把抓取数据画成树状图,而是可以基于页面 embedding 做内容聚类,把站点的主题结构、内链结构、锚文本分布全部转换为可直接观察的图形。本文逐个分析 Visualisations 下各项功能的原理、读法和 SEO 用途,并给出一组行业头部站点的对比数据。

一、Content Cluster Diagram:基于向量的主题聚类

这是整个模块里价值最高的功能。Screaming Frog 在爬取时通过 API 为每个页面的正文生成 embedding,然后将高维向量降维映射到 2D 坐标上并自动聚类。每个点是一个页面,点与点的距离近似语义距离,同色的点属于同一个簇。整站的主题结构第一次变成了可以直接看的东西:内容是致密的一团,还是松散的几坨,有多少页面悬在主体之外,一图可见。

读图时有一个常见误判需要避开:聚类图的画布会自动缩放以铺满视图,第一眼看上去松散的点云未必真的发散。判断聚合程度不能凭视觉印象,要看坐标的实际数值范围——若 X、Y 轴上的坐标差值很小,说明页面在向量空间中实际非常紧密,只是被画布放大了间距。这也是为什么跨站点对比时,依据必须是用坐标计算出的站点半径,而不是把两张图放在一起比形状——不同站点的图各自缩放,形状不可直接比较。

如下,A图实际坐标差值小,更紧密,而B图更分散,特别是红标的几个点把整站的坐标跨度强行拉大。

为什么向量聚类和关键词聚类是两回事

行业里主流的主题规划方法是关键词聚类:按词根、按字面相似度把词分组。这个方法的前提有问题——关键词聚类反映的是人对主题的理解方式,而 Google 理解页面主题的方式是 embedding。

向量编码的不是词典释义,而是词语在真实语料中的使用上下文:什么样的内容里出现它、围绕它讨论什么、对应什么搜索任务。由此产生一个反直觉但重要的现象:字面上的同义关键词,在向量投射下可能偏差非常远。 两个词看起来近义,但上下文分布不同、背后的任务不同,向量就会把它们放到相距很远的位置。按字面把它们聚成一类塞进同一个页面,页面的主题信号在 Google 的几何里是分裂的。反过来,两篇标题毫无字面重叠的文章,向量距离可能非常近——它们在竞争同一个语义位置,这是关键词工具查不出来的蚕食形态。

行业头部站点对比:聚合程度、权威度与流量效率

为了验证点云形态与流量表现的关系,我们选定了一个 B2B 制造服务行业,对自然搜索表现靠前的头部站点逐一爬取、生成向量聚类图,并以各站点云坐标计算站点半径(全部页面到站点质心的平均距离,作为聚合程度的量化指标),同时拉取各站的 Ahrefs 数据,计算流量效率 = 月自然流量 ÷ 页面数。部分数据如下(站点已匿名,按半径升序):

站点半径DR页面数月自然流量流量效率(流量/页)
A0.723357~2,20038.6
B3.0949239~17,30072.4
C5.9342479~3400.7
D6.0172647~43,80067.7
E6.5370510~78,300153.5
F8.4474808~237,000293.3

第一眼看上去相关性并不单调——半径最大的站点 F 流量效率反而最高。但把 DR 这一列纳入视野,结构立刻清晰:

在权威度相近的站点之间,聚合程度几乎决定了流量效率。 站点 A 与站点 C 的 DR 接近(33 vs 42),半径相差 8 倍(0.72 vs 5.93),流量效率相差 55 倍(38.6 vs 0.7)。站点 C 拥有更高的权威度和 8 倍于 A 的页面体量,产出却不足 A 的零头——差距无法用权威或内容量解释,只能用点云形态解释:它的内容散落在多条服务线和大量低质归档页上,站点在向量空间里没有形成清晰的主题实体。

高权威站点可以用权威补偿发散的半径。 站点 D、E、F 的半径都不小,但 DR 70+ 的链接资产托住了大体量内容的排名,半径的代价被权威吸收了。

两条放在一起,结论是有条件的,也因此更有用:权威度是发散的赦免状;没有这张赦免状的站点,流量效率几乎完全由聚合度决定。 对绝大多数中小站点而言,可控变量只有半径——把点云收紧,是低权威条件下唯一不依赖外部资源的效率杠杆。

这与 Google API 文档泄露中的 siteFocusScore(站点主题专注度)和 siteRadius(页面 embedding 偏离站点整体 embedding 的程度)相互印证:Google 在站点层面度量内容点云的紧凑程度,而权威信号与主题信号在排名中相乘而非相加——任何一项接近零,另一项再大也救不回来。

离质心远的点:偏题页面的直接识别

聚类图最实用的一个读法,是找离群点。站点的全部页面向量存在一个质心,绝大多数页面围绕质心分布;那些远离质心、悬在点云边缘甚至独立成簇的点,就是偏离站点主题的页面——在 siteRadius 的语义下,它们是拉高整站离散度的元凶。

在图上锁定这些离群点之后,逐个核对它们的流量数据,处置路径就清晰了:

离群且无流量的页面,是最优先的修剪对象——它们对主题信号是纯负贡献;离群但有流量的页面,需要业务判断:要么是值得保留的例外,要么说明这块内容应当独立成站或独立目录;离群且成片聚集的页面(一个游离的小簇),则指向一个结构性问题:站点实际上在同时做两个主题,向量图能把这种”双质心”形态直接画出来,并量化两团点云的距离,为拆分还是聚焦的决策提供依据。

Screaming Frog Visualisations:向量可视化分析 – image 177

二、Force-Directed Crawl Diagram 与 Crawl Tree Graph:内链结构

这两个图基于同一份数据(抓取路径与链接关系),呈现方式不同:力导向图适合看整体结构与孤岛,树状图适合看层级路径。节点可按抓取深度、unique inlinks、GSC 点击等维度着色和缩放,内链结构的健康状况一图可见。

读图时重点看三类形态:

深度分布——任何重要页面距首页不应超过三次点击,树状图直接呈现每一层有多少页面、哪些页面被挤到了深层;

链接权重的传递路径——力导向图中节点的大小可映射 unique inlinks,核心页面是否获得了与其重要性匹配的内链支持,对比节点大小即可判断;

悬挂点与孤岛——只有一两条内链的节点、依附在某个叶子页面下的孤立分支,在表格里容易被忽略,在图上是一眼可见的异常形态。红色节点(非 200 状态)混在结构里时尤其显眼,残留的重定向链接、错误链接的位置和来源直接暴露。

Screaming Frog Visualisations:向量可视化分析 – image 178

值得专门指出的是向量图与链接图的交叉验证:当 Content Cluster Diagram 里的离群页面,同时也是 Crawl Diagram 里深度最深、内链最少的边缘节点时,两个独立数据源的证据发生收敛,修剪或整合的决策置信度远高于单一证据。语义上偏题、结构上边缘化的页面,几乎不存在误判空间。

三、Force-Directed Directory Tree Diagram:目录结构视角

与 Crawl Diagram 的区别在于数据来源:Crawl Diagram 反映”Googlebot 如何通过链接发现页面”,Directory Tree 反映”URL 路径如何组织”。两者对照看有专门用途——URL 结构很浅但抓取深度很深的页面,说明它在路径上属于核心目录、却没有获得相应的内链支持;反之,则说明内链在补偿目录结构的缺陷。单看任何一张图都得不出这个结论。

四、词云:锚文本与正文的快速诊断

Inlink Anchor Text Word Cloud 统计指向某个页面的全部内链锚文本词频。它回答的问题是:一个页面获得的锚文本信号,是模板链接堆出来的单一重复,还是来自正文的多样化语境。典型的问题形态是某个锚文本以数十倍量级压倒其余所有锚文本——那基本来自全站导航或页脚,真正携带语义信息的正文上下文锚文本只有个位数。锚文本多样性的优化空间在图上直接暴露。

Body Text Word Cloud 统计单个页面正文的词频,用于快速自检页面的主题词分布是否与目标一致。需要说明:Screaming Frog 对中文没有分词能力,整句会被当作单个词条统计,中文站点的正文词云只能做粗粒度参考;锚文本词云因锚文本本身较短,受影响较小。

五、使用要点

正文区域配置先行。 Embedding 和词云的质量完全取决于喂进去的文本。爬取前在 Config > Content > Area 中框定正文区域、排除导航页脚侧边栏,否则全站页面会因共享模板文本而被强行拉近,聚类结果失真。

API 接入。 在 API Access 中连接模型后开启 content embeddings,向量随爬取生成,可整列导出用于自定义分析;Content 标签下的 Semantically Similar 过滤器基于同一份向量数据,可直接输出语义相近页面对的清单,作为聚类图的表格化补充。

可视化均可导出为独立 HTML,离线交互查看,适合放进审计报告交付,客户不需要安装 Screaming Frog 也能自己点开看。

结论

Visualisations 模块的本质,是把三类原本只存在于表格中的结构——语义结构(向量聚类)、链接结构(抓取图)、信号结构(锚文本分布)——转换为可直接观察的图形。其中向量聚类的意义最大:它提供了一个比关键词更接近 Google 实际工作方式的主题分析单位,让”哪些页面在偏题、站点该不该开新内容线、两篇内容是否在互相蚕食”这些原来靠经验回答的问题,变成了可以测量的几何问题。关键词序列属于向量序列,主题规划的依据应当从”这些词长得像不像”转向”这些内容在向量空间里落在哪”。

鸭老师SEO
鸭老师SEO

独立Google SEO专家,ylsseo.com创始人,基于Google专利、IR与API Leak解读排名机制,中文SEO启蒙第一人。

滚动至顶部