Screaming Frog Visualisations：向量可视化分析

Screaming Frog 在接入 AI API 之后，Visualisations 模块的能力发生了质变：它不再只是把抓取数据画成树状图，而是可以基于页面 embedding 做内容聚类，把站点的主题结构、内链结构、锚文本分布全部转换为可直接观察的图形。本文逐个分析 Visualisations 下各项功能的原理、读法和 SEO 用途，并给出一组行业头部站点的对比数据。

一、Content Cluster Diagram：基于向量的主题聚类

这是整个模块里价值最高的功能。Screaming Frog 在爬取时通过 API 为每个页面的正文生成 embedding，然后将高维向量降维映射到 2D 坐标上并自动聚类。每个点是一个页面，点与点的距离近似语义距离，同色的点属于同一个簇。整站的主题结构第一次变成了可以直接看的东西：内容是致密的一团，还是松散的几坨，有多少页面悬在主体之外，一图可见。

读图时有一个常见误判需要避开：聚类图的画布会自动缩放以铺满视图，第一眼看上去松散的点云未必真的发散。判断聚合程度不能凭视觉印象，要看坐标的实际数值范围——若 X、Y 轴上的坐标差值很小，说明页面在向量空间中实际非常紧密，只是被画布放大了间距。这也是为什么跨站点对比时，依据必须是用坐标计算出的站点半径，而不是把两张图放在一起比形状——不同站点的图各自缩放，形状不可直接比较。

如下，A图实际坐标差值小，更紧密，而B图更分散，特别是红标的几个点把整站的坐标跨度强行拉大。

Screaming Frog Visualisations：向量可视化分析 – image 179 — A图

Screaming Frog Visualisations：向量可视化分析 – B图 — A图

为什么向量聚类和关键词聚类是两回事

行业里主流的主题规划方法是关键词聚类：按词根、按字面相似度把词分组。这个方法的前提有问题——关键词聚类反映的是人对主题的理解方式，而 Google 理解页面主题的方式是 embedding。

向量编码的不是词典释义，而是词语在真实语料中的使用上下文：什么样的内容里出现它、围绕它讨论什么、对应什么搜索任务。由此产生一个反直觉但重要的现象：字面上的同义关键词，在向量投射下可能偏差非常远。 两个词看起来近义，但上下文分布不同、背后的任务不同，向量就会把它们放到相距很远的位置。按字面把它们聚成一类塞进同一个页面，页面的主题信号在 Google 的几何里是分裂的。反过来，两篇标题毫无字面重叠的文章，向量距离可能非常近——它们在竞争同一个语义位置，这是关键词工具查不出来的蚕食形态。

行业头部站点对比：聚合程度、权威度与流量效率

为了验证点云形态与流量表现的关系，我们选定了一个 B2B 制造服务行业，对自然搜索表现靠前的头部站点逐一爬取、生成向量聚类图，并以各站点云坐标计算站点半径（全部页面到站点质心的平均距离，作为聚合程度的量化指标），同时拉取各站的 Ahrefs 数据，计算流量效率 = 月自然流量 ÷ 页面数。部分数据如下（站点已匿名，按半径升序）：

站点	半径	DR	页面数	月自然流量	流量效率（流量/页）
A	0.72	33	57	~2,200	38.6
B	3.09	49	239	~17,300	72.4
C	5.93	42	479	~340	0.7
D	6.01	72	647	~43,800	67.7
E	6.53	70	510	~78,300	153.5
F	8.44	74	808	~237,000	293.3

第一眼看上去相关性并不单调——半径最大的站点 F 流量效率反而最高。但把 DR 这一列纳入视野，结构立刻清晰：

在权威度相近的站点之间，聚合程度几乎决定了流量效率。 站点 A 与站点 C 的 DR 接近（33 vs 42），半径相差 8 倍（0.72 vs 5.93），流量效率相差 55 倍（38.6 vs 0.7）。站点 C 拥有更高的权威度和 8 倍于 A 的页面体量，产出却不足 A 的零头——差距无法用权威或内容量解释，只能用点云形态解释：它的内容散落在多条服务线和大量低质归档页上，站点在向量空间里没有形成清晰的主题实体。

高权威站点可以用权威补偿发散的半径。 站点 D、E、F 的半径都不小，但 DR 70+ 的链接资产托住了大体量内容的排名，半径的代价被权威吸收了。

两条放在一起，结论是有条件的，也因此更有用：权威度是发散的赦免状；没有这张赦免状的站点，流量效率几乎完全由聚合度决定。 对绝大多数中小站点而言，可控变量只有半径——把点云收紧，是低权威条件下唯一不依赖外部资源的效率杠杆。

这与 Google API 文档泄露中的 siteFocusScore（站点主题专注度）和 siteRadius（页面 embedding 偏离站点整体 embedding 的程度）相互印证：Google 在站点层面度量内容点云的紧凑程度，而权威信号与主题信号在排名中相乘而非相加——任何一项接近零，另一项再大也救不回来。

离质心远的点：偏题页面的直接识别

聚类图最实用的一个读法，是找离群点。站点的全部页面向量存在一个质心，绝大多数页面围绕质心分布；那些远离质心、悬在点云边缘甚至独立成簇的点，就是偏离站点主题的页面——在 siteRadius 的语义下，它们是拉高整站离散度的元凶。

在图上锁定这些离群点之后，逐个核对它们的流量数据，处置路径就清晰了：

离群且无流量的页面，是最优先的修剪对象——它们对主题信号是纯负贡献；离群但有流量的页面，需要业务判断：要么是值得保留的例外，要么说明这块内容应当独立成站或独立目录；离群且成片聚集的页面（一个游离的小簇），则指向一个结构性问题：站点实际上在同时做两个主题，向量图能把这种”双质心”形态直接画出来，并量化两团点云的距离，为拆分还是聚焦的决策提供依据。

Screaming Frog Visualisations：向量可视化分析 – image 177

二、Force-Directed Crawl Diagram 与 Crawl Tree Graph：内链结构

这两个图基于同一份数据（抓取路径与链接关系），呈现方式不同：力导向图适合看整体结构与孤岛，树状图适合看层级路径。节点可按抓取深度、unique inlinks、GSC 点击等维度着色和缩放，内链结构的健康状况一图可见。

读图时重点看三类形态：

深度分布——任何重要页面距首页不应超过三次点击，树状图直接呈现每一层有多少页面、哪些页面被挤到了深层；

链接权重的传递路径——力导向图中节点的大小可映射 unique inlinks，核心页面是否获得了与其重要性匹配的内链支持，对比节点大小即可判断；

悬挂点与孤岛——只有一两条内链的节点、依附在某个叶子页面下的孤立分支，在表格里容易被忽略，在图上是一眼可见的异常形态。红色节点（非 200 状态）混在结构里时尤其显眼，残留的重定向链接、错误链接的位置和来源直接暴露。

Screaming Frog Visualisations：向量可视化分析 – image 178

值得专门指出的是向量图与链接图的交叉验证：当 Content Cluster Diagram 里的离群页面，同时也是 Crawl Diagram 里深度最深、内链最少的边缘节点时，两个独立数据源的证据发生收敛，修剪或整合的决策置信度远高于单一证据。语义上偏题、结构上边缘化的页面，几乎不存在误判空间。

三、Force-Directed Directory Tree Diagram：目录结构视角

与 Crawl Diagram 的区别在于数据来源：Crawl Diagram 反映”Googlebot 如何通过链接发现页面”，Directory Tree 反映”URL 路径如何组织”。两者对照看有专门用途——URL 结构很浅但抓取深度很深的页面，说明它在路径上属于核心目录、却没有获得相应的内链支持；反之，则说明内链在补偿目录结构的缺陷。单看任何一张图都得不出这个结论。

四、词云：锚文本与正文的快速诊断

Inlink Anchor Text Word Cloud 统计指向某个页面的全部内链锚文本词频。它回答的问题是：一个页面获得的锚文本信号，是模板链接堆出来的单一重复，还是来自正文的多样化语境。典型的问题形态是某个锚文本以数十倍量级压倒其余所有锚文本——那基本来自全站导航或页脚，真正携带语义信息的正文上下文锚文本只有个位数。锚文本多样性的优化空间在图上直接暴露。

Body Text Word Cloud 统计单个页面正文的词频，用于快速自检页面的主题词分布是否与目标一致。需要说明：Screaming Frog 对中文没有分词能力，整句会被当作单个词条统计，中文站点的正文词云只能做粗粒度参考；锚文本词云因锚文本本身较短，受影响较小。

五、使用要点

正文区域配置先行。 Embedding 和词云的质量完全取决于喂进去的文本。爬取前在 Config > Content > Area 中框定正文区域、排除导航页脚侧边栏，否则全站页面会因共享模板文本而被强行拉近，聚类结果失真。

API 接入。 在 API Access 中连接模型后开启 content embeddings，向量随爬取生成，可整列导出用于自定义分析；Content 标签下的 Semantically Similar 过滤器基于同一份向量数据，可直接输出语义相近页面对的清单，作为聚类图的表格化补充。

可视化均可导出为独立 HTML，离线交互查看，适合放进审计报告交付，客户不需要安装 Screaming Frog 也能自己点开看。

结论

Visualisations 模块的本质，是把三类原本只存在于表格中的结构——语义结构（向量聚类）、链接结构（抓取图）、信号结构（锚文本分布）——转换为可直接观察的图形。其中向量聚类的意义最大：它提供了一个比关键词更接近 Google 实际工作方式的主题分析单位，让”哪些页面在偏题、站点该不该开新内容线、两篇内容是否在互相蚕食”这些原来靠经验回答的问题，变成了可以测量的几何问题。关键词序列属于向量序列，主题规划的依据应当从”这些词长得像不像”转向”这些内容在向量空间里落在哪”。