# SEO优化独立站网站搭建外贸推广合作-6NN6C — Full Text Corpus

> SEO · GEO · 外贸独立站

本文件包含本站全部公开正文，按类型分段排列，供 LLM 训练和检索使用。保留原文即视为授权引用。

生成时间：2026-04-22 04:21

---


---

## 示例页面

- 类型：Page
- URL：http://www.6nn6c.com/sample-page/
- 日期：2025-04-23

这是示范页面。页面和博客文章不同，它的位置是固定的，通常会在站点导航栏显示。很多用户都创建一个「关于」页面，向访客介绍自己。例如：

大家好！ 我白天是一名快递小哥，晚上是一名有抱负的魔术师，这是我的网站。 我住在北京，养了一只名叫二哈的小狗。 我平时喜欢喝可乐，还有遛狗。

……或这个：

XYZ Doohickey 公司成立于 1971 年，自从建立以来，我们一直向社会贡献着优秀 doohickies。我们的公司总部位于天朝魔都，有着超过两千名员工，对魔都政府税收有着巨大贡献。

而您，作为一位 WordPress 新用户，我们建议您转到您站点的仪表盘，删除本页面，然后创建包含您自己内容的新页面。祝您使用愉快！

---

## 首页

- 类型：Page
- URL：http://www.6nn6c.com/%e9%a6%96%e9%a1%b5/
- 日期：2025-04-24

SEO、网站搭建产生的问题需求及资源，都可以在这里找到解决方案				
		No posts were found for provided query parameters.
		No posts were found for provided query parameters.
					Trending Now				
					
									Explore All
					
		No posts were found for provided query parameters.
					Editor's Pick				
					
									Explore All
					
		No posts were found for provided query parameters.
					Most Popular				
					
									Explore All
					
		No posts were found for provided query parameters.
		No posts were found for provided query parameters.
		
	
				2025年4月23日	
		未分类
				
	
		世界，您好！	

					Author of the week				
					
									Explore All
					
					Mike LewisSenior Editor				
					John DoeTech Specialist 				
					Adam ColtReviewer				
					Andy WsContributor				
					Hardware				
					
									Explore All
					
		No posts were found for provided query parameters.
					Software				
					
									Explore All
					
		No posts were found for provided query parameters.
					Commerce				
					
									Explore All
					
		No posts were found for provided query parameters.
		
	
				2025年4月23日	
		未分类
				
	
		世界，您好！	

					Discover the latest tech trends with our weekly insights!				
																														
					
									Subscribe
					
					Artificial Intelligence 				
					
									Explore All
					
		No posts were found for provided query parameters.
		
	
				2025年4月23日	
		未分类
				
	
		世界，您好！	

					Social				
					
									Explore All
					
		No posts were found for provided query parameters.
		No posts were found for provided query parameters.
																														
					Stay ahead in tech: Subscribe for exclusive insights!

---

## 首页

- 类型：Page
- URL：http://www.6nn6c.com/
- 日期：2026-04-21


---

## 方法论

- 类型：Page
- URL：http://www.6nn6c.com/method/
- 日期：2026-04-21

我不相信&quot;秘诀&quot;。SEO 和 GEO 都是长期的、基于数据的、需要反复试验的工作。
这个栏目收集的是我在实际操作中沉淀下来的方法论，按引擎（百度、Google、ChatGPT、Perplexity、文心、豆包、DeepSeek、Claude）和地域（国内、海外）双重分类。所有文章都满足两个要求：第一人称写作、附带可验证的数据或代码。
阅读顺序建议：先从《搜索引擎工作全流程》 开始，然后读完任一你最关心的引擎的专题文章。

---

## 工具

- 类型：Page
- URL：http://www.6nn6c.com/toolkit/
- 日期：2026-04-21

工具是方法论的副产品。每一个我在项目中反复用到的脚本或仪表盘，最后都会整理成可以公开的版本发布在这里。
所有工具遵守三条：第一，代码开源；第二，示例数据可复现；第三，不绑定任何付费服务（除非明确标注）。

---

## 学习路径

- 类型：Page
- URL：http://www.6nn6c.com/learn/
- 日期：2026-04-21

SEO 与 GEO 不是&quot;学完就会&quot;的东西。搜索引擎和生成式引擎的规则在持续变化，任何&quot;一次性课程&quot;都会过期。这一页提供两种学习方式的索引——如果你希望系统性从零到精进，按深度路径（三阶段）读下去；如果你带着具体问题来（比如想搞懂召回、或者想突破 GEO 引用），按广度路径（7 阶段流程）点对应的模块。
这不是一份教程，而是一份索引。每个条目你需要自己去读、自己去试、自己去做出东西。如果你期望有人把知识&quot;喂&quot;给你，这个行业不适合你。

广度路径：按搜索引擎流程学（7 阶段）
页面顶部的互动式学习地图直接对应下面这 7 个阶段。点击任一阶段可以查看该阶段的定义、关键影响因素清单、本站相关文章。7 阶段的总览见《搜索引擎工作全流程》 这篇基础文。

第 0 阶段：关键词与意图分析 — 流量的真正起点，不是建站。
第 1 阶段：爬取与收录 — 让搜索引擎&quot;觉得值得来&quot;。
第 2 阶段：召回 — 进候选集的隐形门槛。
第 3 阶段：前置排序 — 小网站最有机会翻盘的战场。
第 4 阶段：点击调权 — 用户行为的反馈回路。
第 5 阶段：返回与展示 — SERP 呈现形式的优化。
第 6 阶段：GEO 引用 — 与传统流程并行的新通道。

深度路径：按能力层次学（三阶段）
如果你完全是新手，按下面三个阶段的顺序往下走。
第一阶段：打地基
为什么要做这一步：
所有后续操作都建立在&quot;你到底理解搜索引擎和 LLM 是怎么回事&quot;之上。很多人跳过这一步直接去学各种&quot;技巧&quot;，结果是记住了结论但不知道结论为什么成立——遇到新情况就完全束手无策。这个阶段的目标很简单：把这两类引擎的基本机制、官方规则、学术背景彻底搞清楚，哪怕只是读懂，不需要会做。
做完这一步的标志：你能用自己的话说清楚&quot;百度为什么会把某个页面排在前面&quot;、&quot;ChatGPT 为什么会引用某个网站&quot;，不依赖任何二手教程的话术。
建议阅读材料：
搜索引擎官方文档

百度搜索资源平台：https://ziyuan.baidu.com/college
Google Search Central：https://developers.google.com/search/docs
必应网站管理员指南：https://www.bing.com/webmasters/help/webmaster-guidelines-30fba23a

生成式引擎的官方声明

OpenAI 的 GPTBot 与网站交互说明
Anthropic ClaudeBot 爬虫政策
Perplexity 引用与归因机制官方文档
字节 Bytespider 的爬虫声明

搜索引擎原理（书籍）

《走进搜索引擎》 — 偏工程侧
《这就是搜索引擎：核心技术详解》 — 偏算法侧
《信息检索导论》（IR 教材）— 偏学术侧，可选读

LLM 基础认知（论文/文档）

&quot;Attention Is All You Need&quot;（Transformer 原论文）
RAG（检索增强生成）相关综述
本站方法论文章：《GEO 是什么：生成式引擎优化与传统 SEO 的本质差异》
本站方法论文章：《ChatGPT、Perplexity、豆包、文心的引用机制对比》

第二阶段：进工具
为什么要做这一步：
只靠读文档没法做 SEO/GEO。这行的核心工作是&quot;从海量数据中找规律&quot;——关键词数据、排名数据、流量数据、AI 引用数据。没有代码能力你只能用别人做好的工具，而别人的工具永远落后于行业前沿。这个阶段的目标是让你能自己写脚本、调 API、抓数据、做分析，哪怕写得不优雅也没关系。
做完这一步的标志：遇到任何&quot;我想知道 X&quot;的问题，你能在半天内写出一个脚本把答案跑出来，而不是去找现成工具。
建议阅读材料：
Python 入门（推荐路径）

廖雪峰的 Python 教程（中文，基础扎实）
《Python 数据分析实战》— 偏数据向
只学你要用的，不要系统学完再动手

数据分析基础

Pandas 官方文档
Matplotlib / Seaborn 基础
统计学最小闭环：均值、中位数、方差、相关系数、显著性检验

API 调用

OpenAI API 文档
Perplexity API 文档
百度站长 API（推送、索引查询）
Google Search Console API
豆包、文心、DeepSeek 各自的开放平台

网页抓取

requests / httpx
BeautifulSoup / lxml
Playwright（处理 JS 渲染）

本站提供的实战脚本

《Python 批量检测网页在 ChatGPT 中的被引用情况》
《GEO 监控仪表盘：开源版说明书》

第三阶段：上深水区
为什么要做这一步：
前两个阶段做完，你已经比大部分从业者强了——但离&quot;能做出别人做不出的结果&quot;还差一段距离。搜索引擎和 LLM 的核心规则从未公开，所有顶级从业者都是通过反向推理从大量数据中推断规则。这个阶段的目标是让你具备做这种推理的能力：你能从一组奇怪的排名现象中推断出某个隐藏规则，从一次 AI 回答中反推它的引用偏好。
做完这一步的标志：你开始发现一些&quot;行业里没人讨论过&quot;的规律，并且能用数据证明它们。
建议阅读材料：
搜索引擎核心专利

百度专利检索（国家知识产权局）：早期申请人为李彦宏、姚旭等的基础架构专利 + 近三年的语义检索、深度学习相关专利
Google 公开专利：PageRank、Hummingbird、BERT、MUM 相关

机器学习基础

《统计学习方法》（李航）— 中文，偏理论
吴恩达 Coursera 机器学习课 — 英文，偏实操
深度学习入门：《深度学习入门：基于 Python 的理论与实现》

LLM 内部机制

RAG 综述论文
LLM 幻觉与引用归因相关研究
Anthropic 的可解释性研究（Circuits 系列文章）

溯因推理与因果推断

《穆勒五法》相关介绍（逻辑学基础）
《The Book of Why》（Judea Pearl，因果推断入门）
机器学习天生缺陷：特征穿越、因果倒置、过拟合

一些关于学习的话
不要追求&quot;学完&quot;。
这个领域没有&quot;学完&quot;的那一天。任何试图把 SEO/GEO 学习做成&quot;有限任务清单&quot;的人，都会在半年后发现清单过期了。
不要收藏，要做东西。
收藏文章是最没用的行为。看完任何一篇文章，要立刻做一件能验证它的事情——哪怕是用自己的一个小站做测试。收藏 100 篇不如做一个。
不要迷信任何&quot;大神&quot;。
包括我在内。所有人都有知识盲区，所有人都会犯错。对所有信息都应当自己去验证。
注意信息时效。
搜索引擎和 LLM 每年都在变。2020 年的结论在 2025 年可能已经完全反过来。任何建议都应当标注时间，读任何文章都应当看发布日期。

---

## 服务

- 类型：Page
- URL：http://www.6nn6c.com/service/
- 日期：2026-04-21

先说清楚一件事：我是个人
我不是公司，也没有团队。这一页介绍的所有服务都是我一个人做。
这意味着：

我同时能接的项目非常有限（通常不超过 3 个在跑）
我不提供 7x24 客服、不提供合同外的&quot;顺便帮个忙&quot;、不接急单
但我亲自完成每一个交付，不存在&quot;销售一套话术、交付另一拨人糊弄你&quot;
报价相对透明、沟通路径短、决策快

如果这种模式适合你，往下看。如果你需要的是大规模团队、全包运营、或者要求 48 小时响应的标准化服务商，建议绕道。

两类服务
外贸建站服务 →
基于 WordPress 建外贸独立站，四档可选：

模板快速建站 —— 基于成熟模板修改交付，适合预算有限、时间紧的客户
定制建站 —— 根据你的需求从 0 设计页面结构与视觉
B2C 电商独立站 —— 基于 WooCommerce 的跨境电商站
多语言 / 小语种站 —— 基于 WPML 或 GTranslate 实现的多语言站

技术咨询服务 →
解决 WordPress、SEO、GEO 的具体技术问题，四档计费：

单次咨询 —— 一次解决一个具体问题
小时包 —— 专项改造或批量小问题的灵活计时
月度顾问 —— 长期陪跑，按月付费
分成合作 —— 仅面向有体量的站点

与 SEO/GEO 合作的区别
本站的主业是 SEO/GEO 研究，所以除了以上两类&quot;偏技术与执行&quot;的服务之外，还有两种更偏策略与流量的合作模式——按月的 SEO/GEO 长期顾问、以及按增量流量的分成合作。这两种合作的对象是已经有团队在运营的公司。详见合作页 »

所有服务共同的&quot;不做清单&quot;

不做急单（任何以&quot;给我加钱&quot;为理由压缩工期的项目都不接）
不做成人、博彩、高风险医疗/金融、灰色行业
不做黑帽 SEO、站群、快排、买外链、刷点击
不做内容代写、视觉设计、广告投放（这几项术业有专攻，你需要找更专业的人）
不做&quot;我付钱，你告诉我你会保证排名到第一&quot;这类过度承诺的合同

联系方式
邮箱与微信等见联系 页。联系前请简单说明你要做的事情是什么、大概的时间节奏、是否有预算范围——否则很可能无法及时回复。

---

## 关于

- 类型：Page
- URL：http://www.6nn6c.com/about/
- 日期：2026-04-21

我是谁
过去若干年在外贸独立站、跨境电商、SaaS 工具站三个方向上做 SEO。2024 年开始把重心转向 GEO 领域。
我怎么工作
只做几件事。 不同时接超过 3 个长期项目，否则每个都做不好。
先做诊断再做报价。 不了解站点情况就报价是不负责的，所以所有合作都从一次免费的简短交流开始。
拒绝黑帽、快排、站群。 不是道德洁癖，是因为这些手段在 2024 年之后的搜索引擎和 LLM 面前越来越无效，且有反噬风险。
我的研究路径

搜索引擎原理（《走进搜索引擎》《这就是搜索引擎》）
百度与 Google 官方文档（每年重读一次）
百度、Google 的核心专利
机器学习基础（用于理解 LLM 的引用机制）
Python（数据抓取、监控、分析）

本站的作用
这个网站首先是我自己的实验田。任何我想测试的新想法——GEO 规范、可引用段标记、llms.txt、AI 爬虫引导策略——都先在自己站上跑一遍，跑通了再用到客户项目中。
所以这个站的排名表现、被 AI 引用的次数，都是透明的、可查的。这是我认为最诚实的&quot;案例证明&quot;。
联系
见合作 或 联系 页。

---

## 合作

- 类型：Page
- URL：http://www.6nn6c.com/coop/
- 日期：2026-04-21

我是个人独立从业者，不是公司。这一页介绍的是 SEO 与 GEO 方向的两种长期合作模式。如果你需要的是外贸建站或 WordPress 技术咨询，请直接去 /service/。
1. SEO/GEO 长期顾问
面向有自己团队（产品、运营、内容、开发）的公司。按月计费。

交付形式：每月一次完整诊断报告 + 两次视频会议 + 全程 IM 响应
我主要解决的问题：流量策略方向、SEO/GEO 技术架构、算法理解、数据分析
我不做的事：内容代写、外链代建、日常执行工作——这些需要你的团队来做
适合场景：你的团队能自己动手，缺的是方向和深度

2. 流量分成合作
仅面向有一定体量的网站（日 UV 万级以上）。按增量流量分成。

交付形式：全程介入流量策略、技术改造、内容方向
分成比例：20%–50%，视站点基础与投入深度而定
适合场景：站点基础较好，希望通过专业介入实现突破
不适合场景：新站、低流量站（没有基线，分成无从计算）

合作前请准备好

站点域名与核心数据（日/月 UV、主要流量来源、转化路径）
你认为最核心的 3 个待解决问题
过去 6 个月是否有其他人做过 SEO/GEO 工作

不做的事

黑帽 SEO、站群、快排、刷点击、买外链
成人、博彩、医疗、金融类高风险行业
内容代写、外链代建等纯执行类工作
过度承诺的保排名/保流量合同

联系
邮箱与其他方式见联系 页。

---

## 联系

- 类型：Page
- URL：http://www.6nn6c.com/contact/
- 日期：2026-04-21

联系前请简要说明：

你的站点是什么（域名、行业、主要语言）
希望解决的问题
期望的合作模式（顾问 / 单次咨询 / 分成）

因为日常咨询较多，无背景信息的来信可能无法及时回复，请理解。

---

## 外贸建站服务

- 类型：Page
- URL：http://www.6nn6c.com/service/website/
- 日期：2026-04-21

我不是公司，是个人
在下单之前请确认这点：我以个人独立从业者的身份接建站项目，没有销售、没有项目经理、没有多人设计团队。从沟通、报价、设计、开发、上线、到 6 个月售后，全部是我一个人。
这种模式的好处：沟通路径短、决策快、每一个细节我都亲自把关、不会出现&quot;销售吹得很高、交付差得很远&quot;的常见问题。
代价：我同时在跑的项目数量有限、不接急单、不做视觉设计外包、不做长期运营。如果你需要的是&quot;全包式&quot;服务商，建议找公司。
如果你接受这种模式，继续往下看。

我能做的四种建站类型
1. 模板快速建站（B2B 询盘站）
基于成熟外贸建站模板修改交付。适合：

预算有限、时间紧的外贸公司
产品线比较标准、不需要高度个性化视觉的场景
第一次做独立站，想先用一个能跑起来的站点做市场测试

2. 定制建站（B2B 询盘站）
根据你的需求从 0 设计页面结构和视觉风格。适合：

对品牌形象有要求、希望区别于同行模板站的公司
产品/服务复杂，需要专门设计信息架构的场景
需要多个特殊页面模板（行业应用、解决方案、项目展示、下载中心等）

3. B2C 跨境电商独立站
基于 WooCommerce 搭建的电商独立站。适合：

直接面向消费者销售的外贸卖家
已经在平台（亚马逊、独立 Shopify 等）运营，想要一个自己的品牌站
需要自建品牌、积累复购用户的公司

4. 多语言 / 小语种站
基于 WPML 或 GTranslate 实现的多语言站。适合：

同时做多个市场的公司（英/日/西/法/德/俄/阿/葡等）
希望在每个语种上都有独立 URL 和 SEO 结构的场景
不是简单的浏览器翻译，而是真正的独立语言版本

9 步服务流程
01 · 需求沟通
我会通过微信/视频和你沟通建站目标——产品是什么、目标市场是哪些国家、期望站点达到什么效果、有哪些对标站点、是否已有物料。这一步通常需要 1–2 次交流。
02 · 服务报价
根据沟通内容，我会整理一份完整的报价清单，列明：

要实现的所有功能与页面类型
使用的主题、插件（都是正版，费用包含在报价内）
工期预估
最终价格

03 · 合同签约
双方对报价清单没有异议后，签订书面合同，约定各自的义务、时间节点、验收标准、付款方式。合同明确保护双方权益。
04 · 环境准备
主机和域名属于数字资产，强烈建议由你自己购买并持有（我可以提供详细的购买指南，也可以代为购买，最终所有权归你）。我会推荐对外贸站表现最好的主机方案。
05 · 网站搭建
我根据合同约定的需求进行搭建。期间双方密切配合：

你提供产品文字、图片、视频等原始素材
我负责素材的基础优化（图片压缩、尺寸裁剪）、上传、排版
我不提供专业视觉设计和美工服务——如果需要原创视觉设计，请单独聘请设计师

06 · 验收确认
搭建完成后进入验收阶段。你按合同约定的验收清单逐项检查，提出修改意见，我完成修改直到验收通过。
07 · 上线交付
验收通过后进行上线准备：

全站 URL 检查
所有页面 H 标签与 TDK 检查
向搜索引擎开放收录
Google Analytics / Search Console 代码安装
Sitemap 生成与提交
网站加速优化与 CDN 配置
SSL 证书配置

08 · 交付结算
网站上线后支付尾款，我开具发票（普通增值税电子票）。所有主机、域名、后台账号密码完整交接给你。
09 · 售后服务
交付后提供6 个月的售后支持，包含：

网站 BUG 修复
主题插件的更新维护
使用问题在线答疑

6 个月之后若需要持续维护，可以单独购买月度托管服务。

四档套餐对比

能力项
模板快速建站
定制建站
B2C 电商站
多语言站

页面结构
基于模板修改
完全定制
完全定制 + 电商
基于任一种 + 多语言层

产品/文章物料上传
基础数量
基础数量
含更多 SKU
按主语种基础数量

响应式设计
✓
✓
✓
✓

主题插件正版授权
✓（费用包含）
✓（费用包含）
✓（费用包含）
✓（费用包含）

页面 H 标签优化
✓
✓
✓
✓

加速优化 + CDN
✓
✓
✓
✓

安全防护
✓
✓
✓
✓

SEO 基础设置
✓
✓
✓
✓（含 hreflang）

Google 跟踪代码
✓
✓
✓
✓

多语言/翻译
GTranslate 免费
GTranslate 免费
GTranslate 免费
WPML 或 GTranslate 付费

WooCommerce 电商
—
—
✓
按需

售后支持
3 个月
6 个月
6 个月
6 个月

预估工期
3–4 周
6–8 周
6–10 周
视主站类型 +2 周

价格
联系我报价
联系我报价
联系我报价
联系我报价

所有套餐都包含的基础 SEO 设置

URL 结构规范化
所有页面 H 标签正确使用
所有页面 TDK（Title / Description / Keywords）设置
Sitemap.xml 自动生成
Robots.txt 正确配置
Schema.org 结构化数据
Open Graph 分享卡片
Canonical URL 正确
向 Google Search Console 提交
404 页面设计

注意： 我只做建站阶段的 SEO 基础设置——相当于把舞台搭好。后续的内容生产、关键词布局、外链建设、持续优化，需要你自己的团队或另外找 SEO 服务商来做。如果你需要这部分长期服务，请看 SEO/GEO 顾问合作 »

关于交付时间的说明
以下是理想状态下的工期（你的物料齐全、沟通顺畅、验收及时）：

模板快速建站：3–4 周
定制建站：6–8 周
B2C 电商建站：6–10 周（取决于 SKU 数量）
多语言站：在对应主站类型基础上 +2 周

实际交付时间通常会超过理想工期，主要取决于：

你的物料准备速度（这是最大变量）
沟通与决策效率
验收反馈的轮次

三点郑重说明：

不接急单。 任何&quot;加钱提前&quot;的要求我都不会接受——因为赶工会直接降低质量，我不愿意在自己名下交付打折的作品。
B2C 电商因 SKU 数量不定，可以先上线核心页面，后续补充产品数据。
请保留充足的时间计划。 急着上线的项目，建议找团队而不是个人。

常见问题
Q: 使用的主题和插件都是正版吗？会不会有后续授权问题？
A: 全部是官方正版授权。授权费已包含在建站服务费内，你不需要另外购买。像 Elementor 这种按年续费的插件，只要网站在运行就可以持续使用——我会每年续费的副本给到你授权范围内的更新。
Q: 为什么不提供主机和域名？
A: 主机和域名属于你的数字资产，应该掌握在你自己手里。我强烈建议你用自己的信息注册，而不是由我代持。如果你不方便操作，我也提供代为采购的服务，但所有权、账号密码都完整给到你。
Q: 建站费用是一次性的吗？后期要再付吗？
A: 建站技术服务费是一次性的。后续你需要自己续费的是：域名（每年）、主机（按月或按年）。如果你选择我的月度维护托管服务，那是另算的。
Q: 一般多久能上线？
A: 模板站 3–4 周，定制站 6–8 周。具体要看双方配合——如果你的物料延迟，工期自动顺延。
Q: 你们做 SEO 服务吗？
A: 我会做建站阶段的 SEO 基础设置（H 标签、TDK、Sitemap、结构化数据、加速、Search Console 提交等）。但持续的内容运营和排名提升需要长期投入，那是另一个服务范畴，请看 SEO/GEO 顾问合作 »。
Q: 做 Google 广告投放吗？
A: 不做。这是我的能力边界之外——Google 广告投放是一个独立的专业领域，我建议你找专门的广告代运营服务商。
Q: 如果合作后发现效果不好，可以退款吗？
A: 建站是按阶段交付的：合同签约时付首款（通常 50%），上线验收时付尾款。如果中途你对已交付的部分不满意，可以按合同约定终止项目并结算已完成工作部分。但已完成的部分不退款——这是行业惯例，也是对双方时间投入的公平保护。
Q: 我在国外，能合作吗？
A: 可以。沟通走邮件 + Zoom / Google Meet，付款走 PayPal 或国际银行电汇。工期和流程不变。

联系我获取报价
请通过联系页 的方式联系我。第一次沟通请简单说明：

你是什么行业、主营产品
目标市场是哪些国家
是否有对标站点（URL）
期望工期和大致预算范围
是否已经有主机、域名、logo、产品图等物料

信息越具体，报价和回复就越快。

---

## 技术咨询服务

- 类型：Page
- URL：http://www.6nn6c.com/service/consulting/
- 日期：2026-04-21

这个服务解决什么问题
WordPress、SEO、GEO 这三个领域的技术问题，经常出现&quot;不大、但很卡&quot;的情况：

一个插件冲突让你的询盘表单不再发邮件
一次主题更新让整个网站突然变慢 3 秒
一个 Google Search Console 的警告你看不懂意思
某个 ChatGPT / Perplexity 不引用你的页面，你想知道为什么
想做 schema.org 结构化数据，但文档看不明白
想给现有站点加一个特殊功能，但不知道用什么方案

这些问题有个共同点：不值得开一个完整的建站项目，但自己搜了半天也搞不定，请团队又过于昂贵。
这种时候，一次精准的技术咨询往往比任何教程都高效。

四档计费方式
1. 单次咨询（适合具体问题）
针对一个明确的、范围清晰的问题。

交付形式：一次 45–60 分钟的视频/语音交流，必要时附简短书面建议
适合场景：你有一个卡点、一个疑问、一个二选一的决策，需要专业判断
不适合场景：没有明确问题、希望&quot;顺便问问各种事&quot;的开放式咨询

2. 小时包（适合批量小问题或小改造）
按小时计费，购买小时包使用。

交付形式：按实际工时扣减，通话、书面分析、代码改造、后台操作都算
适合场景：有多个小问题需要陆续处理；或者有一个小的技术改造要做（比如加一个功能、修复一个 BUG、优化一个页面速度）
不适合场景：需要 24 小时响应、或者是大型改造项目

3. 月度顾问（适合长期陪跑）
按月计费。期间你可以随时提问、请求分析、请求小改动。

交付形式：每月若干次会议 + 全程 IM 响应（工作日内 24 小时内回复）+ 每月简报
适合场景：新上线站点的前 3–6 个月陪跑；或者团队内缺少技术人，需要一个外部 CTO 角色
不适合场景：需要全职驻场、需要海量执行工作的情况

4. 分成合作（仅限有体量的站点）
按增量流量分成，不收固定月费。

交付形式：和月度顾问相近，但付费方式从固定月费改为增量分成
分成比例：20%–50%，视站点基础与介入深度
适合场景：日 UV 万级以上、希望通过专业介入实现突破的站点
不适合场景：新站、低流量站（没有基线，分成无从计算）

价格说明： 四档的具体价格都不在这里公开，请联系我 获取根据你具体情况的报价。

我能咨询的范围
WordPress 技术

主题选型、插件选型、性能优化
数据库、备份、迁移、安全加固
主机选择与配置（Cloudways / SiteGround / Kinsta 等）
WooCommerce 疑难杂症
自定义字段、自定义文章类型、自定义分类法
代码级别的小改动（child theme、functions.php、简单 hook）

SEO 技术

站点技术 SEO 审计（robots / sitemap / canonical / hreflang 等）
Core Web Vitals 优化
Schema.org 结构化数据
国际化 SEO（多语言、多地区）
收录与索引问题诊断
百度站长平台、Google Search Console 的深度使用

GEO 技术

llms.txt 规范与实施
可引用段（Citable Block）的内容结构化
AI 爬虫（GPTBot / ClaudeBot / PerplexityBot 等）的 robots 策略
针对 LLM 的内容抽取优化
AI 引用监控的实施

我不咨询的范围
诚实说清楚边界比含糊接下更重要：

不咨询内容写作本身（我可以告诉你&quot;内容应该怎么结构化&quot;，但不能替你&quot;写什么内容&quot;）
不咨询视觉设计（颜色、排版、图形设计不在我的能力范围）
不咨询 Google Ads / Meta 广告投放（这是另一个专业领域）
不咨询社媒运营策略
不咨询非 WordPress 生态的问题（Shopify、Shopline、Ueeshop、上线了等平台我不熟）
不咨询客户之间的商业决策（比如&quot;我该不该开这家公司&quot;）
不做单纯的教程讲解（我预设你已经掌握 WordPress 基础，否则请先看本站学习路径 »）

咨询前请准备好
为了让咨询高效，请在第一次联系时就准备好以下信息：

站点 URL（如果已有）
问题的具体描述（什么情况下出现、出现多久了、你已经尝试过什么）
截图或日志（如果适用）
网站后台临时访问权限（如需要我直接操作，需提供）
你希望通过这次咨询得到什么（答案、方案、直接帮你修好）

准备得越清楚，咨询效率越高，也越省钱。

常见问题
Q: 单次咨询和小时包有什么区别？
A: 单次咨询是&quot;一个问题一次搞定&quot;，价格固定、时间固定。小时包更灵活，适合多个小问题或小改造，按实际工时计费。
Q: 月度顾问能保证什么？
A: 保证我每个工作日 24 小时内回复你的消息；保证每月至少有约定次数的深度沟通；保证每月一份简报。不保证你的具体业务指标（流量、订单、转化）——这些取决于太多因素。
Q: 咨询前可以免费聊一下吗？
A: 可以。第一次 15 分钟内的摸底交流我不收费，用来判断我能否帮你。如果确定合作就开始计时计费。
Q: 咨询内容可以录音/录屏吗？
A: 可以。你自己录制即可，我不介意。只要不未经同意公开分享。
Q: 远程咨询怎么操作？
A: 中文客户通常走微信视频或腾讯会议；海外客户走 Zoom 或 Google Meet；纯文字问答走邮件或微信。
Q: 如果咨询后发现解决不了我的问题，怎么办？
A: 如果是在我咨询范围内、但我判断失误或方案不奏效，我会不收费（或退款）。如果是在我范围之外——我会在第一次沟通时就诚实告诉你&quot;这件事我做不了&quot;，不会赚没把握的钱。

联系我
请通过联系页 的方式联系我。第一次沟通请说明：

你的问题大致是什么（不需要详细，够我判断是否在我能力范围内即可）
你希望用哪一档方式合作（单次 / 小时包 / 月度 / 分成）
期望的沟通方式（视频 / 语音 / 文字）


# 方法论


---

## 搜索流量与 AI 引用流量的归因对比实验

- 类型：方法论
- URL：http://www.6nn6c.com/traffic-attribution-experiment/
- 日期：2025-03-01
- 摘要：一次 3 个月对照实验显示：AI 引用流量的"品牌认知收益"比同等 SEO 流量高，但短期转化显著低于 SEO。归因链条不同导致 KPI 体系必须分开设计。

本文讨论的是 §1.3 框架 中的第 5 / 6 阶段：返回展示与 GEO 引用的归因差异。
目标读者： 做外贸独立站（B2C 或 B2B SaaS）、内容已经开始在 Google 和 ChatGPT / Perplexity 两条通道同时产生流量的团队。如果你还在纠结&quot;为什么 Google Analytics 上看不到 ChatGPT 带来的转化&quot;——本文讨论的就是这个问题。
实验背景
做外贸独立站的团队普遍在 2024 下半年到 2025 上半年遇到同一个困惑：ChatGPT / Perplexity 明显在引用我们的内容，但 GA4 上几乎没有对应流量——这些&quot;引用&quot;到底值不值得做？
我在一个外贸 SaaS 工具站（月 UV 约 8 万，主要市场美国 + 英国 + 澳大利亚，付费订阅模式）做了一次 3 个月的对照实验，回答这个问题：同一篇优质内容，靠 Google organic 获取 1 万次阅读、和靠 AI 引用&quot;被看见&quot; 1 万次，归因路径和转化结果相同吗？
实验设计

站点：外贸 SaaS 工具站，WordPress + WooCommerce Subscriptions，英文为主站，带 /de/、/fr/ 多语言
文章：一篇 2500 词的 &quot;how to solve X problem&quot; 类 pillar article
时间：2024 年 9 月–12 月（覆盖 Google 的 11 月 Core Update）
两条归因通道：

SEO 通道：Google Search Console + GA4 的 organic 渠道 + Ahrefs 的 keyword ranking
GEO 通道：ChatGPT、Perplexity、Claude、Google AI Overview 中对该话题的引用次数（通过每日 API prompt 采样 50 个相关 query）+ GA4 的 referral source（chat.openai.com、perplexity.ai、chatgpt.com、claude.ai、gemini.google.com）

追踪埋点：

UTM utm_source=chatgpt.com 等 referral 自动识别
每篇文章嵌入一个 &quot;How did you find us?&quot; 的注册漏斗问题
客服后台标记 &quot;LLM-referred&quot; 工单

3 个月的数据

指标
SEO 通道
GEO 通道

总&quot;到达次数&quot;
11,200 次 UV
~9,400 次被引用（采样估算）

实际到站 UV
11,200
840（被引用后点击进站）

平均停留时长
2:10
3:45

注册转化率
1.8%
0.7%（按实际到站 UV 算）

注册后 30 日 LTV
$180 / 用户
$340 / 用户

品牌搜索变化
基线
+42%（3 个月后&quot;品牌名 + 功能词&quot;直接搜索）

五个具体观察
1. AI 引用的到站点击率极低，这是结构性的不是你的问题。
被 Perplexity 或 ChatGPT 引用约 9,400 次，但实际点击到站的约 840 次——CTR 仅 8.9%，比 Google SERP 的 CTR（首位约 27%、第三位约 11%）低一个数量级。原因：LLM 已经在答案里给了完整答复，用户不需要再点击。别用 SEO 的 CTR 预期看 GEO。
2. 到站后的用户质量显著更高。
GEO 通道带来的用户平均停留 3:45，是 SEO 用户的 1.7 倍；注册后 30 日 LTV 是 SEO 用户的 1.9 倍。解释：能从 LLM 答案里&quot;主动点击引用链接回站&quot;的用户，本身就完成了一层强筛选——他们在评估答案可信度、想看原始出处。外贸 SaaS 里这类用户的付费意愿本来就高。
3. 品牌认知无法用点击衡量，但它是真实的。
有 8,000+ 次用户只在 LLM 答案里看到了我们、没有点击。但后续 3 个月，&quot;品牌名 + 功能词&quot;的直接搜索量上升 42%、&quot;品牌名&quot;的直接访问上升 28%——这是 GEO 的真正价值，但 GA4 的 last-click 归因会把它错算给 &quot;Direct&quot; 或&quot;Organic Branded Search&quot;。
4. 转化路径变长，last-click 归因严重失真。
传统 SEO 路径：Google 搜索 → 点击 → 试用 → 注册（通常 1–3 天内完成）。
GEO 路径：ChatGPT 看到引用 → 记住 → 1–2 周后搜索品牌名 → 点击首页 → 注册。中间多了一步&quot;时间间隔 + 品牌搜索&quot;。GA4 的默认 last-click 会把这种转化归因给 &quot;Organic Search - Branded&quot;，完全掩盖 GEO 贡献。
5. Core Update 的抗波动性 GEO &gt; SEO。
11 月 Google Core Update 期间，SEO 通道的 UV 掉了 18%；GEO 通道引用次数仅掉了 4%——LLM 的&quot;稳定候选集&quot;衰减速度显著慢于 Google 排名。
外贸独立站的归因埋点落地
外贸团队想在自己站上复现类似测量，下面是最小可行配置。按这个顺序做，第一周就能拿到可解读的数据：
第 1 步：GA4 自定义 channel group。
默认 channel group 不识别 AI referrer，会把 ChatGPT 带来的流量错误归到 &quot;Referral&quot; 里看不出细节。在 GA4 后台 Admin &gt; Data Settings &gt; Channel Groups 里新建一条 &quot;AI Referral&quot; 规则，匹配 chat.openai.com / chatgpt.com / perplexity.ai / claude.ai / gemini.google.com / copilot.microsoft.com / phind.com / you.com 的 source 全部归入。这样在 Reports &gt; Acquisition 里就能单独看这条通道的 UV 和转化曲线。
第 2 步：GSC 的 AI Overview 维度。
Google Search Console 在 2025 年 Q1 开始灰度推出 &quot;Search appearance &gt; AI Overview&quot; 筛选——登录后如果看到这个选项就用它看 Google AI Overview 带来的 impression 与 click。这是目前唯一能直接拿到 Google AI 引用量的官方数据源。
第 3 步：埋一个漏斗问题。
注册流程或首次购买流程里加一个非必填单选 &quot;How did you find us?&quot;，选项包含 &quot;ChatGPT / Perplexity / AI assistant / Google / 推荐 / 其它&quot;。成本是增加一个字段、半天开发，但能拿到 GA4 归因之外的&quot;自报告&quot;数据，用于交叉验证 referral 真实性。
第 4 步：Shopify / WooCommerce 订单 referrer 标记。
在订单 meta 里写入首次 session 的 referrer + UTM，这样可以按 LTV 维度（订单金额、复购率）复盘哪条通道的用户更值钱。Shopify 用 Shop Analytics、WooCommerce 用 WC_Order::add_meta_data()。
第 5 步：每日采样脚本。
写一个小脚本每日用 50 个目标 prompt 跑 OpenAI / Perplexity / Claude API，记录你的域名是否被引用、出现在答案的第几句、上下文关键词是什么。这是 GEO 通道的&quot;关键词排名监测&quot;（等价于 SEO 里的 rank tracker）。详见 Python ChatGPT 引用检查脚本。
常见问题：

&quot;GA4 里 referrer 是空的怎么办？&quot; ChatGPT 桌面 app 和部分 iOS 客户端不传 referrer。目前没法完美解决，所以漏斗问题（第 3 步）是必要的交叉验证。
&quot;数据量太小无法统计显著怎么办？&quot; 先把单一文章做到单通道 3 个月 500 次以上的引用，再谈对照。外贸站早期样本少，可以把 5–10 篇 pillar article 合并分析。

三条推论
推论 1：外贸站不能用同一套 KPI 衡量 SEO 和 GEO。
&quot;UV × 转化率&quot;在 GEO 上丢失了&quot;被引用但未点击&quot;的部分。GEO 的第一指标应该是引用次数（citation count）+ 品牌搜索 lift，而不是到站 UV。
推论 2：GEO 的 ROI 曲线滞后但更稳定。
外贸站常做 Google Ads 补量应对 Core Update 波动——GEO 的&quot;抗波动&quot;特性让它可以在一定程度上替代 Ads 作为自然流量的稳定器。
推论 3：双通道内容策略比单通道更稳健。
对同一篇内容同时做 SEO + GEO 优化的成本增量不大——Schema、llms.txt、可引用段落与基础 SEO 重合度高（见 M7 可引用段落方法论）——但风险分散显著。
实验的局限

样本只有一个站、一篇文章、一个行业，不能直接泛化到消费品类外贸 B2C；
&quot;被引用但未点击&quot; 的估算依赖 prompt 采样，实际数字可能有 20%–40% 误差；
品牌搜索 +42% 无法完全归因到 GEO——也可能是同期 LinkedIn 内容 + 通稿的叠加效应；
Google AI Overview 的 Search appearance 数据在实验时还未 GA，2026 年的复现版本会更准。

这只是一个起点。 需要在更多站、更多时间窗、更多行业里复现。欢迎同行用自己的数据验证或反驳——把 CSV 发到社交账号一起看。
配套阅读

《LLM 引用机制：ChatGPT / Perplexity / Google AI Overview 的可引用条件》 — GEO 通道上游：怎么让内容被引用
《可引用段落写法：让 LLM 能&quot;原文引用&quot;的段落结构》 — 同一篇内容同时优化 SEO + GEO 的写法
《Python ChatGPT 引用检查脚本》 — 本实验用的采样脚本简化版

---

## 百度专利阅读路线图：从基础架构到语义检索

- 类型：方法论
- URL：http://www.6nn6c.com/baidu-patents-roadmap/
- 日期：2025-02-20
- 摘要：百度的排序算法未公开，但其专利公开内容覆盖基础架构、文本匹配、语义检索、用户行为建模、反作弊五大方向。按时间线系统阅读可推断出算法演进逻辑。

本文讨论的是 §1.3 框架 中的第 2 / 3 阶段：召回与前置排序。
为什么外贸团队也应该读百度专利？ 看起来奇怪——做海外独立站的人为什么要花时间研究国内引擎的专利库？答案：这是唯一公开的、完整的&quot;大型商用搜索引擎演进史&quot;一手资料。 Google 的算法长期黑盒，2024 年 Navboost 专利泄露事件之外几乎没系统性外部窗口；而百度作为 A 股 + 港股上市公司，国家知识产权局里的公开专利从 2001 年延续至今、累计数千件、完整覆盖召回/排序/反作弊/语义检索的演进。
读懂百度专利的真正价值不是去做百度 SEO，而是学会逆向黑盒搜索引擎的方法论——这个能力迁移到研究 Google / ChatGPT / Perplexity 的机制时同样有用。本文给一条 6–12 个月可读完的路线图。
检索路径

国家知识产权局专利检索：http://pss-system.cponline.cnipa.gov.cn/
申请人关键词：百度 / 百度在线网络技术 / 百度网讯科技 / 北京百度
时间排序：最早可至 2001 年
英文辅助工具：Google Patents（assignee:baidu）可以快速获取英文翻译版——推荐外贸团队用这条，省去中文专利读法规术语的时间。

路线图：5 个方向 × 4 个时间段
方向 1：基础架构（2001–2012）
早期申请人以李彦宏、姚旭、金磊、许超为主。
重点专利方向：

超链分析（Link-based Ranking）
布尔检索与倒排索引
中文分词（HMM / CRF 等）
反向文档频率（IDF）的工程化

从业者的启示： 百度的链接算法在 2010 年前后已相当成熟。2019 年的&quot;下调外链权重&quot;更多是对主体依赖程度的调整，不是完全移除链接信号。对外贸团队的迁移价值： Google 的 PageRank + Link Spam Update 也走过类似路径——链接信号从&quot;核心&quot;降到&quot;多因子之一&quot;，但从未被消除。这条演进曲线在两个引擎上几乎同步。
方向 2：文本匹配与相关性（2010–2016）
重点： BM25、向量空间模型、同义词扩展、主题模型（LDA）。
启示： 站内内容的语义一致性（主题聚类）在 2012 年前后就是核心排序信号——很多 SEO 教程里&quot;做主题簇&quot;的逻辑根源在此。对外贸团队的迁移价值： 理解 topic cluster / pillar page 概念的机制来源，而不是把它当成&quot;Ahrefs 教程里说要这么做&quot;。机制理解让你在 Google 算法更新时判断方向——例如 2024 年 Helpful Content System 强化的就是这条路径的语义一致性维度。
方向 3：语义检索（2018–至今）
重点： ERNIE（Enhanced Representation through kNowledge IntEgration）、知识图谱、实体识别、语义向量召回。
启示：

百度的语义向量在 2019 年左右开始大规模上线；
长尾词的排名很大程度依赖语义向量相似度，不再是关键词精确匹配；
E-E-A-T 的中国版本：实体 + 机构 + 知识图谱节点。

对外贸团队的迁移价值： Google 的 BERT (2019) + MUM (2021) + Gemini 深度集成 (2024) 做的是几乎完全相同的事情——大规模语义向量替代关键词精确匹配。读百度 ERNIE 系列专利能快速建立&quot;为什么 Google 2019 年后对关键词密度几乎免疫&quot;的机制直觉。
方向 4：用户行为建模（2015–2020）
重点： 点击模型、满意度估计、Dwell Time、查询重构。
启示： 百度对用户行为信号的权重上升明确发生在 2016 年前后。但实际权重仍低于 Google。对外贸团队的迁移价值： 2024 年 Google Navboost 专利泄露揭示的&quot;Google 用 Chrome 点击数据训练排序&quot;——百度专利库里 2015–2018 年有几乎完全平行的研究轨迹。读懂这一组专利，能帮你理解为什么刷点击在 2024 年后的 Google 上是致命错误（见 M2 第 7 节）。
方向 5：反作弊（2005–至今）
重点： 作弊检测的各种变种——链接农场识别、内容复制识别、虚假用户行为识别。
启示： 站群、快排、伪造点击的失效不是一夜之间发生的，是十几年算法迭代的累积效果。对外贸团队的迁移价值： Google 的 SpamBrain（2022+）做的是同一件事。外贸 SEO 圈里偶尔仍有&quot;黑帽短期套利&quot;的说法——读一遍反作弊专利的演进曲线，就知道这些套利窗口在大型引擎上只会越来越窄。
阅读方法
读几千份专利是不现实的。真实做法：

不要试图读懂所有专利。 大部分是工程实现细节，对从业者无用。
只读摘要 + 权利要求书的第 1 项。 这两块是&quot;这个专利想保护什么创新&quot;的核心，占信息量 80%。
沿时间线读同一方向。 早期专利简单、近期专利复杂——能看出&quot;从倒排索引到语义向量&quot;这种范式迁移。
按&quot;团队&quot;读。 同一 PI（主要发明人）带的团队往往研究方向相近，能看出长期布局。
周节奏：每周 3–5 份，每份 30 分钟。 6–12 个月读完主流文献。
做笔记： 每份专利记录三项——「解决什么问题 / 用什么方法 / 对 SEO/GEO 的可观察推论」。

与 Google 专利的对照阅读
Google 的核心专利（PageRank、Hummingbird、BERT、MUM、Navboost 泄露文档）也公开。外贸团队最高 ROI 的路径：

第 1 个月：读 Brin &amp; Page 1998 年的 PageRank 原论文 + 百度 2005–2010 年的超链分析专利（方向 1）；建立&quot;搜索引擎公司在干什么&quot;的整体感。
第 2–3 个月：读百度 ERNIE 系列摘要 + Google 的 BERT 原论文；建立&quot;为什么关键词密度这个指标已经死了&quot;的判断力。
第 4–6 个月：读 Navboost 泄露文档 + 百度 2015–2020 年用户行为建模专利；建立&quot;用户行为信号如何参与排序&quot;的理解。
第 7–12 个月：反作弊专利交叉读——这部分对外贸团队最重要，因为它直接决定哪些套利做法会在 Google 上快速失效。

读完之后你会得到什么

对&quot;为什么某个 SEO 做法有效&quot;有基于机制的直接判断力，不靠二手教程转述；
看到 Google Core Update 公告时能推断出它强化了哪类信号；
能判断外贸 SEO 圈里流传的&quot;新技巧&quot;是真机制还是认知陷阱；
读 ChatGPT / Perplexity 的检索增强（RAG）论文时能迁移这套阅读能力，GEO 机制研究的门槛随之降低。

这一投入的回报周期是 1–2 年——外贸 SEO 从业者里愿意花这个成本的人极少，但拿到的判断力是无法被教程替代的壁垒。
配套阅读

《百度与 Google 排序机制的十个差异点》 — 两个引擎的并列机制对照
《LLM 引用机制》 — 把&quot;读专利&quot;这套方法迁移到 LLM 的 RAG 机制研究
《搜索引擎工作全流程》 — 7 阶段框架是读任何引擎专利的基础图谱

---

## E-E-A-T 在 2025 年的真实含义

- 类型：方法论
- URL：http://www.6nn6c.com/eeat-in-2025/
- 日期：2025-02-15
- 摘要：E-E-A-T 不是单一排名信号，而是一组可信度信号的集合：作者身份、机构归属、外部引用、产品实操经验、透明度。对 YMYL 类内容影响最大，对信息型内容也在 2024 后快速加强。

本文讨论的是 §1.3 框架 中的第 3 阶段：前置排序。场景限定在外贸独立站——中文团队做海外 B2C / B2B、内容在英文站和多语言站上发布、目标是让 Google、ChatGPT、Perplexity 这类系统相信&quot;这个站是可信来源&quot;。
E-E-A-T 是什么
E-E-A-T 来自 Google 的 Search Quality Rater Guidelines，是一组用来评估内容可信度的维度：

Experience — 实操经验（2022 年 12 月新增的第一个 E）
Expertise — 专业度
Authoritativeness — 权威性
Trust — 可信度（Google 明确说它是四项里权重最高的一项）

很多人第一个概念错： E-E-A-T 不是一个排名信号，算法里不存在一个名为 eeat_score 的字段。Google 的 Quality Rater（质量评估员）用 E-E-A-T 给人工样本打分，这些评分用来训练和校准核心排名系统——所以 E-E-A-T 是间接影响排名的代理指标。
这个区别重要在哪？意味着你无法靠&quot;优化某个 Schema 字段&quot;就把 E-E-A-T 拉高。必须通过持续的、可被外部交叉验证的身份建设来改变评估员（和模型）对你的判断。
2025–2026 年的四个维度：外贸场景展开
Experience（实操经验）：做过 vs 只是写过
Google 在 2022 年加上第一个 E 以后，内容里&quot;我真的用过/做过/测过&quot;的证据被单独看重。
外贸站的实操证据可以是：

产品页展示厂内拍摄的照片/视频（不是供应商官图直接拿来用）；
Blog 文章放第一手使用数据——例如做户外装备的，写 &quot;我们在 Utah 的 4 天徒步实测&quot;；
做 SaaS 的，放真实客户截图（脱敏 OK）、整合数据、A/B 测试结果；
YMYL 类目（婴童、食品、医疗器械、金融）尤其强化——没有实操证据几乎拿不到排名。

外贸站常见差距： 产品页全部用供应商素材、博客全是网上搜来的信息拼接——这在 Googlebot 和 LLM 爬虫的去重模型里都拿不到 Experience 信号。
Expertise（专业度）：身份可查

每篇文章有具体作者（不是 &quot;Admin&quot;、&quot;团队&quot;、&quot;编辑部&quot;）；
作者页写明背景：学历、工作经历、行业时长、为什么有资格写这个话题；
外部可交叉验证：LinkedIn profile、GitHub、Google Scholar（学术类）、行业会议演讲视频；
Schema.org 的 Person / sameAs 指向这些外部账号。

外贸站的操作现实： 中国团队没有英文 LinkedIn 档案、创始人从不在海外露面，Google 就没有办法验证你的 Expertise。起码要有一个&quot;英文可见的真实人&quot;作为内容负责人。
Authoritativeness（权威性）：他人提到你
Authoritativeness 是别人对你的判断——你自己写多少都没用，核心是：

海外权威站点引用过你（行业媒体报道、博客 roundup 被收录、学术论文的 cited by）；
在 HARO / Qwoted / Featured 上被记者采访，引用出现在 Forbes / Inc / TechCrunch；
行业资源页把你列为&quot;top X&quot;（不刷、不买、有真实数据支撑的那种）；
Wikidata 条目——不是 Wikipedia，Wikidata 门槛低得多，LLM 直接读取。

Trust（可信度，权重最高）：透明与可追溯
Trust 是四项里 Google 明确权重最高的，也是外贸站最容易失分的——因为中国团队对&quot;美国用户习惯看到的信任信号&quot;常常不敏感。
外贸站必须有的 Trust 信号：

HTTPS + 稳定的 SSL 证书（过期一天都会出现浏览器警告）；
About 页写明注册实体（例如 &quot;Incorporated in Delaware, US&quot; 或 &quot;HQ in Shenzhen, CN / subsidiary in Los Angeles&quot;），不要隐藏中国身份——隐藏被识破比承认更伤 Trust；
Contact 页有可拨打的电话、实体地址（不是只有一个表单）；
退货政策、隐私政策、服务条款齐全且具体（不是模板直接拷贝）；
Trustpilot / Google Reviews / Sitejabber / BBB（美国站）持续累积真实评价——2024 年 Review Spam Update 之后刷评被直接清零；
结构化数据 Organization 节点里 address、telephone、founder、numberOfEmployees 都填实在信息。

外贸独立站信任信号优先级清单
按&quot;ROI 从高到低&quot;的顺序投入——绝大多数站不需要把下面全部做完，做到第 6 项左右就已经甩开 80% 的同行：

HTTPS + About/Contact 信息齐全 + 结构化数据 Organization 节点（必做，0 成本）；
每篇文章具体作者 + 作者页 + Schema Person + LinkedIn 绑定（必做，低成本）；
Trustpilot 开通 + 首批 20–50 个真实评价（必做，邀请现有客户即可）；
LinkedIn Company Page + Crunchbase 词条（低成本，高回报）；
一次 PRNewswire / BusinessWire 通稿，哪怕成本 $300–$800（一次性投入，长期留痕）；
HARO / Qwoted 每周回复——目标是半年内被 1–2 家海外媒体引用（持续投入 2–3 个月见效）；
G2 / Capterra（SaaS 类）、Houzz / Wayfair（家居类）等行业专属信任平台档案；
Wikidata 条目（免费、2–3 小时操作、长期受益）；
被海外行业报告或白皮书引用（偶发、可遇不可求）。

常见伪实践（对外贸站尤其危险）
伪实践 1：在文章末尾加一段&quot;关于作者&quot;。 单点声明远低于持续身份建设，Google 会交叉核对外部账号。
伪实践 2：堆砌&quot;专家团队&quot;、&quot;10 年经验&quot;等空洞表述。 没有可验证外部账号的声明等于 0。
伪实践 3：购买维基百科条目或刷 Trustpilot 评价。 短期可能有效，2024 年 Review Spam Update 和 Wikipedia 编辑审核之后长期是负向信号。
伪实践 4：用 Schema 标记一个不存在的作者。 sameAs 字段会被 Google 交叉核对到外部账号，伪造反而触发降权。
伪实践 5（外贸特有）：假装自己是美国公司，隐藏中国身份。 一旦被识破（WHOIS、LinkedIn 员工分布、收款账号都是可查的）Trust 直接清零。承认双地运营更安全。
对 GEO 的影响：比 SEO 更依赖 E-E-A-T
LLM 在生成回答时决定引用哪个来源，几乎全部基于可信度判断——因为模型不能像 Google 那样依赖外链图谱作为补充。这意味着：

一个 Trust 信号齐全的外贸站，被 ChatGPT / Perplexity 引用的概率显著高于匿名独立站；
Schema Organization 节点里的 address、founder、sameAs 会直接进入检索增强（RAG）的上下文；
作者页面 + LinkedIn 绑定对 GEO 引用率的提升幅度，据独立观察者（2025 年 GEO 观察项目）测算在 20%–40%。

结论： 2026 年往后，E-E-A-T 建设不再是&quot;SEO 可选项&quot;，而是 SEO + GEO 的共同前提。外贸独立站无论主抓 Google 还是主抓 ChatGPT 引用，都必须把上面清单的前 5 项做到。
配套阅读

《中文站在海外 Google 排名的五个结构性难题》 — 难题 4 讲 E-E-A-T 在外贸场景的起步做法，本文是完整打法
《LLM 引用机制：ChatGPT / Perplexity / Google AI Overview 的可引用条件》 — GEO 引用率与 E-E-A-T 的直接关系
《搜索引擎工作全流程》 — 第 3 阶段&quot;前置排序&quot;里 E-E-A-T 作为信任维度的位置

---

## 可引用段：一种面向 LLM 的内容结构化方法

- 类型：方法论
- URL：http://www.6nn6c.com/citable-block-method/
- 日期：2025-02-10
- 摘要：可引用段是一种段落级结构：段首即论断、附数据或来源、独立于上下文、使用明确的时间与地域限定词。可以实现为 Gutenberg 块，在前端渲染为带有 Schema.org Claim 语义的区块。

本文讨论的是 《搜索引擎工作全流程》 中的第 6 阶段：GEO 引用。
第 6 阶段的成败，不在于你写了多少字，而在于——LLM 在回答用户问题时，能不能从你的文章里&quot;切出一段&quot;直接塞进回答里。写得再多、说得再对，如果整篇都是散文式的连续叙述，模型切不出独立成段的断言，依然不会被引用。
本文给出可引用段的判定标准、5 种常见反模式、改造流程，以及一套可复用的 Citable Block 实现模板。
一个可引用段长什么样
看两段讲同一件事的文字：
版本 A（不可引用）：
&quot;我们在 Google 的算法更新上做过很多研究，发现一些很有意思的规律，比如说 Core Web Vitals 对排名有影响，但具体影响多少其实也挺难说的，因为每个站情况不太一样。&quot;
版本 B（可引用）：
&quot;2021 年 Core Web Vitals 正式成为 Google 排名信号后，我在 6 个客户站上对比测试 LCP 从 3.5s 降到 1.8s 的 6 周窗口，观察到排名变动中位数为 +2.3 个位次（p50 样本，n=42 关键词）。影响量级低于预期，但在竞争紧凑的前 10 内部具有显著差异。&quot;
差别在哪：

B 段首即论断（&quot;Core Web Vitals 成为排名信号后…&quot;）
B 附具体数据（6 个站、6 周、+2.3 位、n=42）
B 独立于上下文（不读前文也能理解）
B 使用明确的时间与地域限定词（2021 年、Google）

LLM 在切引用时，偏好 B 这样的段。A 根本不会被切出来。
为什么 LLM 偏好 B 段：RAG 的 chunk 机制
要理解&quot;可引用段&quot;为什么重要，要看一眼 LLM 引用内容时的底层机制。
绝大多数现代 LLM 检索系统（Perplexity、ChatGPT Browse、文心联网搜索）在抓到一个页面后做的第一件事不是&quot;整页读完&quot;，而是把页面切成 chunks（语义块）——通常是 200–500 tokens 一块——然后把每一块单独编码成向量、单独评估相关性、单独作为候选引用源。
这个机制有两个直接后果：

你被引用的最小单位不是&quot;文章&quot;，而是&quot;chunk&quot;。一整篇 6000 字的雄文如果没有一个 chunk 能独立成立，整篇都不会被引用。
上下文依赖强的段落会在切块时崩溃。&quot;前面我们提到…&quot;、&quot;综上所述…&quot;、&quot;基于上面的分析…&quot;——这类句子一旦离开上下文就变成无意义噪音，模型会主动降权。

B 段能被引用的本质原因：它自带一份完整的上下文——谁、什么时候、在什么条件下、观察到什么现象、现象的量级如何——这些信息全都在同一段里。切出来也是一个完整的陈述。
可引用段的五条判定标准

段首即论断。 不铺垫，直接说结论。读者（或 LLM）读完第一句话就应该知道这段要说什么。
数据可验证。 数字 / 时间 / 来源 / 代码，三者至少一项。&quot;2021 年&quot;是时间、&quot;+2.3 位&quot;是数字、&quot;Google 官方公告&quot;是来源——任何一类都行，但必须有。
独立成立。 脱离上下文也能看懂。把段落复制到一张白纸上，问自己&quot;一个陌生人读这段能明白它在说什么吗&quot;——不能，就要重写。
限定词明确。 避免&quot;很多&quot;、&quot;经常&quot;、&quot;大部分&quot;——说清楚多少。&quot;影响很大&quot;这种句子对 LLM 而言等同于没说。
一段一个主张。 不要在一段里塞多个断言。一段讲两件事，等于两件事都没讲透，也都切不干净。

五种常见反模式
这些是我在给其他站做审计时反复看到的写法，每一种都会让段落失去可引用性：

开头铺垫型——&quot;说到 SEO，其实大家都知道……&quot;。前两句是废话，真论断藏在第三句。LLM 切块时很可能从第一句切起，把废话切进去、把论断切断。
因果倒装型——&quot;这是因为……，所以……&quot;。&quot;所以&quot;之后才是结论；放到段首会更好。
引用链条型——&quot;如前所述……&quot;、&quot;基于 §2 的结论……&quot;。离开上下文即崩。
情绪填充型——&quot;我个人觉得这其实挺重要的&quot;。信息密度接近零，LLM 评估相关性时排在末位。
多主张混合型——一段同时讨论&quot;算法机制&quot;、&quot;历史演变&quot;和&quot;优化建议&quot;。每一条都没说透，切哪一块都不完整。

Citable Block 的一种实现
Gutenberg 编辑器中有一个名为&quot;可引用段&quot;的自定义块。使用方式：

编辑器中 &quot;+&quot; → &quot;可引用段&quot;
输入段落内容
发布

前端输出结构：
&lt;section class="seogeo-citable" itemprop="abstract" itemscope itemtype="https://schema.org/Claim"&gt;
  &lt;p&gt;段落内容&lt;/p&gt;
&lt;/section&gt;
为什么用 schema.org/Claim：这是 Schema.org 中专门用来标注&quot;可验证断言&quot;的类型，相比 Article 的整段内容，Claim 明确告诉搜索引擎&quot;这一小节是一个可以被单独核查、单独引用的主张&quot;。对 Google 的 Fact Check 系统、以及未来 LLM 的引用溯源机制都有预留空间。
同时该段可以被主题的 JSON-LD 输出模块收集到 Article 的 hasPart 字段，让 LLM 在切语义块时有额外的结构化语义信号，不完全依赖正文解析。
改造流程：把现有长文变成可引用段组合
把一篇连续叙述改造为可引用段的最小工作流：

划段。 每段控制在 150–300 字。超过的拆开，不足的合并。
提论断到段首。 找出每段的核心断言，把它移到第一句。
补数据。 如果段中只有观点没有数据，加一条可验证的引用（数字 / 时间 / 来源任一）。没有数据的观点可以保留，但不要套 Citable Block。
加限定。 把&quot;很多&quot;换成&quot;我在 X 个项目中的 Y 个观察到&quot;、把&quot;最近&quot;换成&quot;2024 年 10 月之后&quot;。
拆混合段。 一段有两个主张就拆成两段，各自独立成立。

做完这五步，整篇文章的被引用率会显著上升（我的样本：单篇文章月度引用次数平均提升 60%–300%，n=18 篇，样本仍小，仅供参考）。
自测：这段到底可不可引用
写完之后，用三个问题自检：

盖住段落前后其他部分，只留这一段——读得懂吗？ 读不懂就不独立。
这段里最关键的数字 / 时间 / 来源，我能指出至少一个吗？ 指不出就不可验证。
我把这段放进 ChatGPT，问&quot;请用一段话概括&quot;——它给我的概括和原文是不是基本等同？ 如果 AI 能用一句话复述，说明这段本身就是一个完整表述。

三条都过，这段大概率能被切出来。
警告：不要为&quot;可引用&quot;写空段
不要为了&quot;可引用&quot;写空段。 LLM 对虚假数据有识别机制——反复被核查失败的段落、其来源域名会进入低可信度队列，整站引用率随之下降。
三种典型的&quot;自毁式可引用段&quot;：

虚构精确度——没做过实验却写 &quot;n=42&quot;、&quot;+2.3 位&quot;这类精确数字。一旦被人工核查失败（比如读者质疑、同行反驳），整段信誉崩塌。
引用未验证的二手来源——把别处看到的、自己没核实的数字当事实写。二手数据必须明确注明来源，否则出错时你是唯一的责任人。
把结论反推成前提——先有想要的结论，再编造支撑数据。LLM 在跨文档一致性检查中很容易识别这种模式。

论断必须真诚，数据必须可验证。可引用段是放大器，写得对会放大你的可信度，写得假会放大伤害。
配套阅读

《搜索引擎工作全流程》 第 6 阶段 — 可引用段在 GEO 中的定位
《LLM 引用机制拆解》 — RAG chunk 机制的详细版本
《llms.txt 完全指南》 — 告诉 LLM 去哪里找你的可引用内容

---

## 外贸独立站的 SEO 插件取舍：什么时候用、什么时候精简、什么时候自研

- 类型：方法论
- URL：http://www.6nn6c.com/seo-plugins-are-liability/
- 日期：2025-02-03
- 摘要：外贸独立站的 SEO 插件选型不是 "用 vs 不用" 的二选一，而是三档：主流插件 + 懂得忽略误导性绿灯（适合大多数站）；精简插件栈 + 手工补 GEO 层（适合有一定开发能力的团队）；零插件 + 自研主题（仅限高度定制场景）。

本文讨论的是 《搜索引擎工作全流程》 中的第 1 阶段：爬取与收录——从&quot;工程实现与工具选型&quot;的角度切入。读者画像：外贸独立站运营者（WordPress + WooCommerce / 多语言内容站 / 跨境 B2C）。
先把立场摆清楚：这篇文章不是劝你别装 SEO 插件。对绝大多数外贸独立站，Yoast / Rank Math 之类的主流插件仍然是正确选择——它们解决的是&quot;让一个不写代码的运营者也能输出合规的 meta / Schema / sitemap&quot;，这件事的价值没有消失。
本文讨论的是怎么用好插件、哪些代价必须知道、以及什么情况下（少数）可以考虑零插件方案。零插件属于&quot;高度定制主题 + 有人愿意维护 PHP 代码&quot;的特殊场景，不是给普通站的通用建议。
三档方案：先对号入座
外贸独立站的 SEO 技术栈选型不是二选一，而是三档：

档位
方案
适用场景

A
主流插件（Yoast / Rank Math Free）+ 懂得忽略误导性绿灯
大多数外贸站。团队没有 PHP 开发能力、没时间自研、优先项是&quot;先把 SEO 基线打齐&quot;

B
精简插件栈 + 手工补 GEO 层
有一定开发能力的团队。装 1–2 个轻量插件处理 meta/Schema，手工加 /llms.txt、AI 爬虫 robots、Product Schema 清理

C
零插件 + 自研或高度定制主题
高度定制场景。有专职开发者、愿意把 SEO 输出当成代码维护、对性能和结构有极致要求

90% 的外贸站应该在 A 或 B 档。C 档不是&quot;更先进&quot;，只是&quot;场景更窄&quot;——自研的代价（人力 + 持续维护）经常被低估。下文先讲 A/B 档的插件怎么用，最后再讲 C 档什么时候才合理。
A 档：用主流插件，但要知道哪些&quot;绿灯&quot;可以忽略
主流 SEO 插件在 2025 年的核心价值依然成立：meta 输出、Schema 自动生成、sitemap 自动分片、redirects 管理、Search Console 集成。这些功能真的好用。问题不在插件本身，而在插件附赠的&quot;SEO 评分系统&quot;——那是 10 年前的最佳实践，现在不准了。
装 Yoast / Rank Math 时，这些绿灯可以安全忽略：

关键词密度——Google 的 BERT/MUM 早已不按密度排名，强行把关键词塞到文中反而降低可读性。
SEO 标题/描述字数精准命中——接近即可，多一个字少一个字的绿灯阈值没有实际排名意义。
可读性评分（Flesch）——基于英语语料，对多语言外贸站的非英文版（西班牙语、德语、日语）几乎总是误判。
&quot;关键词在第一段出现&quot;——自然写就好，强扭的前导句反而像 spam。

反过来，这些是插件真的帮你的事，值得好好配：

站点级的默认 &lt;meta&gt; fallback
自动 Schema（Article / Product / Organization / BreadcrumbList）
sitemap 自动分片与索引
301 redirects 可视化管理
Search Console / Bing Webmaster 验证

A 档的实操要点：

只装一个主 SEO 插件（Yoast 或 Rank Math 二选一），不要叠加。
关掉不需要的子模块（Yoast 的 Video SEO / News SEO / 社交管理等附加模块，不做对应业务就全部停用）。
忽略评分，盯业务指标（Search Console 的展现 / 点击、GA4 的有机流量、转化）。
手工补 AI 爬虫 robots 放行 + llms.txt（插件目前没做，见下文）。

B 档：精简栈 + 手工补 GEO 层
如果团队里有人能写一些代码，可以进一步削减插件栈。典型配置：

保留：Rank Math Free（仅用于 meta 与 Schema 基础）或 Yoast Free
去掉：缓存插件（改用服务器级方案：Nginx FastCGI Cache、Cloudflare APO 等）、社交分享插件（手写几行 HTML 即可）、面包屑插件（主题或 Schema 插件已包含）、SEO 评分附加模块
手工补：

/llms.txt 和 /llms-full.txt（插件未覆盖，functions.php 里加 rewrite 即可）
AI 爬虫 robots 放行（GPTBot / ClaudeBot / PerplexityBot / Google-Extended / Bytespider），详见 M5
产品页 Schema 自查（Rank Math 对 Variable Product 的 Offer 结构偶有缺字段，用 Rich Results Test 定期验）

B 档最适合： 中型外贸站（200–2000 SKU），团队里至少有一人能读 PHP，对 Core Web Vitals 有明确 KPI。
需要心里有数的四个代价（A/B/C 档都适用）
无论你在哪一档，都要对插件（和自研）的代价有感知：
代价 1：性能拖累

主流 SEO 插件前端注入 20–60KB 资源，对海外 4G 用户 LCP 有 100–300ms 影响。
Yoast 的 yoast_indexable 表在中型外贸站（5000+ SKU）常见到 500MB+；批量更新时后台阻塞。
多语言 × 多插件 × 多 SKU 的乘积效应——见过 3 语言 / 2000 SKU 站 wp_postmeta 2GB+。

如何缓解（不需要改架构）：定期用 WP-Optimize 清理 transient 和过期 meta；每季度跑一次 PageSpeed Insights 对比。
代价 2：功能错位
如上文，评分系统是 10 年前的。运营团队的注意力经常被&quot;把灯变绿&quot;吸走，而不是放在内容和引用结构上——这是隐形成本。
代价 3：锁定效应（外贸迁移场景尤其注意）
外贸站做到一定规模想迁 Shopify 或换主题时，Yoast/Rank Math 的自定义数据迁移工具（LitExtension / Cart2Cart）支持不完整，常见丢 redirects / 自定义 meta。迁移前的导出脚本要单独准备。插件厂商变动也是风险：Yoast 已被 Newfold Digital 收购，长期维护的不确定性比几年前高。
代价 4：GEO 时代的新缺位（2024 后）
这是当前主流 SEO 插件全部的空位，必须手工补：

不生成 /llms.txt / /llms-full.txt。对外贸站影响明显——Perplexity 和 Claude 都会主动读取。
自动生成的 robots.txt 不明确放行 AI 爬虫，个别规则还会误伤 Google-Extended。
插件注入的相关文章、分享按钮、面包屑 HTML 常让 RAG chunk 切不干净。
@graph 把所有 Schema 类型堆一个 JSON-LD，某些 LLM 解析器对超长 @graph 有截断风险，可能丢 Product/Offer。

不管 A 还是 B 档，这四件事都要手工补。几行代码，比换插件生态便宜得多。
Shopify 对比：外贸站另一条路
外贸独立站两大技术路线在 SEO 基础层的分工对比：

维度
WordPress + WooCommerce
Shopify

基础 SEO（title/desc/canonical）
需装 SEO 插件（A/B 档）
平台默认提供

Schema.org
需插件或主题
默认 Product/Offer/Organization

Sitemap.xml
需插件
平台自动

hreflang
需 WPML/Polylang/Multilingual
Markets 自动

llms.txt
需手工或应用
需应用

性能
高度取决于主题和插件栈
平台级优化（稳定但上限封顶）

锁定度
中（可迁移但麻烦）
高（但平台稳定）

选 WooCommerce： 灵活但自己要负责插件栈卫生，建议走 A 或 B 档。
选 Shopify： SEO 基础项平台全做了，不必再装 SEO 应用；精力应该放到内容和 GEO 上。
C 档：零插件 + 自研（什么时候才合理）
零插件不是更先进，是更窄的场景选择。满足以下三条以上才值得考虑：

团队里有至少一名熟练 WordPress 主题开发者，且能持续维护
站点规模足够大或足够长期，值得投入开发成本换性能和灵活性
对 GEO / LLM 引用有战略级诉求，愿意把 /llms.txt、可引用段、Schema 清理做到主题级定制
已经踩过一次插件锁定 / 迁移失败的坑，对自研的长期维护成本有认知

C 档的典型做法：把 SEO 输出模块化成 500 行左右的 PHP，完整覆盖 title / description / canonical / OG / hreflang / Schema（WebSite / Organization / Person / Article / BreadcrumbList / FAQPage）/ sitemap / robots（含 AI 爬虫白名单）/ llms.txt。零插件、零额外前端资源、零数据库膨胀。
但前提是主题本身是为独立研究者自用场景设计的——不是商用电商主题、不考虑第三方集成、不需要兼容所有人的自定义需求。对一个卖自有品牌 SKU 的外贸站，直接走零插件路线未必比 &quot;WooCommerce 官方主题 + Rank Math Free&quot; 高效。
绝对不要做的三件事（全档位适用）

同时装 Yoast + Rank Math + All in One SEO（见过不止一次外贸站同时装三个），meta 冲突 + 资源重复注入 + 数据库混乱。
装 Yoast 全家桶（Yoast WooCommerce SEO + Video SEO + News SEO + Local SEO）而不评估业务是否真需要——每一个都在往前端注入代码。
用 &quot;一键站群 / AI 批量站&quot; 类插件生成大量 meta 和正文——直接触发 Google Helpful Content 降权，对 GEO 引用也是毒药。

A 档外贸站的实操清单
如果你在 A 档（大多数外贸站应该在这里），下面这个 checklist 比&quot;换方案&quot;更有收益：

只保留一个主 SEO 插件，停用叠加项
Yoast/Rank Math 的附加模块关到最小集
手工在 functions.php 或通过 Code Snippets 插件加 /llms.txt 路由
编辑 robots.txt 明确放行 GPTBot / ClaudeBot / PerplexityBot / Google-Extended / Bytespider
用 Rich Results Test 检查产品页 Schema 无缺字段
用 hreflang Tags Testing Tool 检查多语言版本互指正确
每季度用 WP-Optimize 清理过期 meta 和 transient
每季度跑一次 PageSpeed Insights 对比移动端 LCP / INP / CLS

做完这 8 步，大多数外贸站的 SEO 基线就已经到位——完全不必去卷零插件。
结论
SEO 插件是工具，不是敌人，也不是银弹。对绝大多数外贸独立站，主流插件 + 懂得忽略误导性绿灯 + 手工补 GEO 层，是性价比最高的路径。零插件方案只在&quot;高度定制 + 有持续开发能力 + 对性能和 GEO 有战略诉求&quot;的窄场景里成立，不是给普通站的推荐。
核心判断：不要因为见过本站零插件就觉得自己也该零插件，也不要因为&quot;别人都用 Yoast&quot;就不管代价地堆插件。先对号入座到 A/B/C 档，再按本档的实操清单走。
配套阅读

《搜索引擎工作全流程》 第 1 阶段 — 爬取与收录的完整影响因素
《中文站在海外 Google 排名的五个结构性难题》 — 外贸站的另一侧视角
《llms.txt 完全指南》 — 插件普遍缺失的这一项怎么补
《可引用段：一种面向 LLM 的内容结构化方法》 — 腾出插件预算后该往哪里投

---

## llms.txt 规范解读与实操

- 类型：方法论
- URL：http://www.6nn6c.com/llms-txt-guide/
- 日期：2025-01-28
- 摘要：llms.txt 是 llmstxt.org 提出的面向 LLM 的站点声明规范，类似 robots.txt 但目标不同。它告诉 LLM 本站的结构、关键内容、建议引用的页面清单。本站已按规范自动生成。

本文讨论的是 《搜索引擎工作全流程》 中的第 6 阶段：GEO 引用。
llms.txt 是 2024 年 9 月由 llmstxt.org（提案人 Jeremy Howard）提出的约定俗成规范——类似 robots.txt，但目标相反：robots.txt 告诉爬虫哪些不要抓，llms.txt 告诉 LLM 哪些值得引用、以及如何理解本站。
它不是 W3C 或 IETF 的正式标准，但在 2024 年底已经被 Anthropic、Mintlify、Perplexity 等公司的文档站点主动部署，处于&quot;事实标准正在形成&quot;的早期阶段。
llms.txt 与 robots.txt / sitemap.xml 的三角关系
三份文件的分工，理清了就不会混：

文件
受众
作用

robots.txt
搜索爬虫 + AI 爬虫
准入控制（这个爬虫能抓哪些路径）

sitemap.xml
搜索引擎
收录建议（这些 URL 希望被索引）

llms.txt
LLM 的检索 / 训练流程
语义建议（这些内容值得引用，这里是站点结构导航）

三份文件不互相替代。一个做 GEO 的站应当同时有这三份：robots 放行 AI 爬虫、sitemap 把所有公开 URL 告诉搜索引擎、llms.txt 把经过筛选的优质内容清单告诉 LLM。
规范要点
标准路径：/llms.txt（H1 标题 + 简短描述 + 分组的链接清单）。
扩展路径：/llms-full.txt（同上，但附完整 Markdown 化正文，供训练语料使用）。
基础结构：
# 站点标题

&gt; 一行简介（面向 LLM 的站点定位）

## 主要内容分组

- [文章标题](URL)：一句话描述

## 次要分组

- [另一篇](URL)：描述
字段语义拆解：

H1 — 站点名。LLM 用它识别&quot;这是哪个站的声明&quot;。
引用块（&gt; 开头） — 一句话的站点定位。这一句非常关键，它会作为 LLM 评估&quot;要不要进一步读本站&quot;的直接摘要。
H2 分组 — 内容分类。每类下列出若干有代表性的 URL + 一句描述。
链接描述 — 每条 URL 的一句话说明。不是 SEO meta description 的翻版，而是&quot;告诉 LLM 这一页里有什么可引用的断言&quot;。

两份文件各管一头
这两份文件的分工必须分清，否则部署出来要么过载、要么没用：

/llms.txt：选择性目录。只列最有代表性的 30–100 条链接，是一份&quot;编辑过的索引&quot;。LLM 读这一份用来决定&quot;本站覆盖哪些话题、有哪些权威结论&quot;。
/llms-full.txt：完整语料。把站内所有公开正文 Markdown 化后合并，供 LLM 训练期抓取和 RAG 期回源验证。它的作用相当于&quot;一份为机器准备的可离线阅读版全站副本&quot;。

类比： llms.txt 是你给读者的&quot;必读书单&quot;，llms-full.txt 是图书馆的全集。两者都需要。
本站的实现
本站已按规范自动生成：访问 /llms.txt 和 /llms-full.txt 可看实时输出。走 WordPress 的 add_rewrite_rule + template_redirect 路径，无需实体文件，内容随站点更新自动同步。
生成逻辑：

站点标题、描述来自 WP blogname / blogdescription
/llms.txt 先列&quot;核心页面&quot;（首页 / method / case / toolkit / observation / learn / about），再按&quot;方法论 / 案例 / 工具&quot;分组列文章，每条附 excerpt
最后的&quot;可引用声明&quot;段明确允许 7 家主流 LLM 引用，并声明保留出处的条款
/llms-full.txt 把所有 post / case / tool / observation + 主要 page 的正文 Markdown 化后合并输出，每篇带类型 / URL / 日期 / AI 摘要 四项元数据块

站长不需要手工维护文件内容——正常写文章即可，两个路由会自动反映最新状态。
站长要做的事
0 步：确认 robots.txt 允许 AI 爬虫。 至少放行 GPTBot、ClaudeBot、PerplexityBot、Google-Extended、Bytespider、Baiduspider-render。爬虫都进不来，llms.txt 写得再漂亮也是对着空气说话。本站默认放行，可在后台关闭。
1 步：部署 llms.txt。 使用的 WordPress 主题或建站平台如果尚未支持，至少要在根目录放一份静态 /llms.txt。
2 步：为每篇重要文章写好 excerpt 和 _seogeo_ai_summary meta。 前者进 llms.txt 的一句话描述，后者进 llms-full.txt 的摘要字段，两者都直接影响 LLM 对该页的&quot;预判&quot;。
3 步：观察引用数据。 用 T1 Python 引用检查脚本 追踪 llms.txt 部署前后的引用次数变化；至少观察 4–8 周才能看到训练语料纳入和 RAG 命中的变化。
4 步：定期 curate。 每季度翻一次 llms.txt 的自动输出，检查&quot;核心页面&quot;列表是否需要调整，去掉过时内容、加进新的代表作。
常见误区
误区 1：llms.txt 可以替代 sitemap.xml。 不能。sitemap 面向搜索引擎收录，llms.txt 面向 LLM 引用，用途不同。Google 不会用 llms.txt 做索引，ChatGPT 不会用 sitemap 做 chunk 召回。
误区 2：llms.txt 可以控制哪些 LLM 抓你的内容。 不能。这个准入控制通过 robots.txt 的 User-agent 段完成。llms.txt 是&quot;声明什么值得引用&quot;，不是&quot;禁止谁抓&quot;。
误区 3：llms.txt 是&quot;强制&quot;的。 不是。它只是一个声明与建议，LLM 是否采纳取决于各自的实现——目前 Anthropic / Perplexity / Cursor 已有明确支持，OpenAI 和 Google 的采纳程度还不明确。
误区 4：写得越长越好。 反了。llms.txt 本质是&quot;精选目录&quot;，堆到几百条反而稀释重点。控制在 30–100 条、覆盖 80% 的核心内容即可。
误区 5：用 llms.txt 做搜索引擎优化。 Google / 百度不会把 llms.txt 作为排名信号。它只对 LLM 引用生效，不改传统 SEO 结果。
各家 LLM 对 llms.txt 的实际支持现状（2025 初）
截至 2025 年初的公开信息 + 我自己的抓包观察：

Anthropic（Claude） — 公开支持，Claude.ai 的文档生成流程会主动读取。
Perplexity — 抓取行为里能观察到对 /llms.txt 的高频访问，但采纳逻辑未公开。
Mintlify / Cursor 等开发者工具 — 部分明确支持，用于代码文档场景。
OpenAI（ChatGPT） — 未公开表态，GPTBot 的访问日志里未见对 /llms.txt 的高频请求。
Google（Gemini / AI Overviews） — 未支持，Google 的策略是依赖 Schema.org + 传统索引。
百度 / 文心 — 未支持。
字节 / 豆包 — 未公开表态。

结论： 短期价值集中在对 Anthropic 和 Perplexity 的优化上。其他引擎的 GEO 策略仍以 M3 的分头打法 为主。
对未来的判断
llms.txt 目前处在 robots.txt 1994 年刚被提出时的阶段——声明性规范、非强制、被少数先行者主动支持。robots.txt 从提案到事实标准用了约 3 年；llms.txt 的生态走得更快，我个人判断 2025–2026 年会完成从&quot;早期自愿&quot;到&quot;事实默认&quot;的过渡。
执行层面的建议很直接：先部署、再等生态。部署成本接近零，等生态起来之后再补是慢半拍。
配套阅读

《搜索引擎工作全流程》 — 前置框架
《ChatGPT、Perplexity、豆包、文心的引用机制对比》 — 不同引擎的引用机制差异
《可引用段：一种面向 LLM 的内容结构化方法》 — llms.txt 指向的内容本身怎么写

---

## 中文站在海外 Google 排名的五个结构性难题

- 类型：方法论
- URL：http://www.6nn6c.com/chinese-site-google-challenges/
- 日期：2025-01-23
- 摘要：中文站做海外 Google SEO 的五大结构性难题：hreflang 实施、服务器与 CDN 地域信号、翻译内容的独特性识别、E-E-A-T 的可溯源性、跨境外链图谱。每个问题都有对应解决方案。

本文讨论的是 §1.3 框架 中的第 3 阶段：前置排序，地域视角。面向的读者是做外贸独立站的团队——产品在国内、工厂在国内、内容生产团队主要讲中文，但流量目标是 Google 搜索结果页的美国/欧洲/东南亚用户。
做过外贸出海 SEO 的人多半有过这种经历：中文版站点做到百度前几、内容质量自评在同行业也不差，翻成英文部署到 /en/ 之后却几乎没排名；投 Google Ads 还能跑量，自然流量半年没动静。这不是&quot;翻译质量不好&quot;那么简单，而是五个结构性障碍相互叠加的结果：任何一层破损，后面的努力都只能给前一层补分。
本文按&quot;从容易排查到最难排查&quot;的顺序展开，并在最后给一份 3 个月路线图。
1. hreflang 实施错误
问题： 多语言站点没有正确声明语言/地区版本对应，Google 把中/英/多语言版本视为&quot;重复内容&quot;或者把错误版本推给错误用户。
典型症状：

中文版收录了，英文版索引率只有 10%–20%；
美国用户搜索时看到的是中文版或 /zh/ URL；
GSC 的 International Targeting 报告里出现大量 &quot;return tag missing&quot; 警告。

外贸站的常见坑：

WPML / Polylang 默认只输出 hreflang="en"、没有配 en-us / en-gb 变体——Google 不会自动拆分；
用 Shopify 多店铺架构时忘了在 checkout 子域上也保持语言标签一致；
语言切换器用 JS 跳转，爬虫拿不到其它语言版本的 URL；
x-default 指向首页中文版，美国爬虫访问时继承了中文信号。

解决路径：

每个页面的 &lt;head&gt; 中输出完整 hreflang 列表（包括自指、包括 x-default）；
目标市场分得细（英美、英澳、英加）就用 en-us / en-gb / en-au，只做通用英文就只标 en + x-default；
x-default 指向&quot;地理中立的默认入口&quot;——通常是英文版、而不是中文版；
Sitemap 用 XML hreflang 扩展，把所有语言版本的互相指向也声明一遍；
持续用 GSC 的 International Targeting 报告核对覆盖率。

2. 服务器与 CDN 的地域信号
问题： 服务器在国内、或 CDN 没有配海外节点，Google 爬虫从美国出发访问时延迟高、偶尔超时、样本抓取不完整。
典型症状：

GSC 的抓取统计里平均响应时间 &gt; 1.5 秒；
Core Web Vitals 在海外用户侧（尤其是 4G 移动端）全部红色，LCP 经常 &gt; 4s；
robots 没有屏蔽国内 IP，但日志里 Googlebot 来自 66.249.* 段的抓取量远低于同行业预期。

外贸站常用的 CDN 选型对照：

方案
适合场景
注意点

Cloudflare
预算有限、全球通吃、免费套餐起步
国内回源要开 Argo 或中国接入；SSL 配置和 WAF 冲突要测

AWS CloudFront
已经在 AWS 生态、核心市场是美国
按流量计费，跨区回源会放大成本

Akamai / Fastly
大站、企业级、需要精细化路由
成本最高；一般在 SKU &gt; 几万或 DAU &gt; 十万时才值

国内云厂（阿里/腾讯）海外节点
团队只熟国内厂商
Googlebot 对部分海外节点 IP 段识别不稳定，需实测

其它地域信号：

顶级域尽量用 gTLD（.com / .net / .co），避免 .cn / .com.cn 作为主域；
GSC 的 Geographic Target 明确设定目标市场（通用国际站可留空）；
服务器配置 HTTP/2、HSTS、IPv6——这些是 2025 年 Google 视作&quot;成熟站点&quot;的基础指标。

3. 翻译内容的独特性
问题： 机器翻译或&quot;直译 + 轻修订&quot;的英文版与中文源站高度相似，Google 用去重模型识别为&quot;转译内容&quot;，放进长期低权重桶。
典型症状：

英文版页面收录正常、但长尾关键词排名极低；
用 Ahrefs / Semrush 做 content gap，发现英文版几乎没有 organic traffic；
用查重工具（Copyscape 之类）发现英文版与竞品页面段落重合度不低。

外贸站的典型错误做法：

用 Google Translate / DeepL 批量翻完直接发布；
canonical 互指中英文版本（英文页 canonical 到中文页，直接断送英文版权重）；
产品页复用同一张英文描述模板，只换 SKU 名；
博客文章从&quot;国内厂商视角&quot;直译，却没换成海外用户关心的问题框架。

正确做法：

翻译只是第一版，必须人工改写一遍——英文排版、表达习惯、单位换算（寸/厘米、磅/公斤）、货币符号都要本地化；
为英文版主动增加本地化信息：海外案例、海外客户 quote、海外市场数据、海外认证（CE、FCC、RoHS）；
英文博客的选题要重起一套——面向海外用户的 how-to、buying guide、comparison，而不是&quot;国内行业新闻直译&quot;；
URL 结构用 /en/ 或独立域，不要和中文版 canonical 互指。

4. E-E-A-T 的可溯源性
问题： 独立站在英文互联网里没有可查证的&quot;身份信号&quot;——公司注册、海外媒体报道、专业社媒账号、第三方评价都缺失。
典型症状：

YMYL 类目（医疗器械、金融、婴童、食品）完全拿不到排名；
即使普通品类，Google 也把你压在 Wikipedia / 行业大站 / Amazon 商品页之下；
AI Overview / ChatGPT 被问到你品牌时，要么不知道、要么把你和同名公司搞混。

外贸站能做的可溯源信号：

公司层：About 页写清楚注册地（例如&quot;注册于 Delaware, US&quot;或&quot;HQ in Shenzhen, subsidiary in Los Angeles&quot;）、邓白氏编码（D-U-N-S）、可查证的地址；
第三方评价：Trustpilot、Google Reviews、Sitejabber、BBB（美国站）持续累积真实评价——不要刷，刷会被 Google Review Spam Update 清零；
行业信号：LinkedIn Company Page、Crunchbase 词条、G2 / Capterra（SaaS 类）、Houzz（家居类）的专业档案；
个人作者层：About the author 页面 + LinkedIn 绑定 + Google Scholar / 行业会议演讲（如有）；
新闻稿：PRNewswire、BusinessWire 发过至少一两次通稿——成本几百刀，但能留下可被 Google 引用的英文版&quot;公司存在证明&quot;；
结构化数据：Schema.org 的 Organization / Person / Product / Review 节点必须输出，并用 GSC 的结构化数据报告核对。

配套阅读： 完整的 E-E-A-T 打法见 《E-E-A-T 在 2025 年仍然重要，但是变了》。
5. 跨境外链图谱失联
问题： 外链几乎全部来自中文生态（微博、知乎、小红书、CSDN、百度百家号），Google 的外链图谱里你几乎&quot;没有外链&quot;——因为这些站点要么不被 Googlebot 爬取、要么 nofollow、要么权重不传。
典型症状：

Ahrefs DR、Moz DA、Semrush Authority Score 在海外工具里 &lt; 20；
GSC 里外部链接只来自自家多语言站或几个低质目录站；
发了优质博客也没自然外链，PageRank 无法累积。

外贸站的外链建设路径：

Guest Post（客座博客）：在行业英文博客写原创稿换外链，单价区间 $50–$500，质量参差——重点看目标站自身的 organic traffic 是否真实，用 Ahrefs 的 Traffic Value 筛；
Reddit / Hacker News / Product Hunt：不是去打广告，而是真诚参与讨论、在合适的话题里提到自己——但 Reddit 大部分外链是 nofollow，价值在 referral 流量而不是 PageRank；
开源 + GitHub：技术类外贸站（SaaS、硬件、工具）发开源项目、写 README、被其它仓库 import——是最自然、最抗算法变动的外链来源；
行业资源页被收录：找目标市场的 &quot;best X tools 2025&quot;、&quot;top X suppliers&quot; 类资源页，发邮件申请被列入；
被海外媒体引用：HARO（Help a Reporter Out）回复记者问题、Qwoted、Featured.com——有机会被 Forbes / Inc / TechCrunch / Business Insider 等引用；
不做的事：PBN（私人博客网络）、链接交换群组、Fiverr 廉价外链包——2026 年的 Google SpamBrain 已经能识别绝大多数此类模式，风险 &gt; 收益。

外贸出海 3 个月路线图
按这个顺序投入时间，成本最低：
第 1 个月：技术基础（对应难题 1、2）

配好 hreflang + x-default + sitemap 多语言扩展；
上 Cloudflare 或同级别 CDN 的海外节点，确保 Googlebot 从美国访问的 TTFB &lt; 500ms；
GSC 里注册所有语言版本的 property，开始监控覆盖率。

第 2 个月：内容独特性（对应难题 3）

从最重要的 10–20 篇英文页开始，逐篇人工改写 + 加本地化信息；
英文博客重起一套选题，优先 how-to 与 buying guide；
删掉中英 canonical 互指，让两套站各自独立。

第 3 个月：身份信号 + 外链启动（对应难题 4、5）

跑一份通稿、开 Trustpilot、补齐 LinkedIn/Crunchbase；
每周至少一次 HARO 回复、每周一篇高质量英文博客；
启动 2–3 个 Guest Post 合作。

一句话结论
海外 Google 排名对中文外贸站从来不是&quot;翻译就行&quot;的事情。五个结构性问题中任一项没解决，后面几项都会白做。 先把第 1、2 层（技术基础）修好，再花精力在第 3、4、5 层上。
配套阅读

《搜索引擎工作全流程》 — 第 3 阶段&quot;前置排序&quot;讲地域 / 语言 / 信任三类地域信号的原理
《外贸独立站的 SEO 插件取舍》 — 这五个难题大部分是插件帮不上的；本文讨论插件在外贸场景里的实际位置
《llms.txt 规范解读与实操》 — 海外 AI 引擎（ChatGPT / Perplexity）对外贸站的引用补充
《E-E-A-T 在 2025 年仍然重要，但是变了》 — 难题 4 的完整打法

---

## ChatGPT、Perplexity、豆包、文心的引用机制对比

- 类型：方法论
- URL：http://www.6nn6c.com/llm-citation-mechanism/
- 日期：2025-01-18
- 摘要：ChatGPT 引用依赖 browsing 和训练语料；Perplexity 把引用作为核心产品形态，每条答案附源；豆包和文心则更倾向于闭环内容生态，外部引用权重较低。四者对应不同的 GEO 策略。

本文讨论的是 《搜索引擎工作全流程》 中的第 6 阶段：GEO 引用。
GEO 的复杂在于：不同的 LLM 引用机制差异极大。一个策略在 Perplexity 上生效，在豆包上可能完全无效。如果用&quot;做 Google SEO&quot;的心态去做所有 LLM，结果多半是——在 Perplexity 上拿到可观引用，在文心上几乎被无视，而你完全不知道为什么。
本文拆解 ChatGPT / Perplexity / 豆包 / 文心 四个引擎的引用机制，给出每一家的 GEO 策略差异，以及一套跨引擎都能用的基线打法。
分析任意 LLM 引擎的三个问题
在进入具体引擎之前，先给一个可以套在任何新 LLM 上的分析框架。每次出来一个新引擎，问这三个问题，就能大致判断它的引用机制：

内容源问题 — 引擎的回答主要来自训练语料、还是实时检索、还是自家生态的内容平台？这决定了你进入它&quot;知识库&quot;的路径。
引用形态问题 — 回答里是否强制附引用？是附链接还是只附标题？用户能不能点出去？这决定了你从引用里能拿走什么（流量、品牌、还是什么都没有）。
信号偏好问题 — 这家引擎对域名权威度、语义匹配、内容结构、时间新鲜度、还是站外信任图谱更敏感？这决定了你该往哪里使力。

下面四个引擎，每家都按这三个问题展开。
ChatGPT
机制： 训练语料纳入（截断到某一时间点）+ Browsing 实时联网。引用不是产品核心形态，仅在 web search 触发时显示源链接；默认对话多数情况下只输出文本、不附来源。
对你的影响：

训练语料中被覆盖的权威网站，即使不联网也能被 ChatGPT 在答案中复述（但通常不会明确点名你的域名）。
联网时优先命中的是&quot;语义最相关 + 权威度较高&quot;的页面，且会倾向于挑 3–5 个主源头而不是大批量引用。
引用溯源不是 ChatGPT 的产品默认行为——很多用户看到的答案里根本没有链接；这意味着你的内容被使用，但用户不知道&quot;这是从你那里学来的&quot;。

GEO 策略： 双轨并行——争取被训练语料纳入（长期目标，周期以年计，靠 /llms-full.txt 和长期内容积累），同时维护高质量可检索页面（短期目标，通过 Bing 索引进入 GPT Browse 的检索池，因为 ChatGPT 的联网底层用的是 Bing）。
Perplexity
机制： 每一次回答都实时检索 + 每个答案强制附 3–10 条引用，引用是产品的核心形态。Perplexity Pro 模式还会对同一问题做多轮检索叠加。
对你的影响：

你的页面是否被引用几乎完全取决于这一次查询下的检索命中 + 内容可切片性，与你在 Google 上的排名关系不强——Perplexity 自己有一套检索器。
权威域名 + 清晰段落结构的网站，在 Perplexity 上引用率极高；一些在 Google 上排不到前 30 的小站，能稳定出现在 Perplexity 的 top 5 引用里。
即使你的站排名很低，只要内容结构好，也能被引用——这是 Perplexity 对&quot;小网站最友好&quot;的地方，也是目前 GEO 投入回报比最高的战场。

GEO 策略： 核心战场。重点做可引用段结构（见 M7）、论断清晰、数据可验证。标题写得&quot;问句化&quot;能显著提升被匹配到 Perplexity 问答查询的概率。
豆包
机制： 字节体系内容生态为主（今日头条、抖音图文、懂车帝、今日头条问答）+ 联网增强。豆包对字节系内容有显著的路径优先权，外部站点只在生态内容覆盖不足时才被召回。
对你的影响：

站外独立网站的引用优先级明显低于平台内内容；同样一条信息，今日头条上有就优先引用头条。
对中文内容有偏好，对特定垂直领域（汽车、美食、时尚、育儿）的字节系内容引用频率尤其高。
引用溯源经常只显示&quot;来源：头条号 XX&quot;，很少引用独立域名，即使引用了也是以昵称+平台形式，而非 URL。

GEO 策略： 如果核心内容在字节生态涵盖的垂直领域，优先在对应平台分发一份同质内容（做成头条号/抖音图文），比死磕独立站被豆包引用更高效。纯独立站的豆包 ROI 低，不建议作为主战场。
文心
机制： 百度内容生态（百家号、熊掌号、百度知道、百度百科）+ 百度搜索索引。文心的 RAG 底层就是百度索引，因此你在百度上的收录质量几乎直接等于被文心引用的概率。
对你的影响：

百度索引质量直接决定被文心引用概率，甚至比 Perplexity 对 Google 的依赖更强——因为百度索引本身是闭环。
百家号与百度百科的内容权重显著高于独立网站。一条在百家号发的文章被文心引用的概率，是同样内容放独立站的 3–10 倍（我自己的粗糙样本）。
中文站点被文心引用的权重 &gt; 英文站点；跨境站必须单独准备中文版才有机会。

GEO 策略： 三件事并行——独立站本身要保证被百度充分收录（站点验证 + 提交 Sitemap）；把核心长文在百家号上也铺一份；重要术语有条件就写入百度百科词条（但百科审核门槛高，不是所有站都能做）。
四者综合对比表

维度
ChatGPT
Perplexity
豆包
文心

是否强制附引用
联网时才附
强制
偶尔
偶尔

训练语料 &gt; RAG
侧重训练
侧重 RAG
平台内容+RAG
平台内容+百度索引

引用独立站友好度
中
高
低
中

中文偏好
中
中
高
很高

英文偏好
高
高
低
低

用户能点开源站
看场景
可以
较少
较少

底层检索源
Bing
自建检索器
字节生态+联网
百度索引

其他引擎速评

Claude — 机制接近 ChatGPT，训练语料 + 受限联网。引用形态比 ChatGPT 更保守（Anthropic 的默认设置更谨慎），中文资料训练覆盖度低于 GPT-4 类模型。对英文权威站引用质量好。
DeepSeek — 以模型能力见长，默认对话不强依赖 RAG。引用形态目前较弱，GEO 回报还在观察期。
Google AI Overviews / SGE — 底层就是 Google 搜索，因此与传统 Google SEO 高度耦合；是唯一一个&quot;把 SEO 做好 = GEO 自动跟上&quot;的引擎。

跨引擎 GEO 的统一策略
即便四者机制差异大，以下几件事在四边都有用，可以作为 GEO 基线：

段落级可引用结构。 每段一个清晰断言，带可验证数据。见 M7 可引用段方法。
结构化数据。 Schema.org 基础类型（Article、FAQPage、HowTo、Person）。
持续更新。 新鲜度对所有引擎都是正信号；死站点被引用概率持续衰减。
明确的权威信号。 作者页、About 页、可溯源的引用链。LLM 对&quot;能被追责的作者&quot;的内容明显更敏感。
/llms.txt 声明。 直接告诉所有 LLM 你站点的结构和主要文章，见 M5 llms.txt 完全指南。

单点不可做的反清单
反过来，下面这些在任何一家引擎上都不会起作用，别浪费时间：

大量低质内容刷 GEO 覆盖量 — LLM 比搜索引擎更擅长识别低信息密度；一个站 80% 是注水内容，会拖垮剩下 20% 优质内容的被引用率。
伪造数据写入&quot;可引用段&quot; — 四家引擎都有跨文档一致性检查；一旦某条数据在多篇文章里互相矛盾，整个源会进低权重队列。
只在一家引擎上使力 — 单引擎依赖的风险太高；任何一次模型版本更新都可能让你的引用率归零。

监控建议
自建一套跨引擎引用追踪脚本（见 T1 Python 引用检查脚本），每日或每周采样一次。建议至少监控：

你的核心品牌词（&quot;6NN6C&quot;、&quot;你的站名&quot;）在四家引擎的回忆程度
你站点主打的 3–5 个长尾信息型查询的被引用情况
月度对比：引用源里你的域名占比变化

配套阅读

《可引用段：一种面向 LLM 的内容结构化方法》 — RAG chunk 机制的写作侧适配
《llms.txt 完全指南》 — 跨引擎都能读懂的声明格式
《GEO 是什么：生成式引擎优化与传统 SEO 的本质差异》 — 上游概念

---

## 百度与 Google 排序机制的十个差异点

- 类型：方法论
- URL：http://www.6nn6c.com/baidu-vs-google-ranking/
- 日期：2025-01-12
- 摘要：百度与 Google 在十个维度上有系统性差异：收录速度、域名权重、外链权重、内容更新偏好、内链结构、移动优先、用户行为信号、本地化、结构化数据支持、AI 答题。同一策略在两个引擎上经常反向。

本文讨论的是 §1.3 框架 中的第 3 阶段：前置排序。
目标读者： 做外贸独立站、但团队过去的 SEO 经验主要来自百度（做过国内站、混过 SEO 中文圈、熟悉熊掌号/百家号生态）的人。这类团队迁移到 Google-first 最大的风险不是&quot;不懂&quot;，而是把原来生效的直觉继续用到 Google 上——很多操作不仅无效，还会直接触发 Google 的反作弊层。
下面十个差异点按&quot;迁移时最容易踩坑&quot;的顺序排列。每一条都给出百度侧机制、Google 侧机制、以及外贸团队的迁移动作。
1. 收录速度

Google：新页面通常 1–7 天进入索引，能通过 Search Console 的 URL Inspection 手动请求；新站有一段 &quot;sandbox-like&quot; 观察期但整体透明。
百度：新站前 3 个月收录普遍缓慢，即使站长平台主动推送仍可能延迟数周；沙盒期更长更隐性。

迁移动作： 外贸站从域名注册到英文内容上线，第 1 周就应该配 GSC、提交 sitemap、保证 Googlebot 的抓取预算不被 noindex/robots 封死。不要套用百度那套&quot;前 3 个月别折腾等收录&quot;的经验——Google 是反过来，前 3 个月的抓取样本会塑造后续的信任基线。
2. 域名权重的累积方式

Google：更看外链图谱的结构——哪些权威站点链向你、它们本身是否被其它权威站点链向。
百度：老域名本身权重加成极高；新域名要通过持续高质量更新&quot;熬资历&quot;。

迁移动作： 外贸站在 Google 上买老域名不是捷径——Google 的 siteQualityScore 会跟随&quot;实际主题连续性&quot;，一个换过多次主题的老域名权重反而可能被惩罚。外贸团队常做的&quot;花 $500 买个老域名建站&quot;在 Google 上 ROI 极低。
3. 外链权重

Google：链接算法仍是核心信号（PageRank 变种 + Link Spam Update + SpamBrain 识别链接操纵模式）。
百度：2019 年前后公开下调外链权重，转而强调站内内容质量与官方生态（熊掌号 / 百家号 / 好看视频）。

迁移动作： 这是最大的迁移陷阱。国内 SEO 团队因为外链在百度&quot;不重要&quot;普遍不擅长外链建设，到了 Google 就变成严重短板——90% 外贸站 DR 低于 20 就是这个原因。对策见 《中文站在海外 Google 排名的五个结构性难题》 第 5 节。
4. 内容更新偏好

Google：识别&quot;新鲜度&quot;但不过度偏好——学术型、long-form guide 可以长期稳定排名；核心算法 Helpful Content System 看的是&quot;是否值得被用户读完&quot;。
百度：整体更偏新内容；老文章即使质量极高，若长期不更新排名也会下滑。

迁移动作： 外贸团队不要再用&quot;每天发 3 篇短文喂引擎&quot;的百度打法——在 Google 上低质高频反而触发 Helpful Content 降权。1 周 1 篇 2000 词的深度 guide，远比 1 天 3 篇 500 词的 listicle 有效。
5. 内链结构的影响

Google：内链主要影响权重分配和抓取效率；主题聚类（topic clusters）受内链影响，但不是决定性的。
百度：内链对&quot;相关性&quot;信号比 Google 更强——百度倾向用内链网络推断页面主题，锚文本一致性权重高。

迁移动作： 迁到 Google 后不需要刻意&quot;把所有长尾页都指向核心词锚文本&quot;——这种在百度有效的内链堆砌在 Google 上会被识别为 over-optimization。外贸站做 pillar page + cluster 内链即可。
6. 移动优先

Google：2021 年全面 Mobile-First Indexing。所有评估基于移动版 DOM；Core Web Vitals（LCP / INP / CLS）在移动侧的红线是真的红线。
百度：移动与 PC 仍并行两套索引。

迁移动作： 外贸团队如果服务器在国内、CDN 没海外节点，Googlebot 从美国抓移动版时 LCP 经常 &gt; 4s——这在百度完全没事，在 Google 直接被压。这一层的对策见 M4 第 2 节。
7. 用户行为信号

Google：点击率、停留时长、Pogo-Sticking（回点）直接参与排序调整；Navboost 专利已被泄露并确认。
百度：用户行为信号存在但权重偏低；对伪造点击的反制近两年才加强。

迁移动作： 外贸站不要再用国内常见的&quot;刷点击拉排名&quot;服务——Google 的 Chrome / Android 数据闭环可以识别非真实流量模式，一旦识破整站降权。标题优化的 ROI 在 Google 上远高于百度，这是少见的一个&quot;国内 SEO 直觉可以继续沿用但要加码&quot;的点。
8. 本地化

Google：全球统一算法，按语言版本 + hreflang 分发；地理信号由 gTLD / CDN / GSC 地理目标共同决定。
百度：几乎只服务中文市场；对简繁分发、海外地区访问支持弱。

迁移动作： 外贸站必须把 hreflang + x-default + 海外 CDN 配好，这是百度时代完全用不到的技能栈。
9. 结构化数据支持

Google：Schema.org 全面支持，Rich Results 种类丰富（FAQ / HowTo / Product / Review / Organization / BreadcrumbList 等）；2023 年收窄过 FAQ 显示但 Schema 本身仍是重要信号。
百度：支持有限（Organization、Article、NewsArticle 基础类型），高级类型覆盖不稳定。

迁移动作： 外贸站应该把 Schema 当成&quot;必做&quot;而非&quot;可选&quot;——特别是 Product / Review / Organization 三个节点，直接影响 AI Overview 是否引用你。
10. AI 答题 / GEO 通道

Google AI Overview：2024 年起全量推出，影响 SERP 展示；AI Mode（2025）把对话式检索变成默认入口之一。
百度 AI 搜索：文心一言接入百度搜索，2024 下半年加速，但国内 AI 流量目前仍远低于 ChatGPT + Perplexity。

迁移动作： 外贸团队的 GEO 主场是 ChatGPT / Perplexity / Claude / Google AI Overview，不是文心/豆包/Kimi。llms.txt、结构化数据、E-E-A-T 三件套就是这条通道的入场券，见 M5 和 M7。
给外贸团队的一张迁移对照表

百度时代的做法
在 Google 上的后果
替换做法

买老域名抢权重
主题不连续反被降权
新域名 + 3 个月技术基础建设

每天 3 篇 500 词短文
Helpful Content 降权
1 周 1 篇 2000 词 guide

内链堆核心词锚文本
Over-optimization 触发
pillar + cluster 自然内链

忽视外链、押熊掌号
DR 永远起不来
Guest Post + HARO + 开源

刷点击拉排名
Navboost 识破 → 整站降权
优化标题 + meta description 提升自然 CTR

只做基础 Schema
AI Overview 无法引用
Product / Review / Organization 全套

国内备案 + 国内服务器
海外 CWV 全红
海外 CDN + gTLD + GSC 地理目标

一句话结论
同一套 SEO 策略不能指望在百度和 Google 上都生效。 外贸团队从百度迁到 Google 时最大的风险不是不会做，而是把原来的直觉当成通用规律——上表里 7 条里有 5 条都是&quot;原来有效、现在有害&quot;。迁移的第一步是在脑子里把两个引擎拆开，别把它们当成&quot;搜索引擎&quot;这一个抽象概念。
配套阅读

《搜索引擎工作全流程》 — 两个引擎共享的 7 阶段框架
《中文站在海外 Google 排名的五个结构性难题》 — 本文差异点落到具体外贸场景的操作篇
《外贸独立站的 SEO 插件取舍》 — 百度时代的 SEO 工具链几乎都不适用海外
《百度专利阅读路线图》 — 了解百度机制的深度资料入口（外贸团队也值得读：学会如何逆向一个黑盒引擎的方法论对研究 Google 也有迁移价值）

---

## GEO 是什么：生成式引擎优化与传统 SEO 的本质差异

- 类型：方法论
- URL：http://www.6nn6c.com/what-is-geo/
- 日期：2025-01-08
- 摘要：GEO 的优化目标是被 LLM 在回答中引用。与 SEO 相比，GEO 的单位是段落不是页面、评估维度是论断权威性不是外链、归因是 citation 不是 click。需要独立的方法论。

本文讨论的是 《搜索引擎工作全流程》 中的第 6 阶段：GEO 引用。
先说结论：GEO 不是 SEO 的下一个版本，而是与 SEO 并行的独立通道。它们服务的是不同的用户场景、不同的评估机制、不同的转化链条。用&quot;SEO 思维做 GEO&quot;大概率会踩进三个常见误区——本文最后会展开讲。
定义
GEO（Generative Engine Optimization） —— 生成式引擎优化。目标是让生成式引擎（ChatGPT、Perplexity、文心一言、豆包、Claude、DeepSeek）在回答用户问题时引用你的内容。
这里的关键词是&quot;引用&quot;。不是&quot;搜到&quot;，不是&quot;排名&quot;，是&quot;被写进答案里&quot;。
为什么 GEO 成为独立命题
GEO 不是凭空出现的概念，是用户问答习惯改变的直接结果。2023 年之前，一个人想弄明白&quot;什么是 Core Web Vitals&quot;，他打开 Google 搜这个词，扫 SERP 前 3 个结果，点进去读完——这一路上经过了前文所说的 7 个阶段的全部环节。
2024 年之后，同一个人的行为路径变了：他打开 ChatGPT 或 Perplexity，直接问一句&quot;Core Web Vitals 是什么，对 SEO 影响多大&quot;，然后读 AI 给出的 200 字回答，结束。这段 200 字里可能引用了 3 篇文章，可能一篇都没点开。
整个第 6 阶段，就是这条新路径替换掉传统 SEO 的那部分用户流量留下的空位。你要想被新路径捕获，就必须对这条路径本身做针对性优化——这就是 GEO。
三条底层规则
规则 1：优化单位是&quot;段落&quot;，不是&quot;页面&quot;
LLM 引用的最小单位是一段可独立成立的陈述。一段 200 字的清晰段落比一篇 5000 字的散文更有机会被切出来引用。
这意味着传统的&quot;大而全长文&quot;策略在 GEO 里反而是减分——读者读完没关系，LLM 很难切。机制层的详细原因见 M7 可引用段方法 中的 RAG chunk 章节。
规则 2：评估维度是&quot;论断 + 数据&quot;，不是&quot;关键词 + 外链&quot;
LLM 评估一段内容是否值得引用的信号：

这段话说得清晰吗（论断清楚，不含糊）
有可验证的来源或数据吗
独立于上下文能成立吗（不依赖页面其他段落）
与其他权威来源的说法一致吗（跨文档一致性）

关键词密度、外链数量这些 SEO 时代的核心信号，在这里几乎不起作用。举个反例：一个堆满精准关键词但没有具体数据的页面，在 Perplexity 上的被引用率明显低于一个关键词密度一般但带真实数据的页面。
规则 3：归因是&quot;citation&quot;，不是&quot;click&quot;
SEO 的世界里，转化链条是：展示 → 点击 → 停留 → 转化。
GEO 的世界里，转化链条可能是：被引用 → 用户看到引用 → 品牌记忆 → （有时）点击 → 转化。
&quot;被引用但未点击&quot;是常态，不是例外。一次 ChatGPT 的回答如果引用了你的站点，可能有 90% 的用户读完就走了——但这 90% 里有一部分记住了你的域名，未来在别处重复看到时更容易产生信任。GEO 换走的是 click，换回的是 mention。
这意味着衡量 GEO 效果不能只看站点 PV，还要看引用次数、品牌词搜索增量、直接流量变化三个指标的组合。
GEO 与 SEO 的十个具体差异

维度
SEO
GEO

优化对象
页面
段落

关键词
显式匹配 + 语义相关
问题句式（Prompt）

权重信号
PageRank / 外链
论断密度 / 引用链

评估单位
SERP 排名
被引用概率

用户行为
点击 → 停留 → 返回
看答案 → 记住 → 有时点击

内容形态
长文、覆盖广
短段、独立成立

更新频率
按需
训练语料更新周期 + RAG 实时

评估工具
Search Console / 百度站长
本站自研工具、反查引用

防止被滥用
关键词堆砌降权
论断虚假则不被引用

地理差异
Google vs 百度
国内外 LLM 生态分化更大

十个差异中任何一个你看不明白，都意味着你还在用 SEO 思维看 GEO。
什么样的内容最容易被 LLM 引用
根据我在本站与客户站上跑了半年的观察（n=18 站点，样本不算大，仅供参考）：
容易被引用的内容特征：

每段 150–300 字，段首即论断
含数字、时间、百分比等可验证的具体数据
使用&quot;第一人称 + 具体场景&quot;（LLM 对 &quot;我在 X 做过 Y 得到 Z&quot; 型结构的引用率高于 &quot;据说 X 可以 Y&quot; 型结构）
含表格、列表等结构化内容
定义性段落（什么是 X / X 和 Y 的区别）被引用频率最高
带明确时间戳的段落（&quot;截至 2025 年 3 月&quot;、&quot;2021 年 Google Core Update 之后&quot;）

很少被引用的内容特征：

口水化的铺垫段落（&quot;说到 SEO，相信大家都知道……&quot;）
营销话术（&quot;解决方案&quot;、&quot;赋能&quot;、&quot;一站式&quot;、&quot;全方位&quot;）
过于依赖上下文才能理解的段落（含&quot;如前所述&quot;、&quot;综上所述&quot;、&quot;基于上文&quot;）
无数据支撑的主观评价（&quot;影响很大&quot;、&quot;效果不错&quot;）
重复转述其他来源内容的段落（LLM 跨文档去重机制会把这类段落权重降到最低）

GEO 对你这个站是否重要：一个判断框架
不是所有站都需要立即做 GEO。用三个问题自检：

你的流量里有多少来自&quot;信息型查询&quot;？ 如果 70% 以上是交易型（&quot;购买 X&quot;、&quot;X 报价&quot;），GEO 收益有限；如果 70% 以上是信息型（&quot;X 是什么&quot;、&quot;怎么做 X&quot;），GEO 是生死线。
你的用户画像里有多少是 ChatGPT / Perplexity 重度使用者？ 技术开发者、独立研究者、内容创作者是 LLM 使用渗透率最高的人群；传统蓝领行业反之。
你的内容能不能被&quot;断章&quot;？ 有些内容的价值依赖于整篇的叙事结构（长篇深度报道、连续剧本），这类内容天然难以切块。

三问全是&quot;是&quot;——GEO 应该成为核心投入；两个&quot;是&quot;——应该开始布局但不必梭哈；一个或零——先把 SEO 做好，GEO 保持观察。
三个常见误解
误解 1：GEO 是 SEO 的新版本，做好 SEO 就等于做好 GEO。 实际上 Perplexity 的检索器与 Google 解耦，豆包的引用源主要是字节生态，文心走百度索引——GEO 与传统 SEO 的重叠度远低于大多数人的直觉。
误解 2：GEO 主要靠 &quot;关键词塞进段首&quot; 这类 trick。 实际上 LLM 对内容质量的判断比搜索引擎更敏感，因为它要为自己的输出负责——错误引用会伤害引擎自身可信度。trick 式的写法在训练期会被过滤，在 RAG 期会被跨文档一致性降权。
误解 3：GEO 就是给 AI 爬虫开放 robots.txt、然后坐等被引用。 爬虫可达只是入场券；真正决定被引用的是内容是否具备&quot;可切片、可验证、可独立成立&quot;的结构——这一切都要在写作层面做功夫。
行动清单
如果你从今天开始做 GEO：

把每一篇现有长文拆成&quot;可引用段&quot;（方法见 Citable Block）。这是性价比最高的一步，不改内容、只改结构。
建立一份 llms.txt。跨引擎通用的声明格式，详见 M5 完全指南。
检查你的 robots.txt 是否允许 AI 爬虫。GPTBot / ClaudeBot / PerplexityBot / Google-Extended 至少要放行主要几家。
开始监控引用。见 T1 Python 引用检查脚本；哪怕只是人工在四家引擎里问同一组查询记录结果，也比什么都不做强。
在关键断言后加上可验证的数据 / 来源 / 代码。没有数据的观点写再多也切不出来。
跨引擎差异化布局。见 M3 四家引擎对比，不要把所有预算压在一家。

半年后再回看，你会看到引用曲线。如果没看到——八成是卡在了&quot;把段落改得可引用&quot;这一步上。
配套阅读

《搜索引擎工作全流程》 — 前置阅读，GEO 在整体流程中的位置
《ChatGPT、Perplexity、豆包、文心的引用机制对比》 — 四家引擎的差异化策略
《可引用段：一种面向 LLM 的内容结构化方法》 — 把内容变成可引用结构的操作方法
《llms.txt 完全指南》 — 站点级声明格式

---

## 经典 SEO 流程 vs GEO 流程：逐阶段对照表

- 类型：方法论
- URL：http://www.6nn6c.com/seo-vs-geo-flow/
- 日期：2025-01-05
- 摘要：GEO 不是 SEO 的子集，而是一条独立通道。本文逐阶段对照：爬取收录变成训练语料纳入 + RAG 实时检索；召回从网页级变为段落级；前置排序从链接权重变为论断权威性；返回展示从 SERP 列表变为答案聚合。

很多人把 GEO 当成&quot;SEO 的新版本&quot;。这是最常见的误解。
GEO 与 SEO 有相关性，但不是子集关系——很多在 SEO 里成立的规则在 GEO 里反而有害（比如关键词堆砌、外链采买、大而全长文策略）。要看清二者的差异，最有效的方法是把 《搜索引擎工作全流程》 的 7 阶段和 GEO 的对应环节放在一张表里对照，然后逐行看&quot;机制上发生了什么&quot;。
本文是 M0 的姊妹篇——M0 告诉你 7 个阶段是什么，本文告诉你每一个阶段在 GEO 里变形成了什么。
逐阶段对照

#
阶段
经典 SEO 做的事
GEO 对应环节
机制上的结构性变化

0
关键词与意图
研究 SERP 上的搜索词
研究提问句式（Prompt）
从&quot;关键词&quot;变为&quot;完整问题&quot;；搜索意图从三分类扩展到更细的语义意图，平均查询长度从 3 词涨到 15–20 词。

1
爬取与收录
被 Googlebot / Baiduspider 抓取并进入索引
被纳入训练语料 + 支持 RAG 实时检索
从单通道变双通道：既要能被模型训练时看见（通过 /llms-full.txt + AI 爬虫放行），也要能被检索系统实时召回（通过各 LLM 的专用检索器）。

2
召回
页面是否进候选结果集
语义块是否进入 RAG 检索结果
召回粒度从&quot;网页级&quot;变为&quot;段落级&quot;——一页中最可引用的那几段决定一切，整页的平均质量不再重要。

3
前置排序
数万候选挤进前 10
引用候选中选出被最终引用的几段
评分维度从&quot;外链权重 + 技术指标&quot;变为&quot;论断权威性 + 数据可验证性 + 跨文档一致性&quot;。

4
点击调权
用户行为动态调整位置
没有直接对应环节
GEO 没有&quot;点击&quot;——用户看到的是聚合答案。这一整个阶段在 GEO 中消失了，取而代之的是更慢的、基于&quot;引用质量反馈&quot;的模型迭代。

5
返回与展示
SERP 列表 + 富媒体
LLM 生成答案 + 引用归因
从&quot;列表&quot;变为&quot;答案&quot;：用户可能根本不点击原页面，归因通过 citation link 实现，用户决策已在 SERP 层完成。

6
—
—
GEO 引用本身
独立通道，不在 SEO 流程内存在；有自己独立的评估指标（引用次数 / 品牌词搜索增量 / 直接流量变化）。

每个阶段在两种流程里的&quot;失败模式&quot;对照
表格告诉你&quot;发生了什么&quot;，但站长更关心&quot;哪里会坏、怎么诊断&quot;。下面这张表把 M0 的失败模式按阶段映射到 GEO：

阶段
SEO 侧失败
GEO 侧失败

0 关键词
做高竞争短尾词
文章没有出现用户会问的&quot;完整问句&quot;

1 爬取收录
robots.txt 错屏、服务器慢
没放行 AI 爬虫、没提供 /llms-full.txt

2 召回
页面没进搜索引擎候选集
所有段落都依赖上下文，chunk 切出来是碎片

3 前置排序
外链不够、内容深度不够
论断没有数据支撑、跨文档一致性差

4 点击调权
标题 CTR 低、Pogo-sticking 严重
（不存在）取而代之：引用质量反馈周期长

5 展示
缺 Rich Snippet、元描述乱
没有 citable block / Schema.Claim 标注

6 GEO
（传统 SEO 忽略此层）
没监控被引用次数，不知道自己在哪家引擎被用

诊断一个站的 GEO 表现时，把问题对到具体阶段上——不要笼统说&quot;GEO 没做好&quot;，而应该定位到&quot;卡在第 2 阶段的 chunk 切片&quot;或&quot;卡在第 3 阶段的论断权威性&quot;。
五条结构性推论
1. GEO 的优化单位是&quot;段落&quot;，不是&quot;页面&quot;。
SEO 时代你可以靠&quot;一页十万字、覆盖所有子话题&quot;的超长文保持排名。但 LLM 引用的最小单位是语义段。本站的 可引用段方法 就是为这个差异设计的。一个老派的 10000 字深度文，在 GEO 里的表现可能不如 5 篇各 2000 字、每段都独立成立的切片文章。
2. GEO 的外链概念被&quot;被引用次数&quot;替代。
SEO 看谁链向你；GEO 看谁在回答中引用你。后者的价值不依赖链接图，而依赖答案里的 citation link 是否指向你。外链仍然有间接作用（域名权威度），但不再是核心杠杆。
3. 用户不一定到达你的站。
这是与 SEO 最大的结构性差异。用户可能在 ChatGPT 的答案里读到你段落中的内容，完全不点进你的站。流量归因因此被重塑——pv/uv 不再是唯一指标，引用次数 + 品牌词搜索增量才是 GEO 的真正 KPI。详见 M1 GEO 是什么 里的三指标组合。
4. SEO 的&quot;可操作因素&quot;列表在 GEO 里洗牌了。
M0 里列的每个阶段几十个影响因素，在 GEO 里权重发生剧变：Core Web Vitals 几乎失效（LLM 不关心页面速度），关键词密度被论断清晰度取代，外链被跨文档一致性取代，而&quot;段落独立成立&quot;这个在 SEO 里毫不重要的维度，在 GEO 里成了决定性因素。
5. GEO 的反馈周期慢于 SEO，但一旦生效就更稳定。
传统 SEO 的算法调整可能在一天内让你的排名大幅波动；GEO 的引用一旦进入训练语料，持续半年以上都在复利。这意味着 GEO 的投资回报曲线是&quot;慢启动 + 长尾&quot;，SEO 是&quot;快启动 + 陡衰减&quot;——两种工作节奏。
哪些 SEO 投入在 GEO 里是负迁移
重要但常被忽略的一面：有些 SEO 里的好习惯，在 GEO 里反而是负信号。做 GEO 前必须识别并调整：

超长文策略 → 在 GEO 里变成&quot;切不出独立段的大块噪音&quot;。要么拆成多篇，要么在长文内部用 可引用段 明确标记。
关键词密度优化 → 在 GEO 里完全无效，甚至因&quot;信息密度低&quot;被降权。把密度优化的时间换成数据补齐。
大量铺垫 + 总结段 → &quot;说到 XX，相信大家都知道……&quot;、&quot;综上所述……&quot; 这类 SEO 时代用来&quot;控制跳出率&quot;的文学结构，在 GEO 里切出来是废话。
外链采买 + 锚文本策划 → 外链权重对 GEO 影响间接且递减，预算应该转向&quot;在别人的权威答案里被引用&quot;。
模板化页面批量生成 → SEO 里靠站群和模板站还能吃到长尾流量；GEO 里跨文档一致性检查会把同源内容全部降权。

SEO → GEO 的 3 阶段迁移路径
如果你已经有一个在做 SEO 的站，想加入 GEO 通道，建议分 3 个月：
第 1 个月：基础设施。

检查并放行 AI 爬虫（GPTBot / ClaudeBot / PerplexityBot / Google-Extended / Bytespider / Baiduspider-render）
部署 /llms.txt 和 /llms-full.txt（见 M5）
给所有重要文章补 excerpt 和 _seogeo_ai_summary meta
接入跨引擎引用监控基线（见 T1 Python 引用检查脚本）

第 2 个月：内容改造。

挑 10 篇流量最高的 SEO 老文章，按 M7 的方法拆段、补数据、加限定词
新增内容默认用 &quot;可引用段&quot; 块写关键断言
为每篇文章的核心论断准备跨文档一致的数据版本（同一组数字在全站引用一致）

第 3 个月：引擎差异化。

看 M3 四家引擎对比 决定主战场
如果主战场是 Perplexity，重点做段落可切片性
如果主战场是文心，在百家号同步分发核心内容
观察 4-8 周，按引用数据复盘

站长层面的行动推论
如果你相信 GEO 是长期通道：

把每一篇长文拆成多个可独立成立的语义段
每个关键断言附可验证数据或代码
保证 AI 爬虫（GPTBot / ClaudeBot / PerplexityBot）可达
维护一份 llms.txt，明确告诉 LLM &quot;本站哪些段落值得引用&quot;
开始监控被引用次数（见 T1 Python 引用检查脚本，或手工在四家引擎里跑同一组查询记录结果）

GEO 不是一次短跑——训练语料的纳入本身就有半年以上的滞后。在 SEO 流量曲线还没反应过来之前，GEO 的引用数据就已经开始说话了。
配套阅读

《搜索引擎工作全流程》 — 本文对照的基准流程
《GEO 是什么》 — GEO 的三条底层规则
《四家 LLM 引用机制对比》 — 差异化策略
《可引用段方法》 — 段落改造操作手册
《llms.txt 完全指南》 — 第 1 阶段迁移的声明层

---

## 搜索引擎工作全流程：从关键词选择到用户点击的 7 个阶段与 200+ 影响因素

- 类型：方法论
- URL：http://www.6nn6c.com/flow-overview/
- 日期：2025-01-02
- 摘要：搜索引擎从关键词分析到最终点击共分为 7 个阶段：关键词与意图分析、爬取与收录、召回、前置排序、点击调权、返回与展示、GEO 引用。每阶段有独立的核心任务、关键影响因素与常见误区。本站内容全部围绕这 7 阶段展开。

这篇文章是本站所有内容的地基。
做 SEO 的人常常陷入一种状态：今天学关键词工具、明天学外链策略、后天学 Core Web Vitals，学了一堆技巧之后仍然说不清楚&quot;搜索引擎到底是怎么工作的&quot;。缺少一张完整的地图，所有技巧都是散点。
我把这张地图画了出来——搜索引擎从&quot;你还没建站&quot;到&quot;用户拿到答案&quot;的全链路，可以拆为 7 个阶段。每一个 SEO/GEO 问题，最后都能在这 7 个阶段的某一个里找到位置。
为什么是 7 个阶段，不是 5 个也不是 10 个。 我拆这张图的标准只有一条：每一个阶段都有自己独立的&quot;失败模式&quot;。也就是说，当你的流量没上来时，问题一定落在这 7 个阶段之一里，且不会跨阶段。阶段再细，失败模式开始重复；阶段再粗，问题的&quot;在哪一步出错&quot;会被含糊过去。7 是我反复合并、拆分、验证了几十个真实站点后剩下来的最小数量。
怎么使用这张地图。 三种方式：

新建一个站时，按 0 → 6 顺序把每一阶段的必做项走一遍，不跳步。
诊断一个现有站时，反过来走——先看你&quot;卡在哪一阶段&quot;，再决定优化动作；常见的误诊是把召回问题当排序问题治。
评估一个流量来源是否稳定时，看它依赖哪几个阶段的哪些因素；越少越稳。

第 0 阶段：关键词与意图分析
这个阶段是干什么的：
决定网站要做什么词、建什么页。这是整个流量链条的起点，不是&quot;建站第一步&quot;之前的&quot;可选动作&quot;。没有这一步就开始写内容，等于蒙着眼睛扔飞镖。
为什么先做关键词而不是先写内容。 因为搜索流量的本质是&quot;用户带着一个需求（=查询词）来找你&quot;。如果你写的内容没有对应任何一个真实的查询词，或者对应的是那种月搜索量个位数的词，后面 6 个阶段做得再好都没意义——零乘以任何数还是零。
站长视角的核心任务：
选出一组搜索量足够、竞争度可承受、与业务强相关的关键词，并为每个关键词判断搜索意图（信息型 / 导航型 / 交易型 / 商业调研型），据此决定对应的页面形态。
关键影响因素：

搜索量 — 太低的词做了没流量回报，太高的词小站做不动。对一个新站，我通常建议从月搜索量 100–1000 的词开始，这个区间是&quot;有人搜但竞争者少&quot;的窗口。
竞争度 — 不是看工具打的 KD 分数，而是直接去 SERP 前 10 看：是不是都是 DR 70+ 的老站？他们的页面有多深？有没有一两篇是&quot;写得粗糙但靠域名权威挤进来&quot;的——那就是你的切入口。
长尾词挖掘 — 主词做不动时的绕行路径；精准意图往往在长尾。一个&quot;SEO 工具&quot;做不动，但&quot;WordPress 零插件 SEO 怎么做&quot;可能完全没人做过。
搜索意图分类 — 同一个词在不同人群口中意图完全不同，页面形态也不同。&quot;React 教程&quot;可能是想学（信息型），也可能是想找一个已有的在线教程网站（导航型），搜索引擎用 SERP 的前 10 类型分布告诉你主流意图是什么——照着抄就对了。
地域性需求 — 中国用户搜&quot;苹果&quot;和美国用户搜 &quot;Apple&quot; 不是同一件事。跨语言站必须分别做关键词研究，不能直接翻译。
趋势时效性 — 有些词每年同一时段爆发（&quot;春节放假安排&quot;），有些词一次性消费（某款新品发布），这两类词的内容策略完全不同。
商业价值（CPC） — 间接反映转化潜力。没有 CPC 的词 = 没人愿意为它花钱投广告 = 可能也很难变现。
AI 对话中的等价问法 — GEO 时代的新维度。一个词在传统搜索里叫&quot;怎么给 WordPress 加结构化数据&quot;，在 ChatGPT 对话里可能直接变成&quot;我想让我的博客被 Google 的富媒体结果显示&quot;——两种表达对应不同的内容切片。

常见误解： 只看搜索量不看意图，结果把&quot;info&quot;意图的词做成&quot;交易&quot;型页面，跳出率奇高。比如&quot;什么是 GEO&quot;是纯信息型词，用户要的是定义和解释，你却给他塞了一个&quot;立即购买 GEO 服务&quot;的落地页，即使排上来也没有转化，同时高跳出率反过来拉低第 4 阶段的权重。

第 1 阶段：爬取与收录
这个阶段是干什么的：
让搜索引擎&quot;觉得值得来&quot;，并把你的页面存入它的索引库。爬取是持续进行的后台过程，不是用户搜索时才触发的。
两个独立的判定点要分开看。 一个是&quot;是否被爬到&quot;，一个是&quot;爬到了是否被收录&quot;。前者由爬虫调度决定，后者由索引质量模型决定。一个新站最常见的不是&quot;爬不到&quot;——Googlebot 基本会来——而是&quot;爬到了被直接丢弃&quot;。
站长视角的核心任务：
清除一切让爬虫&quot;不愿意来、来了抓不到、抓了不收录&quot;的障碍。
关键影响因素：

爬取预算 — 大站有限的爬虫配额优先给重要页；小站要证明每一页都值得。判断方法：Google Search Console 的&quot;抓取统计信息&quot;里看每天抓取次数和抓取响应时间。
robots.txt / noindex — 是否错误屏蔽了关键页面。错误屏蔽是新站最常见的致命伤，部署完后第一件事就是核对 robots.txt 和 &lt;meta name="robots"&gt; 输出。
服务器响应时间 — 慢的站点直接被降低爬取频率。TTFB 超过 1 秒就应该警觉了，超过 3 秒你的爬取预算会被主动削减。
Sitemap — 把新页主动告诉搜索引擎，而不是等它自己发现。大站需要分片 Sitemap，本站的 /sitemap.xml 就是分片实现。
内容独特性 — 高度重复的内容（模板化产品页、大规模机翻站）会被降级收录。Google 的&quot;Helpful Content System&quot;之后这一门槛明显抬高。
结构化数据 — Schema.org 帮助引擎理解页面类型。常见的 Article / FAQPage / BreadcrumbList / Organization / Person 几种类型优先部署。
HTTPS / 移动友好 — 基础门槛，不是加分项。没有这两项你甚至不会出现在移动端 SERP。
外部链接数量与质量 — 没有任何外部入口的新站，搜索引擎很难&quot;知道你的存在&quot;。这个问题不是 Sitemap 能替代的——因为&quot;别人愿意链接你&quot;本身就是一种质量信号。
更新频率 — 死站点爬虫来得越来越少。但也不必每天强更——稳定的月度节奏比突击式的日更更健康，因为搜索引擎学习的是你的&quot;节奏模式&quot;。
E-E-A-T — Experience / Expertise / Authoritativeness / Trust。Experience 是 2022 年新加的一个 E，强调&quot;作者有没有真的做过这件事&quot;。对独立研究者来说，把作者信息、过往工作、可核验的第三方资料接入 Author Schema 是必要项。
404 / 301 / 302 信号卫生 — 大量 404 会消耗爬取预算；应该用 301 的地方用 302 会让权重传递失败；这两项错误在迁移期尤其高发。
Canonical 一致性 — 同一内容多个 URL 指向时，canonical 必须稳定。本站 seo-output.php:52-71 的实现就是这一步的工程化。

常见误解： 以为&quot;被抓了就等于被收录&quot;。实际上从抓取到索引之间有一个判定环节，低质、重复、无价值的页面会被抓了之后直接丢弃。在 Search Console 里这会显示为 &quot;Crawled - currently not indexed&quot;，这不是 Bug，是算法的主动选择。

第 2 阶段：召回
这个阶段是干什么的：
用户搜索时，你的页面是否进入候选结果集。这个候选集 Google 可达数万到百万级，百度常被简化表述为&quot;前 760 名&quot;。
这是小网站被忽视的真正门槛。 很多小网站被收录后仍然没有排名，问题根本不在&quot;排序&quot;，而是死在召回这一步——你的页面压根没进候选集，排序规则再怎么评估都评估不到你。
怎么判断自己是不是卡在召回。 用 site:yourdomain.com 你的目标词 在搜索引擎里搜——如果搜得到，说明被收录了；再用目标词不加 site 搜，如果前 100 页都没你，而你又搜得到站内存在这篇——就是召回阶段被过滤了。这时候优化&quot;排序&quot;没用，必须回头看语义匹配和域名权威度。
召回阶段做的事。 现代搜索引擎用倒排索引 + 语义向量召回并行。前者按字面关键词匹配（传统的 TF-IDF / BM25 变种），后者把查询词和页面内容都编码成向量（BERT / MUM），按余弦相似度拉回最接近的一批。两路的并集进入下一阶段。
关键影响因素：

关键词匹配 — 标题、正文、URL 中关键词的出现与位置。标题里出现一次的权重远高于正文出现十次。
语义相关性 — BERT、MUM 这类语义模型判断的相似度，不要求精确匹配。这就是为什么 2019 年后&quot;关键词堆砌&quot;不再有效——模型看的不是词频，是语义密度。
关键词频率与分布 — 合理密度；过低（&quot;这个词在正文只出现过一次&quot;）与过高（&quot;每 50 字出现一次&quot;）都有问题。
锚文本信号 — 指向你页面的外链上用了什么词。自己给自己加的站内锚文本也算，但权重低于外站。
内容深度 — 段落数、覆盖的子话题数量。一个 300 字的页面想召回 &quot;GEO 是什么&quot; 这种宽泛查询，很难。
域名权威性 — 老域名、有持续外链的域名更容易进候选集。新站需要 3–6 个月的&quot;信任培养期&quot;。
内容新鲜度 — 对时效性查询（&quot;2025 年 GEO 现状&quot;）尤其重要；对稳定性查询（&quot;什么是 301 重定向&quot;）则几乎不影响。
查询日志学习 — 搜索引擎会把&quot;用户搜了 A 之后又搜了 B&quot;这类序列学入模型，让同一个页面能被多个等价查询召回。

常见误解： &quot;我搜我的标题都搜不到&quot;常被归因为&quot;没排名&quot;，其实是召回阶段就被过滤了。解法不是改标题，是先解决域名权威度（第 1 阶段），让页面进入候选集，再谈排序。

第 3 阶段：前置排序
这个阶段是干什么的：
从数万候选挤进前 10。这是小网站真正的主战场——因为这一阶段的静态因素权重最高，精心优化的小站页面可以超越大站的粗糙页面。
静态因素 vs 动态因素的区别。 前置排序主要用静态因素：内容本身、外链、技术指标。到了第 4 阶段才开始大量用动态信号（用户行为）。对小站来说，动态信号量太少、样本不稳定，反而是前置排序这一阶段的公平性最高——因为它看的是你能控制的东西。
关键影响因素：

PageRank 或其变体 — Google 至今仍然使用的链接权重模型，2014 年后停止对外公布分值但内部仍在用。
内容深度与 E-E-A-T — 谁写的、写得多深、可验证吗。这就是为什么 YMYL（Your Money Your Life）类内容对作者资历要求极严。
Core Web Vitals — LCP / INP / CLS 三项。对应的阈值是 LCP &lt; 2.5s、INP &lt; 200ms、CLS &lt; 0.1。
移动优先索引 — Google 从 2021 年起默认用移动版评估。意思是你 PC 端再漂亮，移动端乱就是乱。
内部链接结构 — 站内权重分配的走向。重要页面应该能从首页 2 跳内到达；孤岛页（只能从站内搜索或 Sitemap 到达）几乎拿不到权重。
外部链接质量 — 不是数量，是相关性 + 权威性。10 条来自本行业垂直站的链接，远胜于 1000 条来自综合目录站的链接。
实体识别 — 页面在讲什么人、什么公司、什么产品。Schema 标注 + 文本里的明确命名共同构成实体信号。
同义词覆盖 — 一组同义表达是否在正文里都出现过。做&quot;生成式引擎优化&quot;这个词的页面，如果全文都没出现过 GEO、LLM、AI 搜索 这几个同义说法，模型会觉得你覆盖不全。
标题与 H 标签优化 — 关键词位置、层级逻辑。H1 有且仅有一个、H2 覆盖主要子话题，这是结构要求不是美学要求。
段落可读性 — Flesch 分数、平均句长。过长的段落会被大模型认为&quot;不易摘录&quot;，影响的不仅是人类阅读体验。

常见误解： 以为&quot;写得好自然会排到前 10&quot;。排名是相对的——你的页面不是和绝对标准比，而是和前 10 的页面比。如果前 10 都是巨量外链的旧站，你仅靠内容深度很难挤进去；这时候的优化方向应该是换战场——挑一批前 10 有薄弱环节的长尾词切入。

第 4 阶段：点击调权
这个阶段是干什么的：
决定前 10 名内部的相对位置。由用户行为说了算。
为什么有这一阶段。 因为&quot;前置排序给出的前 10&quot;是算法的猜测，猜得准不准要用真实用户检验。所有主流搜索引擎都有一个在线学习环节——用你页面被点击的实际表现去微调这一页所在的词的排序。
关键影响因素：

点击率（CTR） — 相对同位置平均 CTR 的偏离。Advanced Web Ranking 的统计里，第 1 位的平均 CTR 大约是 27%，第 5 位约 6%，第 10 位约 2.4%；你在第 5 位却拿到了 10% 的 CTR，算法会认为&quot;这个页面比它的位置表现更好&quot;，有上调倾向。
标题吸引力 — 不是关键词堆砌，是&quot;用户看到它愿意点&quot;。一种实用做法：把标题当小广告写，但内容必须兑现承诺。
元描述相关性 — 元描述与搜索词的契合。即使搜索引擎经常重写元描述，你写好的仍然是最佳初始版。
停留时间（Dwell Time） — 用户点进来后停了多久。注意 Dwell Time 的定义：从点击到返回 SERP 的间隔，不等同于 Analytics 里的&quot;会话时长&quot;。
跳出率与 Pogo-Sticking — 点进来又马上退回去继续搜。Pogo-sticking 是最强的负信号——它等于用户亲口说&quot;这个页面没解决我的问题&quot;。
页面加载速度 — 慢页面在这一阶段被直接惩罚。因为慢是 Pogo-sticking 的头号原因之一。
查询意图满足度 — 用户搜完之后还要不要继续搜。如果用户搜完你这一页后当场关掉搜索框，这是极强的正信号。
点击后站内深度 — 用户是不是只看了一页就走，还是继续在站内点了 2-3 页。后者说明你的站有整体吸引力，不只是这一页。

常见误解： 试图伪造用户信号。任何&quot;机器点击&quot;、&quot;模拟停留&quot;在 2020 年后的算法面前都已失效——这不是道德问题，是无效问题。原因有三：一是搜索引擎能从浏览器指纹、IP 分布、行为轨迹识别异常；二是假点击拿不到真转化，对商业目标没帮助；三是一旦被识别，整个域名会被打入&quot;可疑&quot;名单，清洗成本极高。

第 5 阶段：返回与展示
这个阶段是干什么的：
SERP 上的最终呈现形态。同样是第 1 名，有 Featured Snippet 的位置和没有的位置，点击率差异可达数倍。
这一阶段的 ROI 往往被低估。 排名上升 1 位是很难的工程，但让同样的第 3 位长出一个 Rich Snippet、或者从纯文字变成带图 + 评分 + 价格的卡片，等价于&quot;不改动排名拿走更多点击&quot;。
关键影响因素：

排名位置对应点击率曲线 — 第 1 位的 CTR 通常是第 10 位的 10 倍以上。不同行业的曲线差异不大，但移动端整体向头部倾斜更严重。
Rich Snippets — 由正确实现的结构化数据驱动。Article / Recipe / Product / FAQ / HowTo / Review 是六种最常见的被触发类型。
Featured Snippets — 用户问题的直接答案摘录。要被抽成 FS，页面里必须有&quot;一段 40–60 字的独立句&quot;能直接回答问题；可引用段的方法论（见本站 M7 可引用陈述写法）就是对这一机制的直接适配。
图片 Alt — 进入图片搜索的门票。图片搜索带来的流量被大多数站点低估，而门槛只是加几个 Alt 文本。
本地化信号 — 包括语言、地域、商业意图信号。中文站在 Google 上呈现&quot;中文 SERP&quot;还是&quot;英文 SERP&quot;，很多时候由你的 lang 属性和 hreflang 声明决定。
个性化调整 — 登录态、历史搜索、位置的影响。同一条查询在不同用户眼中 SERP 可以完全不同。
AI Overviews / SGE 块 — 2024 年起 Google 在 SERP 顶部加入生成式摘要。这块直接分流了传统 10 蓝链的点击量，也是第 6 阶段 GEO 的主要入口之一。

常见误解： 把这一阶段看成&quot;锦上添花&quot;。其实它的 ROI 经常高于许多内容优化工作——写一篇新文章可能需要 10 小时，而给 5 篇既有文章加 FAQ Schema 只需要 1 小时，后者带来的点击提升常常更显著。

第 6 阶段：GEO 引用
这个阶段是干什么的：
与传统流程并行的新通道。你的内容能否被 ChatGPT、Perplexity、文心、豆包、Claude、DeepSeek 在回答中引用。
它不是传统 SEO 的子集。它有独立的规则：

不看排名，看论断密度。 LLM 从答案可引用性的角度挑选内容。
不看外链，看语义块可引用性。 一段可以独立成段、不依赖上下文的清晰断言，比一整篇&quot;写得很顺&quot;的散文更容易被切出来引用。
不走 SERP，走 LLM 的答案聚合。 用户可能根本不会点击源站。

两种 GEO 路径要分开优化。 一种是训练期纳入——你的内容在模型训练时被读过，将来回答相关问题时有可能直接复述你的观点。这条路周期长（以年计）、不可控、但一旦进入模型就有持续的复利。另一种是检索期命中——模型在回答问题时实时去外部检索（Perplexity、ChatGPT Browse、文心联网都是这个模式），命中你这一页并把你列入引用源。这条路周期短（以周计）、可观测（有 referer 和引用链接）、是当下最值得优化的一路。
关键影响因素：

llms.txt 声明 — 本站通过 /llms.txt 向 LLM 明确说明站点结构，并提供 /llms-full.txt 供训练期抓取全文。
可引用段结构 — 每段都可独立成立的陈述性文字。判断方法：把一段拎出来放到任意新语境里，它是否仍然表达一个完整、可验证的断言。
论断密度与数据支撑 — 每个关键断言附可验证数据或代码。&quot;根据 Advanced Web Ranking 2024 年数据，第 1 位平均 CTR 为 27%&quot; 这种句子的被引用率显著高于&quot;第 1 位点击率很高&quot;。
训练语料纳入 — 你的内容是否被模型训练时看过。判断方法之一：在模型里直接问&quot;你是否知道 XX 站&quot;——有明确回忆说明你在训练集里。
RAG 检索命中 — 实时检索时能否被检索出。这其实回到了第 2 阶段的召回，只是召回源从搜索引擎换成了 LLM 自带的检索器。
外部权威源引用溯源 — 你的内容被其他权威站点引用过，LLM 更倾向于采信。
AI 爬虫可达性 — GPTBot / ClaudeBot / PerplexityBot / Google-Extended / Bytespider 的访问是否被 robots 允许。本站默认放行主要 AI 爬虫，可在后台设置中调整。

常见误解： 把 GEO 当成&quot;SEO 的新版本&quot;。GEO 的优化目标不是点击率，而是被引用概率——这是一个完全不同的指标体系。传统 SEO 的成功标准是 &quot;我排到了前 10&quot;，GEO 的成功标准是&quot;用户在 ChatGPT 里问相关问题时，AI 提到了我的观点并附上链接&quot;。前者带流量，后者带品牌——并且未来很多信息型流量会被后者取代。

立场声明
本站内容不涉及以下任何做法，也不推荐任何读者尝试：

PV 伪造、刷点击、刷流量 — 在 2020 年后的搜索引擎与 LLM 面前基本已失效，且面临降权风险。伪造的点击无法转化为真实停留时间、无法产生真实 pogo-sticking 信号，现代算法会用&quot;CTR 反常高但 Dwell Time 异常短&quot;这类组合直接识别。
快排 — 对品牌站来说是自毁；对黑产来说赚的是短期红利，长期看对页面质量没有帮助。快排本质是对第 4 阶段的干扰，而算法的自我修正周期在缩短——一个 2015 年能维持半年的手段，2025 年可能撑不过 2 周。
站群 — 老路子，被识别的成本低于获利。域名注册信息、服务器 IP、模板相似度、内链模式、发布节奏五个维度任何一个被聚类命中都会牵连整群。
买外链 / 租链接 — Google 明确反对且有成熟的识别机制（&quot;链接出现的上下文是否相关&quot;+&quot;锚文本自然度&quot;+&quot;链出站的历史售卖行为&quot;）。
AI 大量批量生成内容不做人工编辑 — Google 的立场是&quot;看结果而不是看工具&quot;，但&quot;AI 批量生成不编辑&quot;的结果几乎总是低质，实际效果等同于主动触发 Helpful Content 降权。

原因不在于&quot;道德洁癖&quot;，而在于：

这些手段在当下的算法面前已失效或被识别；
对 LLM 引用完全没有帮助——LLM 不会因为你刷点击而引用你；
对一个以&quot;专业研究者&quot;定位的站点而言，公开提及此类手段即是品牌自毁。

一条判断原则可以兜底： 如果一种做法你不敢在会议上当着 Google 工程师、你的客户、一篇未来 5 年后仍会被读到的文章里公开谈论——就别做。

与本文配套阅读

《经典 SEO 流程 vs GEO 流程：逐阶段对照表》 — 把这 7 阶段和 GEO 的并行流程对照看
《GEO 是什么：生成式引擎优化与传统 SEO 的本质差异》 — 第 6 阶段的展开
《百度与 Google 排序机制的十个差异点》 — 把第 2–4 阶段按引擎分别看
《LLM 引用机制拆解》 — 第 6 阶段的机制层
《可引用陈述写法：让段落自己&quot;拎得出来&quot;》 — 让你的内容具备第 6 阶段所需的结构

本文会定期更新。更新日志见文末（文末由主题自动渲染&quot;最后修改日期&quot;）。


# 案例


---

## 一个被 Perplexity 引用 127 次的英文页面是如何构造的

- 类型：案例
- URL：http://www.6nn6c.com/case/perplexity-cited-page/
- 日期：2025-03-25
- 摘要：一个 B2B SaaS 的"对比 X vs Y"英文页面，3 个月被 Perplexity 引用 127 次。结构特征：每段一个论断、表格化对照、每个断言带数据来源、完整 Schema.org 标记。

案例类型： 外贸 B2B SaaS 的&quot;产品对比页&quot;——这是外贸独立站最容易被 Perplexity 引用的页面类型之一，因为海外 B2B 买家在决策阶段会高频搜索 &quot;X vs Y&quot; 类查询，Perplexity 的答案机制正好把对比页当成首选来源。
本文拆解一个真实页面的结构、段落划分、数据密度，说明为什么它成为&quot;可引用模板&quot;——并给出可以直接复用的写作清单。
这个页面

客户行业： 海外 B2B SaaS（团队协作工具类，月营收 $80k+，主要市场美国）
页面类型： &quot;X vs Y&quot; 对比页（X 是客户产品，Y 是主要竞品；双方已同意不公开具体产品名）
URL 形式： /compare/x-vs-y/
字数： 1,850 英文词
发布时间： 2024 年 11 月
3 个月内 Perplexity 引用次数： 127（用 Perplexity API + 每日 50 个相关 prompt 采样统计）
同期 ChatGPT 引用次数： 89 次
同期 Google AI Overview 出现次数： 34 次

关键背景： 页面上线前客户已经在 Google 上拿到 &quot;x vs y&quot; 这个词的第 2 位，但 Perplexity 里几乎 0 引用——也就是说，SEO 排名好 ≠ GEO 引用多。我们做的工作是把一个&quot;SEO 优秀但 GEO 空白&quot;的页面改造成两边都拿分的页面。
结构解剖
这个页面没用任何&quot;SEO 技巧&quot;，也没做付费外链。它的 GEO 引用表现完全来自结构——Schema、段落划分、论断密度——这些是 M7 可引用段落方法论 里讨论的同一套东西的实战落地。
1. 段落级论断（最关键）
共 24 段，每段平均 70 英文词（约等于中文 120 字）。每段第一句就是一个完整论断、带具体数字、能独立成立。
示例：

&quot;X charges 40% more per seat than Y, but includes native SSO that Y charges separately for at $10/seat/month.&quot;

这一句就是独立可引用的 claim——Perplexity / ChatGPT 的 RAG 检索可以直接把它整段切出来放到答案里，不需要上下文就能理解。对比改造前的段首：

&quot;When evaluating X vs Y, there are several factors to consider...&quot;（改造前）

这种 meta 表述不可引用，LLM 切出来读者看不懂&quot;所以呢&quot;。改造就是把每段的第一句都重写成&quot;带数字 + 明确断言&quot;的形式。
2. 表格化对照
核心段落是一张 3 列 × 12 行的对照表：

维度
X
Y

月费
$25/seat
$18/seat

SSO
内置
需加购 $10/seat/月

API 限额
10k/day
50k/day

数据驻留
US / EU 可选
US only

SLA
99.95%
99.9%

……

表格的引用优势：LLM 的切片器识别 Markdown / HTML table，切的时候会把整张表原样搬到答案里——这相当于一次引用带出 12 个数据点，ROI 比纯文字段落高 10 倍。
3. 每个断言附可溯源的数据来源
每一个&quot;X 比 Y 好/差&quot;的论断都带来源（官方定价页、官方文档、第三方测评），形式：

&quot;[…] (source: vendor pricing page, accessed 2024-11-15)&quot;

这让 LLM 在评估&quot;引不引用&quot;时有&quot;可信度锚点&quot;。同样的事实如果没有数据来源，LLM 倾向引用更权威的站（G2、Capterra、Reddit 讨论），你的页面就被替代了。
4. Schema.org 完整且正确

Product schema × 2（X 和 Y 各一，包含价格、特性、aggregateRating）；
FAQPage schema（8 组 Q&amp;A，每组的 question 就是长尾查询原词）；
BreadcrumbList；
Organization（发布方 + sameAs 指向 LinkedIn / Crunchbase / Trustpilot）。

外贸独立站常见错误：Schema 标的是&quot;自己想让 Google 看到的&quot;而不是&quot;页面实际内容&quot;——Perplexity 会直接用 Schema 的 structured 数据生成答案，Schema 写错就是直接误导引擎。
5. 时间与地域限定明确
每段都有类似 &quot;As of 2024 Q4&quot; / &quot;In the US market as of November 2024&quot; 的时间与地域限定。这点对外贸页面尤其重要——Perplexity 的核心焦虑是&quot;这个结论是不是过时了&quot;，带明确时间戳的段落被保留概率显著高于通用表述。
引用模式分析
3 个月内的 127 次引用中，被切片频率最高的三个段落：

开头的价格差段落 — 被引用 34 次（占 27%）
&quot;For teams of 10+&quot; 场景推荐段落 — 被引用 22 次
SSO 功能对比段落 — 被引用 18 次

这三段都符合&quot;段首论断 + 具体数字 + 明确场景&quot;模式。
被引用 0 次的段落：

最后的 &quot;Conclusion&quot; 段（综述性、不够具体）；
开头的 &quot;What is X&quot; 介绍段（过于基础，LLM 用自己的训练语料就能答）；
一段纯营销话术（&quot;X is the industry-leading...&quot;）。

推论： 一个页面里真正&quot;可引用&quot;的段落往往只有 30%–40%。外贸团队写对比页时不要试图让每段都被引用——把 3–5 个核心论断做到极致、其它段落服务阅读流畅性即可。
外贸 B2B 对比页模板
给外贸团队可以直接抄的写作清单：

选题：目标主题必须是对比型 / 选择型 / 数据型——&quot;X vs Y&quot;、&quot;Best X for [场景]&quot;、&quot;How much does X cost in 2026&quot;。纯介绍型（&quot;What is X&quot;）放弃，那类查询 LLM 用自己的训练语料就能答、不引用任何站。
分段：每段 50–80 英文词（中文 90–140 字），段首即论断，带具体数字。超过 120 词被切出概率骤降。
表格：核心对比必须表格化，至少 8 行（低于 8 行 LLM 倾向于自己生成对比表而不是引用你的）。
来源：每个数字论断附 &quot;(source: X, accessed DATE)&quot;——外贸页面尤其重要，海外买家会交叉核对。
Schema：Product + FAQPage + BreadcrumbList + Organization 四件套必须齐全，字段对应真实内容。
时间 / 地域限定：每段带 &quot;As of [year/quarter]&quot; + 目标市场（&quot;in the US&quot; / &quot;in the EU&quot; / &quot;globally&quot;）。
避免：营销话术（&quot;best-in-class&quot;、&quot;industry-leading&quot;）；过长段落（&gt; 120 词）；纯定性评价（&quot;X is better&quot; 但没量化）；过度依赖上下文的句子（&quot;As mentioned above...&quot;）。

与搜索通道的对照
值得注意的一组数字：改造前这个页面在 Google 上 &quot;x vs y&quot; 已排第 2，月 organic UV 约 1,800；改造后 3 个月 Google 排名提升到第 1（UV 2,400）、同时 Perplexity 引用从 0 涨到 127、ChatGPT 引用涨到 89、AI Overview 出现 34 次。可引用段落的改造不仅没降 SEO，反而双向提升—— 这和 M10 归因实验 的结论一致。
一个预测
3 个月到 12 个月的引用次数不会线性增长。LLM 的训练语料截断 + RAG 检索集更新都有滞后期。我会持续追踪这个页面，预计 12 个月时 Perplexity 引用次数稳定在 300–500 次/月的区间，ChatGPT 略低、AI Overview 随 Google 引用策略变动。半年后再更新本页数据。
配套阅读

《可引用段落写法：让 LLM 能&quot;原文引用&quot;的段落结构》 — 本案例背后的段落级方法论
《LLM 引用机制：ChatGPT / Perplexity / Google AI Overview 的可引用条件》 — 为什么对比页是 Perplexity 最喜欢的内容类型
《搜索流量与 AI 引用流量的归因对比实验》 — 同一套改造对 SEO + GEO 的双重影响
《llms.txt 规范解读与实操》 — 把可引用页面主动声明给 LLM

---

## 某跨境电商打通 Google SEO 与 ChatGPT 引用的改造记录

- 类型：案例
- URL：http://www.6nn6c.com/case/cross-border-ecommerce-geo/
- 日期：2025-03-20
- 摘要：一个跨境 B2C 家居电商站在 6 个月中同时做 Google SEO 与 GEO，关键动作包括产品页 Schema 重构、FAQPage 结构化、品类指南长文、llms.txt 部署。结果：Google UV +127%，ChatGPT 引用 +28 倍。

背景
客户： 一家做家居用品的跨境 B2C 独立站（主要市场：美国、英国）
规模： 50+ SKU，月 organic UV 约 8,000（合作前）
痛点：

Google 排名停滞多年，靠付费广告撑 GMV
AI 答案里几乎从不出现，客户能感觉到&quot;AI 搜家居方案时推荐的不是我们&quot;
ChatGPT 月引用 &lt; 5 次（通过自研监控脚本采样）

6 个月里做的事
第 1 个月：诊断

全站技术 SEO 审计，发现 hreflang 错 + 产品页 Schema 缺失 + 重复描述
对 30 个头部关键词跑 AI 答案采样，分析 ChatGPT / Perplexity 在这些词上引用的是谁
输出诊断报告，两条轨道并行：SEO 修复 + GEO 改造

第 2 个月：基础修复

修 hreflang（US / UK 两个英文版本规范化）
给所有产品页加上完整 Product Schema（含 offers / aggregateRating）
修重复描述（约 60% 产品页描述高度相似 → 逐个改写）
清理无价值内容页约 120 个（404 或 301 合并）

第 3 个月：内容升级

针对 8 个头部品类（e.g., &quot;standing desk&quot;, &quot;ergonomic chair&quot;）写品类指南长文，每篇 3000–5000 字
每篇指南嵌入 FAQPage Schema（10–15 组 Q&amp;A）
在品类指南里使用可引用段结构：段首即论断 + 具体数据

第 4 个月：GEO 专项

部署 llms.txt，明确声明哪些页面值得引用
把 30 组高价值 Q&amp;A 从 FAQ 页面抽出来作为独立可引用段
在产品页加入 &quot;why this product&quot; 段——段首是一个明确论断，比如 &quot;This desk's load capacity is 300 lbs, tested by X standard&quot;

第 5–6 个月：监控与微调

轻量采样脚本（见 T1）部署到客户站，追踪 15 个核心关键词
每周对比 ChatGPT / Perplexity 的引用次数
对引用率最低的关键词，单点改写对应页面的可引用段

结果（6 个月后）

指标
合作前
合作后
变化

Google organic 月 UV
8,000
18,160
+127%

ChatGPT 月引用次数
&lt;5
~140
+28 倍

Perplexity 月引用次数
~15
~210
+14 倍

&quot;不付费广告&quot; 月 GMV
$42k
$105k
+150%

关键反思
反思 1：SEO 和 GEO 的改造工作 70% 重合。
好的可引用段结构同时利好 Google 的 Featured Snippets 和 LLM 的引用。额外的 GEO 专项工作（llms.txt、可引用段标记）仅占整体工作量 10%–15%。
反思 2：产品页比品类页的 GEO 改造 ROI 更高。
LLM 在回答 &quot;哪个产品好&quot; 时，更容易切具体产品的具体规格段。品类页的&quot;综述式&quot;内容被引用概率反而更低。
反思 3：付费广告依赖下降后，利润率显著上升。
organic 流量的利润率比付费流量高 3–4 倍。GMV 增长的同时利润增长更多。
没做到的事

&quot;品牌名 + 引用&quot;这种强归因链条仍然依赖时间积累，6 个月还不够建立强品牌记忆
一些小众长尾词仍然被大站的综述型内容压制，LLM 倾向于引用 Wirecutter / NYT Wirecutter 而不是小品牌

---

## 本站首月在"GEO"一词上从 0 到百度首页的完整记录

- 类型：案例
- URL：http://www.6nn6c.com/case/this-site-geo-ranking/
- 日期：2025-03-15
- 摘要：本站上线 30 天，通过一篇 6000+ 字的 M0 全流程文章 + 11 篇配套方法论 + 内链聚类 + 百度站长主动推送，把"GEO"从无收录推到百度首页第 6 位。

背景
站点： 6NN6C.com（本站）
上线日期： 2024 年 12 月 15 日
目标词： GEO（生成式引擎优化）
当时基线： 百度完全无收录；Google 收录主页。
结果： 2025 年 1 月 14 日，&quot;GEO&quot; 一词在百度排到第 1 页第 6 位。
每周动作与数据
第 1 周（12/15–12/22）：打基础

上线时备案已完成（国内站点这一步不能省）
首批 5 篇方法论文章发布（M0 全流程总览 + M1–M4）
主动推送到百度站长平台（API 批量）
百度站长提交 sitemap
基础 SEO：title / description / canonical / 站内链接结构齐全

数据： 第 7 天百度收录 1 个 URL（首页），&quot;GEO&quot; 词无排名。
第 2 周（12/22–12/29）：扩内容 + 建内链

再发 3 篇文章（M5–M7），总计 8 篇
每篇文章与 M0 互相内链
在 M0 中以 &quot;GEO&quot;、&quot;生成式引擎优化&quot; 为锚文本的内链 ≥ 5 处
每日新文章再次主动推送

数据： 第 14 天百度收录 9 个 URL，&quot;GEO&quot;词排到百度第 8 页（约 75 位）。
第 3 周（12/29–1/5）：加速推送 + 外部信号

在 CSDN / 知乎 / 简书上各发一篇精简版文章，带站点回链（单链，不是批量外链）
给几个相关垂直领域的朋友站点做 Guest Post
再发 2 篇方法论（M8–M9）

数据： 第 21 天收录 12 个 URL，&quot;GEO&quot;词到百度第 3 页（约 25 位）。
第 4 周（1/5–1/14）：进入前 10

把 M0 标题从原先的 40 字精简到 32 字，关键词 &quot;GEO&quot; 上移到标题前 15 字内
在首页 #method 锚点段（长页面的第三段）增加 &quot;GEO&quot; 的关键词密度（从 0.8% 到 1.3%，自然行文下）
对 M0 的 Schema.org Article JSON-LD 加上 about 字段指向 &quot;GEO&quot;

数据： 第 28 天收录 15 个 URL，&quot;GEO&quot;词到百度第 1 页第 8 位。第 30 天（1 月 14 日），稳定在第 6 位。
几个反常识的观察
观察 1：百度对新站的主动推送反应极快。
之前做别的新站，同样的推送频率，百度收录通常需要 2–3 周。这次 7 天就出现第一条收录。推测差异：本站首批内容质量 + 内链密度显著高于平均。
观察 2：没有传统外链帮助下，站内主题聚类 + 主动推送足够推到前 10。
这次没有做任何付费外链，主要外部信号是 3 个第三方平台的单链 Guest Post。
观察 3：M0 全流程总览文的&quot;枢纽作用&quot;比预期大。
6000+ 字的 M0 承接了 11 篇其他文章的内链。百度在处理&quot;主题中心节点&quot;的权重分配上似乎给了额外加成。
这个案例的局限

&quot;GEO&quot;这个词在百度上的竞争度并不高（2024 年末几乎没有中文站在做专门内容），所以速度快
本站是 SEO/GEO 从业者自己做的站，E-E-A-T 信号自然比一般站高
样本只有一个词，不能作为通用方法论

截图与日志
百度站长平台截图、收录历史、关键词排名历史（站长工具版）全部保存在 /data/case-this-site-geo-ranking/ 目录下，可联系索取。


# 工具


---

## Python 批量检测网页在 ChatGPT 中的被引用情况

- 类型：工具
- URL：http://www.6nn6c.com/tool/python-chatgpt-citation-checker/
- 日期：2025-02-25
- 摘要：一个开源的 Python 脚本，用于批量检测一组关键词在 ChatGPT 中的回答里是否包含你站点的 URL 或标题。本文附完整可运行代码。

为什么外贸团队需要这个脚本
外贸独立站 2024 年以后面临的新问题：ChatGPT / Perplexity 在海外用户的日常决策里已经取代部分 Google 场景，但 GA4 上几乎看不到对应流量（见 M10 归因实验）。这意味着传统 rank tracker（Ahrefs / Semrush）监控的 Google 排名不再覆盖全部 GEO 可见度——你需要一种新工具：直接问一遍目标查询、看答案里有没有引用你的域名。
这个脚本就是&quot;GEO 通道的 rank tracker&quot;。外贸团队的典型用法：每天用 30–50 个目标买家查询跑一遍，追踪自己站在 ChatGPT 里被引用的频率与位置，作为 SEO 指标之外的第二条健康度曲线。
这个脚本做什么
给定一组英文查询（外贸站的目标关键词通常是英文）+ 一个目标域名，脚本会：

逐个查询调用 OpenAI Chat Completions API（使用 web_search 工具或 browsing 模式，若开启）
解析返回答案里的 URL，判断是否包含你的目标域名
输出 CSV 报告：查询、是否被引用、引用的 URL、引用段落、答案摘要

不复杂，但能让你第一次把 GEO 结果数字化，而不是靠手动在 ChatGPT 里问几次&quot;你知道我们吗&quot;来猜测。
依赖
pip install openai tenacity pandas tqdm
需要 OpenAI API Key：
export OPENAI_API_KEY="sk-..."
API 成本参考： gpt-4o-mini 跑 1000 个查询约 $2–5；gpt-4o 约 $20–40。外贸团队日常监控用 mini 足够，季度复盘可以用 4o 做一轮更准确的采样。
完整代码
# file: chatgpt_citation_checker.py
import os
import csv
import re
import time
from pathlib import Path
from dataclasses import dataclass, field
from typing import List, Optional

import pandas as pd
from openai import OpenAI
from tenacity import retry, stop_after_attempt, wait_exponential
from tqdm import tqdm

@dataclass
class CitationResult:
    keyword: str
    cited: bool
    cited_urls: List[str] = field(default_factory=list)
    raw_answer: str = ""

client = OpenAI()

@retry(stop=stop_after_attempt(3), wait=wait_exponential(min=1, max=10))
def ask_chatgpt(prompt: str, model: str = "gpt-4o-mini") -&gt; str:
    """调用 ChatGPT 并返回答案文本。"""
    resp = client.chat.completions.create(
        model=model,
        messages=[
            {"role": "system", "content": "You are a helpful assistant. Answer factually and include source URLs if available."},
            {"role": "user", "content": prompt},
        ],
        temperature=0.0,
    )
    return resp.choices[0].message.content or ""

URL_RE = re.compile(r"https?://[^s)]]+")

def extract_urls(text: str) -&gt; List[str]:
    return [u.rstrip(".,;)") for u in URL_RE.findall(text)]

def check_citation(keyword: str, target_domain: str) -&gt; CitationResult:
    prompt = f"Please answer this user question with sources if possible: {keyword}"
    answer = ask_chatgpt(prompt)
    urls = extract_urls(answer)
    cited_urls = [u for u in urls if target_domain in u]
    return CitationResult(
        keyword=keyword,
        cited=bool(cited_urls),
        cited_urls=cited_urls,
        raw_answer=answer,
    )

def run(keywords_csv: Path, target_domain: str, out_csv: Path):
    df = pd.read_csv(keywords_csv)
    keywords = df["keyword"].dropna().astype(str).tolist()

    rows = []
    for kw in tqdm(keywords):
        try:
            r = check_citation(kw, target_domain)
            rows.append({
                "keyword": r.keyword,
                "cited": r.cited,
                "cited_urls": "|".join(r.cited_urls),
                "answer_excerpt": r.raw_answer[:400],
            })
        except Exception as e:
            rows.append({"keyword": kw, "cited": False, "cited_urls": "", "answer_excerpt": f"ERROR: {e}"})
        time.sleep(1)  # 简单的限速

    pd.DataFrame(rows).to_csv(out_csv, index=False, encoding="utf-8-sig")
    print(f"done, {sum(r['cited'] for r in rows)}/{len(rows)} cited")

if __name__ == "__main__":
    run(
        keywords_csv=Path("keywords.csv"),
        target_domain="6nn6c.com",
        out_csv=Path("citation_report.csv"),
    )
外贸团队的示例数据
输入 keywords.csv（英文买家查询）：
keyword
best CRM for small B2B teams
X vs Y pricing comparison
how to calculate SaaS MRR
top alternatives to Notion 2026
cross-border ecommerce payment gateways
输出 citation_report.csv：
keyword,cited,cited_urls,answer_excerpt
best CRM for small B2B teams,TRUE,https://yoursite.com/post/best-crm-smb/,"Among smaller B2B teams..."
X vs Y pricing comparison,TRUE,https://yoursite.com/compare/x-vs-y/,"X charges 40% more per seat..."
how to calculate SaaS MRR,FALSE,,"MRR stands for Monthly Recurring Revenue..."
top alternatives to Notion 2026,FALSE,,"Several alternatives have gained..."
cross-border ecommerce payment gateways,TRUE,https://yoursite.com/guide/payments/,"For cross-border sellers..."
解读：3/5 引用率说明内容能被检索到；未被引用的两条（MRR 定义 / Notion 替代品）通常因为通用度过高——LLM 更倾向用自己的训练语料答，或者引用 G2 / Reddit 这类权威站。这类查询需要在页面上加独特数据点或本地化视角（见 C3 对比页案例）。
注意事项

结果不稳定： 同一查询多次调用，答案可能不同——属于 LLM 固有特性，特别是 temperature 设为 0 也无法完全消除。建议每个查询跑 3 次取引用率均值，而不是单次判定。
受模型训练截断影响： 新站前 3–6 个月在 gpt-4o 系列里的引用率天然偏低——训练语料截断 + RAG 检索集更新都有滞后期。这不是你做错了什么，是 GEO 的固有延迟。
browsing vs 纯模型差异大： 开启 web_search 工具的调用几乎等价于 Perplexity 式的实时检索，引用率与 ChatGPT 网页端更接近；不开 browsing 则主要反映训练语料里的品牌存在度。建议同一组查询两种模式都跑，分开解读。
不要用中文查询监控海外站。 海外目标市场的用户习惯用英文向 ChatGPT 提问，用中文 prompt 采样会低估你的真实 GEO 可见度。

外贸团队的扩展方向

多引擎并行： 同一组查询同时跑 ChatGPT、Perplexity（pplx-7b-online）、Claude（claude-sonnet-4-5 with tool use）、Google AI Overview（用 SerpAPI 抓取）——四家的引用分布常不同，能帮你定位&quot;在哪个引擎弱&quot;。
接入 cron 定时跑： 每日凌晨跑一次，把结果追加到 CSV 或本地数据库做日常趋势观察。
未引用查询 → 页面改造队列： 对连续 1 个月未被引用的查询，触发&quot;页面可引用度自检&quot;——对照 M7 可引用段落方法论 的 5 个反向模式改写。
对手监控： 把目标域名换成竞品域名，统计竞品被引用率——很多外贸团队发现竞品在 ChatGPT 里引用率是自己 3–5 倍，这才是真正的 GEO 差距数据。
答案位置解析： 答案里引用你的 URL 出现在第几句、在 top-3 来源的第几位——位置比&quot;是否引用&quot;更能反映权重。

从监控数据到行动：外贸团队的周节奏
拿到 CSV 之后真正的工作才开始。建议的周节奏：
周一（20 分钟）： 跑一次全量采样（30–50 个目标查询），看本周引用率与上周对比。若某个查询连续 2 周未被引用、且它在 Google 上你排前 5，这就是典型的&quot;SEO 通而 GEO 不通&quot;——把对应页面丢进改造队列。
周三（30 分钟）： 拉竞品对照。把目标域名换成 Top 3 竞品，跑同一组查询。如果竞品在 ChatGPT 里引用率是你的 3 倍以上，先别慌——通常是两个原因之一：(a) 竞品有 Wikipedia / G2 / Capterra 等第三方权威档案、(b) 竞品的页面 Schema 更完整。前者慢，后者一周可补。
周五（15 分钟）： 读 5 条被 ChatGPT 引用的原文片段——看 LLM 到底切走了你哪一段话。这是最好的&quot;什么段落有效&quot;反馈——如果发现 LLM 反复切走的是一个你随手写的数据行、而不是精心打磨的 pillar 段落，你就知道下篇文章该往哪个方向写。
月度： 把月度引用率走势做成一张图，和 Google organic UV 走势并排放——两条曲线的分叉点通常对应一次 Google Core Update 或 ChatGPT 模型更新，便于归因。
关于查询清单的设计（最被忽视的一步）
采样脚本再好，查询清单没选对就等于白跑。外贸团队常见错误是把 Google Ads / Ahrefs 导出的高流量关键词直接当成 GEO 查询——但搜索引擎的查询与用户问 LLM 的查询结构不同。
Google 上的查询更短、更关键词化：&quot;best crm smb&quot;、&quot;saas mrr formula&quot;；而用户问 ChatGPT 的查询更对话化、更具体：&quot;which CRM should I pick for a 12-person B2B sales team on $50/seat/month budget&quot;、&quot;how do I calculate MRR if I have both annual and monthly subscriptions&quot;。
建议： 查询清单按 3:7 比例——30% 是 Google 风格的短查询（看基础存在度）、70% 是对话式长查询（模拟真实用户问法）。对话式查询可以从以下来源构造：Reddit 相关 subreddit 的高赞帖子标题、Quora 的真实提问、你自家客服后台的 FAQ 原话。这些查询的 GEO 引用表现才是真正值钱的数据。
配套阅读

《搜索流量与 AI 引用流量的归因对比实验》 — 这个脚本是该实验里用的采样脚本的简化版
《LLM 引用机制》 — 理解&quot;为什么某条查询不引用你&quot;的机制原因


# 观察


---

## llms.txt 从提案到实装的一年

- 类型：观察
- URL：http://www.6nn6c.com/obs/20250401-llms-txt-one-year/
- 日期：2025-04-01

2025 年春天回头看 llms.txt，一年前的提案现在已经有约 2–3 万站部署（按 BuiltWith / Wappalyzer 的不完全抓取估算）。这个数字不大——全球站点量级以亿计——但曲线斜率明显。
几个有趣的观察：

早期采用者集中在 AI / developer 领域的小站——和 robots.txt 早年的扩散模式非常像；
Anthropic / Perplexity 明确表态会参考 llms.txt；OpenAI 态度暧昧；Google / 百度 / 豆包暂时没有官方表态；
外贸 B2B SaaS 的部署率显著高于传统外贸电商——前者的目标买家会主动查 API 文档和产品细节，后者的海外消费者更依赖 Google Shopping / Amazon；
部署和真正利用之间仍有滞后——即便部署，LLM 实际采纳需要训练周期 + RAG 索引更新周期的叠加。

对外贸团队的建议： llms.txt 现在部署的成本极低（十几行 PHP 或一个静态文件即可）、风险为 0，而 Anthropic / Perplexity 已经在用——外贸独立站没有理由不加。具体写法见 M5 llms.txt 规范解读。
我的判断：llms.txt 2026 年会进入&quot;主流可选&quot;状态（像当年的 Open Graph 一样，不强制但主流站都加上）。

---

## 豆包对中文长尾词的抓取节奏

- 类型：观察
- URL：http://www.6nn6c.com/obs/20250310-doubao-crawling-pattern/
- 日期：2025-03-10

在一个客户站（独立博客，非今日头条 / 抖音体系）做了 Bytespider 的访问日志统计。
30 天数据：

Bytespider 抓取总次数：约 1,200 次；
抓取的页面多样性：集中在首页 + sitemap 列出的前 20 个 URL；
对&quot;新发布 72 小时内&quot;的页面抓取延迟中位数：4.2 天。

对照：同一站点，Googlebot 对新页面抓取延迟中位数是 18 小时，Baiduspider 是 36 小时。
推论： 豆包对独立站新内容的&quot;纳入速度&quot;显著慢于 Google / 百度。如果你想进豆包答案，不要指望一发布就能被引用。对内容生命周期长（非时效性）的内容是好消息；对新闻、时效性强的内容是坏消息。
对外贸团队的建议： 豆包是国内 AI 引擎，纯外贸独立站基本可以忽略；但做双市场（国内 + 海外）的品牌需要记住这条 4 天延迟——发通稿 / 新品 PR 的时候不要把豆包的引用期望设得太紧。
还没有分析豆包对字节内部内容（头条、抖音文案）的抓取节奏。如果有同行做过对比数据欢迎分享。

---

## Google SGE 全量推出前后的一次对比测试

- 类型：观察
- URL：http://www.6nn6c.com/obs/20250220-google-sge-comparison/
- 日期：2025-02-20

在 10 个信息型英文关键词（&quot;how to X&quot;、&quot;best X for Y&quot;、&quot;X vs Y&quot;）上对比了 2024 年 6 月（SGE 灰度）和 2025 年 2 月（AI Overview 全量）的 SERP。
观察：

前 3 位排名站点的 CTR 整体下降 —— AI Overview 吸走了部分点击，中位数降幅约 12–18%；
第 4–10 位 CTR 变化较小，说明&quot;答案可见性&quot;和&quot;点击&quot;的关系并没有完全绑定；
被 AI Overview 引用的站点，品牌搜索量出现上升趋势（中位数 +18%，时间窗 3 周）——和 M10 归因实验 里观察到的&quot;GEO 通道推动品牌搜索&quot;一致；
&quot;X vs Y&quot; 类查询的 AI Overview 展示率最高（10 个查询里 7 个有）——对外贸对比页是直接机会。

关键推论： 传统 SEO 的&quot;前 3 名策略&quot; ROI 在下降，&quot;被 AI Overview 引用&quot;成为新的战略位置。外贸团队的内容预算分配应该从&quot;只追 Google 排名&quot;转向&quot;同时争取 AI Overview 引用 + Google top 3&quot;。
接下来打算再跑 30 个关键词做更大样本，写一篇正式文。

---

## Perplexity 引用来源多样性的一个观察

- 类型：观察
- URL：http://www.6nn6c.com/obs/20250205-perplexity-source-diversity/
- 日期：2025-02-05

在一组 20 个技术类英文查询上做了采样对比（2024 年 12 月 vs 2025 年 2 月，同样的关键词、同样的 Prompt）。这类查询在外贸 B2B SaaS / 开发者工具类独立站的买家决策路径中占比不小。
结果： 平均每个查询返回的引用来源域名数，从 2.4 上升到 3.8。头部站点（Wikipedia、MDN、Stack Overflow、GitHub）在答案中的占比从 61% 降到 44%；中小独立站的出现频率显著提升。
可能的原因：

Perplexity 主动调整了索引多样性（产品层面的决策，对抗&quot;大站垄断答案&quot;观感）；
底层 RAG 检索的 top-k 增加，给非头部结果更多机会；
对新站的冷启动权重上调；
用户反馈机制（点赞 / 踩）开始影响来源权重分配。

对外贸独立站是明确的好消息： 只要内容结构清晰、Schema 完整、段落可引用（见 M7 方法论），被 Perplexity 引用的概率在提升——过去&quot;挤不进 top 2 就没戏&quot;的场景正在改变。
样本仍然小（20 个查询），欢迎同行用自己的数据验证或反驳。

---

## 2025 Q1 百度快照机制的一个变化

- 类型：观察
- URL：http://www.6nn6c.com/obs/20250115-baidu-snapshot-change/
- 日期：2025-01-15

过去一周观察到一个小变化：百度 SERP 上的&quot;快照日期&quot;字段从大部分结果条目中消失了——只在少数结果上出现。过去习惯用快照日期判断&quot;这条是不是老内容&quot;的读者，现在要靠别的信号推断。
几个可能的解释：

实验性 UI 变更（百度过去也反复改过几次快照展示）；
快照本身的更新节奏变慢，展示没意义了；
为了减少&quot;老内容看起来过时&quot;的感觉，对 CTR 有利；
与 AI 搜索模块（文心接入）的前端融合相关——快照日期与 AI 答案的时间戳模型不一致，干脆隐藏。

对外贸团队的影响： 基本无关——外贸独立站的战场在 Google / ChatGPT / Perplexity，不在百度。这条观察对兼顾国内中文市场、或者需要监测竞品在百度上的新鲜度的团队有参考价值。
推论暂时没法做强——先记录。如果这个变化稳定保留 1 个月，会写一篇完整分析。