本文讨论的是 《搜索引擎工作全流程》 中的第 6 阶段:GEO 引用。
先说结论:GEO 不是 SEO 的下一个版本,而是与 SEO 并行的独立通道。它们服务的是不同的用户场景、不同的评估机制、不同的转化链条。用"SEO 思维做 GEO"大概率会踩进三个常见误区——本文最后会展开讲。
定义
GEO(Generative Engine Optimization) —— 生成式引擎优化。目标是让生成式引擎(ChatGPT、Perplexity、文心一言、豆包、Claude、DeepSeek)在回答用户问题时引用你的内容。
这里的关键词是"引用"。不是"搜到",不是"排名",是"被写进答案里"。
为什么 GEO 成为独立命题
GEO 不是凭空出现的概念,是用户问答习惯改变的直接结果。2023 年之前,一个人想弄明白"什么是 Core Web Vitals",他打开 Google 搜这个词,扫 SERP 前 3 个结果,点进去读完——这一路上经过了前文所说的 7 个阶段的全部环节。
2024 年之后,同一个人的行为路径变了:他打开 ChatGPT 或 Perplexity,直接问一句"Core Web Vitals 是什么,对 SEO 影响多大",然后读 AI 给出的 200 字回答,结束。这段 200 字里可能引用了 3 篇文章,可能一篇都没点开。
整个第 6 阶段,就是这条新路径替换掉传统 SEO 的那部分用户流量留下的空位。你要想被新路径捕获,就必须对这条路径本身做针对性优化——这就是 GEO。
三条底层规则
规则 1:优化单位是"段落",不是"页面"
LLM 引用的最小单位是一段可独立成立的陈述。一段 200 字的清晰段落比一篇 5000 字的散文更有机会被切出来引用。
这意味着传统的"大而全长文"策略在 GEO 里反而是减分——读者读完没关系,LLM 很难切。机制层的详细原因见 M7 可引用段方法 中的 RAG chunk 章节。
规则 2:评估维度是"论断 + 数据",不是"关键词 + 外链"
LLM 评估一段内容是否值得引用的信号:
- 这段话说得清晰吗(论断清楚,不含糊)
- 有可验证的来源或数据吗
- 独立于上下文能成立吗(不依赖页面其他段落)
- 与其他权威来源的说法一致吗(跨文档一致性)
关键词密度、外链数量这些 SEO 时代的核心信号,在这里几乎不起作用。举个反例:一个堆满精准关键词但没有具体数据的页面,在 Perplexity 上的被引用率明显低于一个关键词密度一般但带真实数据的页面。
规则 3:归因是"citation",不是"click"
SEO 的世界里,转化链条是:展示 → 点击 → 停留 → 转化。
GEO 的世界里,转化链条可能是:被引用 → 用户看到引用 → 品牌记忆 → (有时)点击 → 转化。
"被引用但未点击"是常态,不是例外。一次 ChatGPT 的回答如果引用了你的站点,可能有 90% 的用户读完就走了——但这 90% 里有一部分记住了你的域名,未来在别处重复看到时更容易产生信任。GEO 换走的是 click,换回的是 mention。
这意味着衡量 GEO 效果不能只看站点 PV,还要看引用次数、品牌词搜索增量、直接流量变化三个指标的组合。
GEO 与 SEO 的十个具体差异
| 维度 | SEO | GEO |
|---|---|---|
| 优化对象 | 页面 | 段落 |
| 关键词 | 显式匹配 + 语义相关 | 问题句式(Prompt) |
| 权重信号 | PageRank / 外链 | 论断密度 / 引用链 |
| 评估单位 | SERP 排名 | 被引用概率 |
| 用户行为 | 点击 → 停留 → 返回 | 看答案 → 记住 → 有时点击 |
| 内容形态 | 长文、覆盖广 | 短段、独立成立 |
| 更新频率 | 按需 | 训练语料更新周期 + RAG 实时 |
| 评估工具 | Search Console / 百度站长 | 本站自研工具、反查引用 |
| 防止被滥用 | 关键词堆砌降权 | 论断虚假则不被引用 |
| 地理差异 | Google vs 百度 | 国内外 LLM 生态分化更大 |
十个差异中任何一个你看不明白,都意味着你还在用 SEO 思维看 GEO。
什么样的内容最容易被 LLM 引用
根据我在本站与客户站上跑了半年的观察(n=18 站点,样本不算大,仅供参考):
容易被引用的内容特征:
- 每段 150–300 字,段首即论断
- 含数字、时间、百分比等可验证的具体数据
- 使用"第一人称 + 具体场景"(LLM 对 "我在 X 做过 Y 得到 Z" 型结构的引用率高于 "据说 X 可以 Y" 型结构)
- 含表格、列表等结构化内容
- 定义性段落(什么是 X / X 和 Y 的区别)被引用频率最高
- 带明确时间戳的段落("截至 2025 年 3 月"、"2021 年 Google Core Update 之后")
很少被引用的内容特征:
- 口水化的铺垫段落("说到 SEO,相信大家都知道……")
- 营销话术("解决方案"、"赋能"、"一站式"、"全方位")
- 过于依赖上下文才能理解的段落(含"如前所述"、"综上所述"、"基于上文")
- 无数据支撑的主观评价("影响很大"、"效果不错")
- 重复转述其他来源内容的段落(LLM 跨文档去重机制会把这类段落权重降到最低)
GEO 对你这个站是否重要:一个判断框架
不是所有站都需要立即做 GEO。用三个问题自检:
- 你的流量里有多少来自"信息型查询"? 如果 70% 以上是交易型("购买 X"、"X 报价"),GEO 收益有限;如果 70% 以上是信息型("X 是什么"、"怎么做 X"),GEO 是生死线。
- 你的用户画像里有多少是 ChatGPT / Perplexity 重度使用者? 技术开发者、独立研究者、内容创作者是 LLM 使用渗透率最高的人群;传统蓝领行业反之。
- 你的内容能不能被"断章"? 有些内容的价值依赖于整篇的叙事结构(长篇深度报道、连续剧本),这类内容天然难以切块。
三问全是"是"——GEO 应该成为核心投入;两个"是"——应该开始布局但不必梭哈;一个或零——先把 SEO 做好,GEO 保持观察。
三个常见误解
误解 1:GEO 是 SEO 的新版本,做好 SEO 就等于做好 GEO。 实际上 Perplexity 的检索器与 Google 解耦,豆包的引用源主要是字节生态,文心走百度索引——GEO 与传统 SEO 的重叠度远低于大多数人的直觉。
误解 2:GEO 主要靠 "关键词塞进段首" 这类 trick。 实际上 LLM 对内容质量的判断比搜索引擎更敏感,因为它要为自己的输出负责——错误引用会伤害引擎自身可信度。trick 式的写法在训练期会被过滤,在 RAG 期会被跨文档一致性降权。
误解 3:GEO 就是给 AI 爬虫开放 robots.txt、然后坐等被引用。 爬虫可达只是入场券;真正决定被引用的是内容是否具备"可切片、可验证、可独立成立"的结构——这一切都要在写作层面做功夫。
行动清单
如果你从今天开始做 GEO:
- 把每一篇现有长文拆成"可引用段"(方法见 Citable Block)。这是性价比最高的一步,不改内容、只改结构。
- 建立一份 llms.txt。跨引擎通用的声明格式,详见 M5 完全指南。
- 检查你的 robots.txt 是否允许 AI 爬虫。GPTBot / ClaudeBot / PerplexityBot / Google-Extended 至少要放行主要几家。
- 开始监控引用。见 T1 Python 引用检查脚本;哪怕只是人工在四家引擎里问同一组查询记录结果,也比什么都不做强。
- 在关键断言后加上可验证的数据 / 来源 / 代码。没有数据的观点写再多也切不出来。
- 跨引擎差异化布局。见 M3 四家引擎对比,不要把所有预算压在一家。
半年后再回看,你会看到引用曲线。如果没看到——八成是卡在了"把段落改得可引用"这一步上。
配套阅读
- 《搜索引擎工作全流程》 — 前置阅读,GEO 在整体流程中的位置
- 《ChatGPT、Perplexity、豆包、文心的引用机制对比》 — 四家引擎的差异化策略
- 《可引用段:一种面向 LLM 的内容结构化方法》 — 把内容变成可引用结构的操作方法
- 《llms.txt 完全指南》 — 站点级声明格式