GEO 引用

可引用段:一种面向 LLM 的内容结构化方法

本文讨论的是 《搜索引擎工作全流程》 中的第 6 阶段:GEO 引用。

第 6 阶段的成败,不在于你写了多少字,而在于——LLM 在回答用户问题时,能不能从你的文章里"切出一段"直接塞进回答里。写得再多、说得再对,如果整篇都是散文式的连续叙述,模型切不出独立成段的断言,依然不会被引用。

本文给出可引用段的判定标准、5 种常见反模式、改造流程,以及一套可复用的 Citable Block 实现模板。

一个可引用段长什么样

看两段讲同一件事的文字:

版本 A(不可引用):
"我们在 Google 的算法更新上做过很多研究,发现一些很有意思的规律,比如说 Core Web Vitals 对排名有影响,但具体影响多少其实也挺难说的,因为每个站情况不太一样。"

版本 B(可引用):
"2021 年 Core Web Vitals 正式成为 Google 排名信号后,我在 6 个客户站上对比测试 LCP 从 3.5s 降到 1.8s 的 6 周窗口,观察到排名变动中位数为 +2.3 个位次(p50 样本,n=42 关键词)。影响量级低于预期,但在竞争紧凑的前 10 内部具有显著差异。"

差别在哪:

  • B 段首即论断("Core Web Vitals 成为排名信号后…")
  • B 附具体数据(6 个站、6 周、+2.3 位、n=42)
  • B 独立于上下文(不读前文也能理解)
  • B 使用明确的时间与地域限定词(2021 年、Google)

LLM 在切引用时,偏好 B 这样的段。A 根本不会被切出来。

为什么 LLM 偏好 B 段:RAG 的 chunk 机制

要理解"可引用段"为什么重要,要看一眼 LLM 引用内容时的底层机制。

绝大多数现代 LLM 检索系统(Perplexity、ChatGPT Browse、文心联网搜索)在抓到一个页面后做的第一件事不是"整页读完",而是把页面切成 chunks(语义块)——通常是 200–500 tokens 一块——然后把每一块单独编码成向量、单独评估相关性、单独作为候选引用源。

这个机制有两个直接后果:

  1. 你被引用的最小单位不是"文章",而是"chunk"。一整篇 6000 字的雄文如果没有一个 chunk 能独立成立,整篇都不会被引用。
  2. 上下文依赖强的段落会在切块时崩溃。"前面我们提到…"、"综上所述…"、"基于上面的分析…"——这类句子一旦离开上下文就变成无意义噪音,模型会主动降权。

B 段能被引用的本质原因:它自带一份完整的上下文——谁、什么时候、在什么条件下、观察到什么现象、现象的量级如何——这些信息全都在同一段里。切出来也是一个完整的陈述。

可引用段的五条判定标准

  • 段首即论断。 不铺垫,直接说结论。读者(或 LLM)读完第一句话就应该知道这段要说什么。
  • 数据可验证。 数字 / 时间 / 来源 / 代码,三者至少一项。"2021 年"是时间、"+2.3 位"是数字、"Google 官方公告"是来源——任何一类都行,但必须有。
  • 独立成立。 脱离上下文也能看懂。把段落复制到一张白纸上,问自己"一个陌生人读这段能明白它在说什么吗"——不能,就要重写。
  • 限定词明确。 避免"很多"、"经常"、"大部分"——说清楚多少。"影响很大"这种句子对 LLM 而言等同于没说。
  • 一段一个主张。 不要在一段里塞多个断言。一段讲两件事,等于两件事都没讲透,也都切不干净。

五种常见反模式

这些是我在给其他站做审计时反复看到的写法,每一种都会让段落失去可引用性

  1. 开头铺垫型——"说到 SEO,其实大家都知道……"。前两句是废话,真论断藏在第三句。LLM 切块时很可能从第一句切起,把废话切进去、把论断切断。
  2. 因果倒装型——"这是因为……,所以……"。"所以"之后才是结论;放到段首会更好。
  3. 引用链条型——"如前所述……"、"基于 §2 的结论……"。离开上下文即崩。
  4. 情绪填充型——"我个人觉得这其实挺重要的"。信息密度接近零,LLM 评估相关性时排在末位。
  5. 多主张混合型——一段同时讨论"算法机制"、"历史演变"和"优化建议"。每一条都没说透,切哪一块都不完整。

Citable Block 的一种实现

Gutenberg 编辑器中有一个名为"可引用段"的自定义块。使用方式:

  1. 编辑器中 "+" → "可引用段"
  2. 输入段落内容
  3. 发布

前端输出结构:

<section class="seogeo-citable" itemprop="abstract" itemscope itemtype="https://schema.org/Claim">
  <p>段落内容</p>
</section>

为什么用 schema.org/Claim:这是 Schema.org 中专门用来标注"可验证断言"的类型,相比 Article 的整段内容,Claim 明确告诉搜索引擎"这一小节是一个可以被单独核查、单独引用的主张"。对 Google 的 Fact Check 系统、以及未来 LLM 的引用溯源机制都有预留空间。

同时该段可以被主题的 JSON-LD 输出模块收集到 Article 的 hasPart 字段,让 LLM 在切语义块时有额外的结构化语义信号,不完全依赖正文解析。

改造流程:把现有长文变成可引用段组合

把一篇连续叙述改造为可引用段的最小工作流:

  1. 划段。 每段控制在 150–300 字。超过的拆开,不足的合并。
  2. 提论断到段首。 找出每段的核心断言,把它移到第一句。
  3. 补数据。 如果段中只有观点没有数据,加一条可验证的引用(数字 / 时间 / 来源任一)。没有数据的观点可以保留,但不要套 Citable Block。
  4. 加限定。 把"很多"换成"我在 X 个项目中的 Y 个观察到"、把"最近"换成"2024 年 10 月之后"。
  5. 拆混合段。 一段有两个主张就拆成两段,各自独立成立。

做完这五步,整篇文章的被引用率会显著上升(我的样本:单篇文章月度引用次数平均提升 60%–300%,n=18 篇,样本仍小,仅供参考)。

自测:这段到底可不可引用

写完之后,用三个问题自检:

  1. 盖住段落前后其他部分,只留这一段——读得懂吗? 读不懂就不独立。
  2. 这段里最关键的数字 / 时间 / 来源,我能指出至少一个吗? 指不出就不可验证。
  3. 我把这段放进 ChatGPT,问"请用一段话概括"——它给我的概括和原文是不是基本等同? 如果 AI 能用一句话复述,说明这段本身就是一个完整表述。

三条都过,这段大概率能被切出来。

警告:不要为"可引用"写空段

不要为了"可引用"写空段。 LLM 对虚假数据有识别机制——反复被核查失败的段落、其来源域名会进入低可信度队列,整站引用率随之下降。

三种典型的"自毁式可引用段":

  • 虚构精确度——没做过实验却写 "n=42"、"+2.3 位"这类精确数字。一旦被人工核查失败(比如读者质疑、同行反驳),整段信誉崩塌。
  • 引用未验证的二手来源——把别处看到的、自己没核实的数字当事实写。二手数据必须明确注明来源,否则出错时你是唯一的责任人。
  • 把结论反推成前提——先有想要的结论,再编造支撑数据。LLM 在跨文档一致性检查中很容易识别这种模式。

论断必须真诚,数据必须可验证。可引用段是放大器,写得对会放大你的可信度,写得假会放大伤害。

配套阅读