学习路径

点击任一阶段查看定义、关键影响因素与相关文章。

SEO 与 GEO 不是"学完就会"的东西。搜索引擎和生成式引擎的规则在持续变化,任何"一次性课程"都会过期。这一页提供两种学习方式的索引——如果你希望系统性从零到精进,按深度路径(三阶段)读下去;如果你带着具体问题来(比如想搞懂召回、或者想突破 GEO 引用),按广度路径(7 阶段流程)点对应的模块。

这不是一份教程,而是一份索引。每个条目你需要自己去读、自己去试、自己去做出东西。如果你期望有人把知识"喂"给你,这个行业不适合你。


广度路径:按搜索引擎流程学(7 阶段)

页面顶部的互动式学习地图直接对应下面这 7 个阶段。点击任一阶段可以查看该阶段的定义、关键影响因素清单、本站相关文章。7 阶段的总览见《搜索引擎工作全流程》 这篇基础文。

  • 第 0 阶段:关键词与意图分析 — 流量的真正起点,不是建站。
  • 第 1 阶段:爬取与收录 — 让搜索引擎"觉得值得来"。
  • 第 2 阶段:召回 — 进候选集的隐形门槛。
  • 第 3 阶段:前置排序 — 小网站最有机会翻盘的战场。
  • 第 4 阶段:点击调权 — 用户行为的反馈回路。
  • 第 5 阶段:返回与展示 — SERP 呈现形式的优化。
  • 第 6 阶段:GEO 引用 — 与传统流程并行的新通道。

深度路径:按能力层次学(三阶段)

如果你完全是新手,按下面三个阶段的顺序往下走。

第一阶段:打地基

为什么要做这一步:
所有后续操作都建立在"你到底理解搜索引擎和 LLM 是怎么回事"之上。很多人跳过这一步直接去学各种"技巧",结果是记住了结论但不知道结论为什么成立——遇到新情况就完全束手无策。这个阶段的目标很简单:把这两类引擎的基本机制、官方规则、学术背景彻底搞清楚,哪怕只是读懂,不需要会做。

做完这一步的标志:你能用自己的话说清楚"百度为什么会把某个页面排在前面"、"ChatGPT 为什么会引用某个网站",不依赖任何二手教程的话术。

建议阅读材料:

搜索引擎官方文档

生成式引擎的官方声明

  • OpenAI 的 GPTBot 与网站交互说明
  • Anthropic ClaudeBot 爬虫政策
  • Perplexity 引用与归因机制官方文档
  • 字节 Bytespider 的爬虫声明

搜索引擎原理(书籍)

  • 《走进搜索引擎》 — 偏工程侧
  • 《这就是搜索引擎:核心技术详解》 — 偏算法侧
  • 《信息检索导论》(IR 教材)— 偏学术侧,可选读

LLM 基础认知(论文/文档)

  • "Attention Is All You Need"(Transformer 原论文)
  • RAG(检索增强生成)相关综述
  • 本站方法论文章:《GEO 是什么:生成式引擎优化与传统 SEO 的本质差异》
  • 本站方法论文章:《ChatGPT、Perplexity、豆包、文心的引用机制对比》

第二阶段:进工具

为什么要做这一步:
只靠读文档没法做 SEO/GEO。这行的核心工作是"从海量数据中找规律"——关键词数据、排名数据、流量数据、AI 引用数据。没有代码能力你只能用别人做好的工具,而别人的工具永远落后于行业前沿。这个阶段的目标是让你能自己写脚本、调 API、抓数据、做分析,哪怕写得不优雅也没关系。

做完这一步的标志:遇到任何"我想知道 X"的问题,你能在半天内写出一个脚本把答案跑出来,而不是去找现成工具。

建议阅读材料:

Python 入门(推荐路径)

  • 廖雪峰的 Python 教程(中文,基础扎实)
  • 《Python 数据分析实战》— 偏数据向
  • 只学你要用的,不要系统学完再动手

数据分析基础

  • Pandas 官方文档
  • Matplotlib / Seaborn 基础
  • 统计学最小闭环:均值、中位数、方差、相关系数、显著性检验

API 调用

  • OpenAI API 文档
  • Perplexity API 文档
  • 百度站长 API(推送、索引查询)
  • Google Search Console API
  • 豆包、文心、DeepSeek 各自的开放平台

网页抓取

  • requests / httpx
  • BeautifulSoup / lxml
  • Playwright(处理 JS 渲染)

本站提供的实战脚本

  • 《Python 批量检测网页在 ChatGPT 中的被引用情况》
  • 《GEO 监控仪表盘:开源版说明书》

第三阶段:上深水区

为什么要做这一步:
前两个阶段做完,你已经比大部分从业者强了——但离"能做出别人做不出的结果"还差一段距离。搜索引擎和 LLM 的核心规则从未公开,所有顶级从业者都是通过反向推理从大量数据中推断规则。这个阶段的目标是让你具备做这种推理的能力:你能从一组奇怪的排名现象中推断出某个隐藏规则,从一次 AI 回答中反推它的引用偏好。

做完这一步的标志:你开始发现一些"行业里没人讨论过"的规律,并且能用数据证明它们。

建议阅读材料:

搜索引擎核心专利

  • 百度专利检索(国家知识产权局):早期申请人为李彦宏、姚旭等的基础架构专利 + 近三年的语义检索、深度学习相关专利
  • Google 公开专利:PageRank、Hummingbird、BERT、MUM 相关

机器学习基础

  • 《统计学习方法》(李航)— 中文,偏理论
  • 吴恩达 Coursera 机器学习课 — 英文,偏实操
  • 深度学习入门:《深度学习入门:基于 Python 的理论与实现》

LLM 内部机制

  • RAG 综述论文
  • LLM 幻觉与引用归因相关研究
  • Anthropic 的可解释性研究(Circuits 系列文章)

溯因推理与因果推断

  • 《穆勒五法》相关介绍(逻辑学基础)
  • 《The Book of Why》(Judea Pearl,因果推断入门)
  • 机器学习天生缺陷:特征穿越、因果倒置、过拟合

一些关于学习的话

不要追求"学完"。
这个领域没有"学完"的那一天。任何试图把 SEO/GEO 学习做成"有限任务清单"的人,都会在半年后发现清单过期了。

不要收藏,要做东西。
收藏文章是最没用的行为。看完任何一篇文章,要立刻做一件能验证它的事情——哪怕是用自己的一个小站做测试。收藏 100 篇不如做一个。

不要迷信任何"大神"。
包括我在内。所有人都有知识盲区,所有人都会犯错。对所有信息都应当自己去验证。

注意信息时效。
搜索引擎和 LLM 每年都在变。2020 年的结论在 2025 年可能已经完全反过来。任何建议都应当标注时间,读任何文章都应当看发布日期。