SEO 与 GEO 不是"学完就会"的东西。搜索引擎和生成式引擎的规则在持续变化,任何"一次性课程"都会过期。这一页提供两种学习方式的索引——如果你希望系统性从零到精进,按深度路径(三阶段)读下去;如果你带着具体问题来(比如想搞懂召回、或者想突破 GEO 引用),按广度路径(7 阶段流程)点对应的模块。
这不是一份教程,而是一份索引。每个条目你需要自己去读、自己去试、自己去做出东西。如果你期望有人把知识"喂"给你,这个行业不适合你。
广度路径:按搜索引擎流程学(7 阶段)
页面顶部的互动式学习地图直接对应下面这 7 个阶段。点击任一阶段可以查看该阶段的定义、关键影响因素清单、本站相关文章。7 阶段的总览见《搜索引擎工作全流程》 这篇基础文。
- 第 0 阶段:关键词与意图分析 — 流量的真正起点,不是建站。
- 第 1 阶段:爬取与收录 — 让搜索引擎"觉得值得来"。
- 第 2 阶段:召回 — 进候选集的隐形门槛。
- 第 3 阶段:前置排序 — 小网站最有机会翻盘的战场。
- 第 4 阶段:点击调权 — 用户行为的反馈回路。
- 第 5 阶段:返回与展示 — SERP 呈现形式的优化。
- 第 6 阶段:GEO 引用 — 与传统流程并行的新通道。
深度路径:按能力层次学(三阶段)
如果你完全是新手,按下面三个阶段的顺序往下走。
第一阶段:打地基
为什么要做这一步:
所有后续操作都建立在"你到底理解搜索引擎和 LLM 是怎么回事"之上。很多人跳过这一步直接去学各种"技巧",结果是记住了结论但不知道结论为什么成立——遇到新情况就完全束手无策。这个阶段的目标很简单:把这两类引擎的基本机制、官方规则、学术背景彻底搞清楚,哪怕只是读懂,不需要会做。
做完这一步的标志:你能用自己的话说清楚"百度为什么会把某个页面排在前面"、"ChatGPT 为什么会引用某个网站",不依赖任何二手教程的话术。
建议阅读材料:
搜索引擎官方文档
- 百度搜索资源平台:https://ziyuan.baidu.com/college
- Google Search Central:https://developers.google.com/search/docs
- 必应网站管理员指南:https://www.bing.com/webmasters/help/webmaster-guidelines-30fba23a
生成式引擎的官方声明
- OpenAI 的 GPTBot 与网站交互说明
- Anthropic ClaudeBot 爬虫政策
- Perplexity 引用与归因机制官方文档
- 字节 Bytespider 的爬虫声明
搜索引擎原理(书籍)
- 《走进搜索引擎》 — 偏工程侧
- 《这就是搜索引擎:核心技术详解》 — 偏算法侧
- 《信息检索导论》(IR 教材)— 偏学术侧,可选读
LLM 基础认知(论文/文档)
- "Attention Is All You Need"(Transformer 原论文)
- RAG(检索增强生成)相关综述
- 本站方法论文章:《GEO 是什么:生成式引擎优化与传统 SEO 的本质差异》
- 本站方法论文章:《ChatGPT、Perplexity、豆包、文心的引用机制对比》
第二阶段:进工具
为什么要做这一步:
只靠读文档没法做 SEO/GEO。这行的核心工作是"从海量数据中找规律"——关键词数据、排名数据、流量数据、AI 引用数据。没有代码能力你只能用别人做好的工具,而别人的工具永远落后于行业前沿。这个阶段的目标是让你能自己写脚本、调 API、抓数据、做分析,哪怕写得不优雅也没关系。
做完这一步的标志:遇到任何"我想知道 X"的问题,你能在半天内写出一个脚本把答案跑出来,而不是去找现成工具。
建议阅读材料:
Python 入门(推荐路径)
- 廖雪峰的 Python 教程(中文,基础扎实)
- 《Python 数据分析实战》— 偏数据向
- 只学你要用的,不要系统学完再动手
数据分析基础
- Pandas 官方文档
- Matplotlib / Seaborn 基础
- 统计学最小闭环:均值、中位数、方差、相关系数、显著性检验
API 调用
- OpenAI API 文档
- Perplexity API 文档
- 百度站长 API(推送、索引查询)
- Google Search Console API
- 豆包、文心、DeepSeek 各自的开放平台
网页抓取
- requests / httpx
- BeautifulSoup / lxml
- Playwright(处理 JS 渲染)
本站提供的实战脚本
- 《Python 批量检测网页在 ChatGPT 中的被引用情况》
- 《GEO 监控仪表盘:开源版说明书》
第三阶段:上深水区
为什么要做这一步:
前两个阶段做完,你已经比大部分从业者强了——但离"能做出别人做不出的结果"还差一段距离。搜索引擎和 LLM 的核心规则从未公开,所有顶级从业者都是通过反向推理从大量数据中推断规则。这个阶段的目标是让你具备做这种推理的能力:你能从一组奇怪的排名现象中推断出某个隐藏规则,从一次 AI 回答中反推它的引用偏好。
做完这一步的标志:你开始发现一些"行业里没人讨论过"的规律,并且能用数据证明它们。
建议阅读材料:
搜索引擎核心专利
- 百度专利检索(国家知识产权局):早期申请人为李彦宏、姚旭等的基础架构专利 + 近三年的语义检索、深度学习相关专利
- Google 公开专利:PageRank、Hummingbird、BERT、MUM 相关
机器学习基础
- 《统计学习方法》(李航)— 中文,偏理论
- 吴恩达 Coursera 机器学习课 — 英文,偏实操
- 深度学习入门:《深度学习入门:基于 Python 的理论与实现》
LLM 内部机制
- RAG 综述论文
- LLM 幻觉与引用归因相关研究
- Anthropic 的可解释性研究(Circuits 系列文章)
溯因推理与因果推断
- 《穆勒五法》相关介绍(逻辑学基础)
- 《The Book of Why》(Judea Pearl,因果推断入门)
- 机器学习天生缺陷:特征穿越、因果倒置、过拟合
一些关于学习的话
不要追求"学完"。
这个领域没有"学完"的那一天。任何试图把 SEO/GEO 学习做成"有限任务清单"的人,都会在半年后发现清单过期了。
不要收藏,要做东西。
收藏文章是最没用的行为。看完任何一篇文章,要立刻做一件能验证它的事情——哪怕是用自己的一个小站做测试。收藏 100 篇不如做一个。
不要迷信任何"大神"。
包括我在内。所有人都有知识盲区,所有人都会犯错。对所有信息都应当自己去验证。
注意信息时效。
搜索引擎和 LLM 每年都在变。2020 年的结论在 2025 年可能已经完全反过来。任何建议都应当标注时间,读任何文章都应当看发布日期。