看清与坚持：普通人学 AI 的建议路径

5 层栈 + 1 个栽树习惯 · 写给用过 AI 一阵子、但又说不清差在哪的普通人

你可能用过 ChatGPT、Claude、DeepSeek 一阵子了。写周报、查资料、起草邮件——你发现 AI 比搜索引擎好用。但用着用着你总觉得哪里不对劲——该快的不快、该深的不深、该准的不准。你隐约觉得不是 AI 不够强，是你自己用 AI 的方式没到位。

这篇文章是写给你的。

不是工具评测，不是 prompt 教程，不是卖课的。是给你一张地图，让你看清楚自己缺什么、每天该坚持什么。

地图只有两条线：一条叫"栈"（看清自己缺哪层），一条叫"树"（每天该坚持什么习惯）。栈是横向的，树是纵向的。栈让你知道自己在哪里，树让你每天往前走一步。 这两条线合起来，是普通人学 AI 的完整路径。

一、先说 3 个最常见的坑

不管你用 AI 多久了，先看这 3 个坑。90% 的"用了 AI 但用得不对"都能在这 3 个坑里找到。

坑 1 · 把 AI 当搜索框。 问一句，AI 答，你看了，关掉。下次再开，再问，再关。这像你请了全世界最聪明的人当助理，但只让他帮你查字典。Stanford 2024 年发的 STORM 方法论早就说过——单 prompt 给你的是主流观点，看不到 5 个视角的拉扯。"5 分钟能做完的事，被人读 3 天"——不是 AI 不行，是你的用法让它只能跑 5 分钟。

坑 2 · 把判断交给 AI。 让 AI 帮你选股票、帮你挑方案、帮你决定要不要辞职。看上去很合理——它是"更聪明的那个"，为什么不让它做判断？但它不是"更聪明的那个"。它是"读过更多东西的那个"。 读过 100 本书的人不一定会做判断。做判断需要知道你自己的处境、你要什么、什么代价你能承受——这三件事 AI 一件也不知道。让 AI 做判断就像让一个把所有菜谱背下来的机器人帮你选晚餐——它知道每道菜的配方，但它不知道你今天胃不舒服。

坑 3 · 觉得 AI 是一样东西。 AI 不是一个工具，是一套栈。哲学底座 / 研究方法 / 工具架构 / 知识管理 / 视觉工作流——5 层。多数人只看到 ChatGPT 那个聊天窗口，所以永远停在"问了、看了、关了"。 这是最大的坑——你以为你买的是 AI，其实你买的是栈的最顶上那一点。水下的 4 层你没用过。

3 个坑的共同根源：把 AI 当"一个东西"，而不是一套"完整栈 + 一个长期习惯"。 这两个词——栈和习惯——是后面整篇文章的两条主线。

二、AI 工具栈 5 层（看清自己缺哪层）

栈这个东西听起来很技术，其实不复杂。想象你盖房子：5 层从地基到屋顶，缺哪层楼都盖不稳。 你用的 AI 工具栈也一样。

第 1 层 · 哲学底座（地基）。 你用 AI 之前要先想清楚一件事——AI 答"是什么"（信息/事实/执行），人答"为什么"和"怎么样"（判断/意义/方向）。没有这层，下面 4 层再花哨都是给 AI 当执行终端。 这一层不靠工具，靠一句话："我永远站在系统之外。" 每天念一遍。

第 2 层 · 研究方法（承重墙）。 单 prompt 永远不够。下次重要决策（投资 / 求职 / 商业判断），自己当 5 个人问 5 个问题——practitioner / skeptic / economist / historian / academic，找矛盾，再综合。这层靠思维不靠工具。Stanford STORM 2024 年的研究：多视角写出来的文章，结构化高 25%，覆盖面广 10%。

第 3 层 · 工具架构（房间布局）。 用 Claude Code / Cursor 这些 Coding Agent 时，CLAUDE.md 约束 + Skills 工作流 + Hooks 强制 + Subagents 隔离。只强化一层系统就失衡——把 CLAUDE.md 写太长，上下文先污染自己。这层是给"用 AI 写代码 / 自动化流程"的人看的，不写代码的人可以跳过。

第 4 层 · 知识管理（家具摆放）。 Obsidian + AI Agent 的组合不是让 AI 帮你写笔记，是让 AI 帮你读、搜、建、维护、整理 frontmatter、做网页剪藏。知识库用久了最常见的问题不是"没资料"，是"文件名乱 + 链接断 + 结构混乱"——AI 没法稳定读取。知识管理这层的关键不是工具，是"能不能让 AI 找到你半年前写的东西"。

第 5 层 · 视觉工作流（墙面装修）。 设计系统从"静态 token"升级到"可执行 prompt 资产"。高级感不来自字体/排版/特效，来自空间/秩序/留白/色彩 4 个底层。这层是给创作者的——把艺术家视觉逻辑反向工程成可复用 prompt（极简公共空间 + 几何构图 + 少量人物 + 克制配色 + 巨型标题 = 杂志封面感）。不创作的人可以跳过。

5 层中只有第 1 层（哲学）和第 2 层（研究方法）是核心，第 3-5 层是支撑。普通人学 AI，先把第 1+2 层立住，再补 3-5 层。 这是栈给你的核心判断——看清自己缺哪层，比追新工具重要 10 倍。

三、栽树 vs 买家具（每天该坚持什么）

栈告诉你"在哪里"。但光看清没用，得每天往前走一步。这一步就是"习惯"——我把它叫做栽树。

买家具的逻辑：我需要一个东西 → 我去买一个东西 → 放在家里 → 它发挥功能。今天买，今天用。

栽树的逻辑：我今天挖个坑，浇水。明天什么变化都没有。一周后，什么变化都没有。一个月后，土里冒出一点绿。一年后，树苗到膝盖。三年后，树荫可以乘凉。

学 AI 是栽树，不是买家具。 你今天跟它聊了一个问题，聊了五轮。它不是给你一个答案，是陪你一起想。你把这次聊天记在笔记里。你下次遇到类似的问题，你先去翻上次聊了什么，再重新开一轮。慢慢地，你发现你跟 AI 之间有了一种"默契"——它知道你喜欢什么表达方式，它知道你容易忽略哪些角度，它会在你说"总觉得哪里不对"的时候，给你列出三个可能的问题。

这不是 AI 变聪明了。是你的土里长出了根。

栽树的反面是每天换工具。今天 ChatGPT，明天 Claude，下个月国产新模型。换工具是买家具——你换到 GPT-5 了，根还是在 OpenAI 那家公司手里，不在你手里。 真正的根是你思考的方式、你把思考记下来的习惯、你把自己的生活分成"判断"和"执行"两层的那种感觉。这些东西不依赖任何具体工具。

栈是横向的，树是纵向的。栈决定你能看到什么，树决定你能坚持多久。

四、3 个真实的项目（怎么把栈和树跑起来）

讲完了栈和树的"理论地图"，回到实操。下面 3 个项目是我手上真实在跑的，分别对应"学 AI / 用 AI / 理解 AI" 3 件事。不写代码也能看懂，关键是看它怎么把栈跑在真实项目里。

项目 1 · blog 发布自动化流水线 = 怎么"学 AI"。

写完一篇 blog → 存到 Obsidian → launchd 每 10 分钟跑一个 publish-pipeline.js 脚本 → 同步到博客项目 → npm run build → git push → Cloudflare Pages 自动部署上线到 blog.eviso.cc .

这套流水线的真正价值不是"自动发布"——是它把"草稿"和"发布"分成两件事。 在 Obsidian 里专心写，写完设 draft: true，审完改 draft: false，剩下的（同步、构建、推送、部署）全部由流水线跑。AI 时代普通人用 AI 的第一个动作是"把自己的工作流分两层"——上层是判断（写什么 / 改不改），下层是执行（同步 / 部署）。让 AI 跑下层，人只跑上层。

踩过的坑：原 sync-from-obsidian.js 源路径错指向一个不存在的目录；frontmatter 嵌套引号没转义，标题变 "Untitled"。这 3 个坑都是工程细节——但没工程细节，AI 写得再好也上不了线。

项目 2 · InsightFlow 2.0 = 怎么"用 AI"。

InsightFlow 是商业调研报告生成平台，跑了 6 个月。AI 帮你写一份调研报告的初稿很容易，但报告能不能上线、能不能部署、能不能扛住 401 递归攻击、能不能在用户搜索时 icon 不重叠——这些全是 AI 写完之后你得自己补的工程细节。 InsightFlow 的 5 个 bug 全是"AI 写出来的代码，工程上没封口"。AI 帮不了"封口"，封口是人的活。

项目 3 · 王胖子看病 2.0 = 怎么"理解 AI"。

中医 AI 辨证系统，三维并参：体层（八字 / 推先天偏衰脏腑）+ 病层（中医 RAG 双源 FTS5）+ 用层（奇门遁甲 / 排病因病势调摄）。这个系统里 AI 只负责最后一步——把前面的分析结果组织成一段人话。前面几步全是结构化系统做的：排天干地支 → 推五行 → 映射到脏腑 → 出调养建议。

AI 不是这个系统的大脑——是这个系统的嘴。前面 4 步的结构化推理才是大脑。 这个项目告诉我：AI 时代的"理解"不是"懂它怎么工作"，是"懂它怎么跟人协作"。 AI 帮你搜、帮你排，但"这些数据里哪条是关键矛盾的信号"——这个问题 AI 答不好。

3 个项目合起来：blog 流水线对应栈的第 4 层（知识管理 + 工作流），InsightFlow 对应栈的第 3 层（工具架构 + 工程闭环），王胖子看病对应栈的第 1 层（哲学底座 + AI 不是大脑是嘴）。 3 个项目 = 栈的 3 层实操证据。

五、3 个动作（今天就能开始）

栈和树看完，最关键的问题是：今天你能做什么？ 答案是 3 个动作。

动作 1 · 把"自己"立住。 你永远是判断者，AI 是执行者。 具体动作：每天问自己一次"今天 AI 帮我做了什么是我本来就会做的？"——如果 100% 是，主体性在；如果 80% 是判断层，主体性在空心化。这一步不需要任何工具，只需要"我永远站在系统之外"这句话反复念。

动作 2 · 把"对话"立住。 单 prompt 永远不够。 具体动作：下次用 AI 不要只问一次——追着它问。第一句回答追问至少三次：

第一次追问："你能给我一个反例吗？"
第二次追问："你刚才说的那个点，能再展开一下吗？"
第三次追问："如果我换一个角度——假设你说的第二个点是错的——结论会变吗？"

你会发现——第一句回答和第二句追问之间的质量差距，通常比"好问题和差问题"之间的差距还大。 而第三句追问经常能挖出第一句回答里根本没提到的东西。

动作 3 · 把"工程闭环"立住。 AI 写的不是成品，是半成品。 具体动作：每次用 AI 写完东西（报告 / 代码 / 邮件），留 30% 时间做"封口"——改格式 / 修 bug / 加监控 / 跑回归。这一步靠的是对工程细节的耐心——这恰恰是 AI 帮不了你的。

3 个动作合起来，道是判断（不空心），术是追问（5 视角），势是封口（工程闭环）。道术势三件齐了，AI 时代的"普通人"就不再是"被替代的普通人"，而是"用 AI 放大判断的普通人"。

六、工具组合 + API 起步 + 任务流模板（落到具体工具上）

栈和树看清了，最实际的问题是：我要装什么软件？买什么 API？跑什么任务流？ 这一节是给"理念看懂了，但不知道怎么动手"的读者。

6.1 起步工具组合（4 件套就够）

新手阶段不要超过 4 件套，多了装不动：

第 1 件 · 笔记系统（栈的第 4 层） — Obsidian。任何支持本地 markdown 的笔记软件都可以（Logseq / Tana / Notion 也行）。关键是"你的，不是 AI 的"——你写的东西能本地导出、能全文搜索、能被脚本读取。Obsidian 是首选因为它 + AI Agent 的组合最稳。

第 2 件 · 深度对话模型（栈的第 1+2 层） — GLM5.2。原因：长上下文（1M tokens）、推理稳定、不容易"装懂"。日常对话、5 视角追问、重要决策都用它。

第 3 件 · 快速验证模型（栈的第 2 层） — DeepSeek。原因：便宜（比 Claude 便宜 20-30 倍）、中文好、推理也不错。日常反例搜索、想法碰撞、批量处理、写文章用它。

第 4 件 · 自动化脚本（栈的第 3 层） — Hermes Agent + 终端 + Node.js 或 Python。不需要你写代码——你只需要做一件事：把你每天重复做的步骤写下来，发给 Hermes Agent，让它帮你变成一个可以自动跑的脚本并且执行。这是栈第 3 层（工具架构）的入口。

4 件套配齐 = 栈的 5 层里覆盖了 1+2+3+4 层。剩下第 5 层（视觉）按需补。

6.2 API 采购建议（按预算 3 档）

预算低（<¥150/月）：

Minimax Coding Plan 订阅（119/月，连续包月）
DeepSeek API：按 token 充值，¥10 起步
Obsidian：免费版
总成本：约 ¥100-150/月

预算中（¥150-800/月）：

GLM Coding Plan（469/月，更多配额）
DeepSeek API：每月 ¥100-200（批量任务）
Obsidian Sync（$8/月，多端同步）
总成本：约 ¥500-800/月

预算高（>¥800/月）：

上述全开 + Claude Code（用CC switch切换成上述模型使用，Coding Agent 入口）+ Hermes Agent （免费，配上述模型Coding Plan）
OpenAI API（GPT-5/o3 备用，每月 ¥200-500）
Hermes / Cursor / Windsurf 等 Coding Agent 工具
总成本：约 ¥1500-3000/月

注意：预算低也能跑通完整栈。关键不是花多少钱，是每天用多久。 每月 ¥100 + 每天 1 小时深度对话 + 1 个自动化脚本，3 个月后你会看到根。

6.3 第一个任务流模板（4 步跑 3 个月）

第一个月建议只跑这一个流程，不要贪多：

第 1 步 · 每天 1 次深度对话（30 分钟）。选一个你最近在想的问题（工作 / 学习 / 生活都行）。打开 Claude，追 5 轮以上，每轮至少追问一次。第一句回答不够，反例 / 展开 / 假设反面，3 种追问至少跑 1 种。对话完把"我问了什么 / AI 回了什么 / 我最后判断是什么"三段记到 Obsidian。

第 2 步 · 每天 1 次反例搜索（10 分钟）。把你当天深度对话里得出的结论，扔给 DeepSeek，让它给反例。反例里有些是你想过的——但至少 1-2 条是你没想到的。那条没想到的就是你今天的收获。 也记到 Obsidian。

第 3 步 · 每周 1 个自动化脚本（1-2 小时）。选一个你每周重复做的、不需要动脑子的任务（手动复制粘贴 / 手动改格式 / 手动同步文件）。把步骤写下来，发给 AI，让它帮你写脚本。 跑通之后你每周省下 30-60 分钟。第一个月做 4 个，第二个月做 3-4 个，3 个月后你的自动化流水线就有雏形了。

第 4 步 · 每月 1 次栈 review（1 小时）。每个月最后一天，打开 Obsidian 看这个月你跟 AI 的对话记录，回答 3 个问题：

这个月 AI 帮我做的事，跟上个月比是变多了还是变少了？
变多了的部分，是"判断"还是"执行"？
我的栈现在缺哪层？要不要补？

4 步跑 3 个月，根就出来了。 这是栈和树的最小可行版本——栈看清自己在哪里，树每天往前走一步。

6.4 三个避坑提醒

避坑 1 · 不要一上来就上 Coding Agent 工具。 Claude Code / Cursor / Windsurf 是栈第 3 层的工具，但需要前 1+2 层立住才能用好。先用 ChatGPT / 千问 / Gemini 网页版跑 3 个月深度对话，确认你能稳定做"判断 / 执行分离"，再考虑 Coding Agent 工具。

避坑 2 · 不要一上来就买 N 个模型订阅。 1 个深度对话 + 1 个快速验证 = 起步标配。M2.7 / Qwen / GLM / Doubao 这些国产模型可以后面再补。先把 2 个用熟。

避坑 3 · 不要把 API key 写进笔记明文。 用 .env 文件或 1Password / Bitwarden 这种密码管理器。API key 泄露 = 别人花你的钱。 这是栈第 3 层最常见的入门事故。

七、H2 几个值得你自己观察的节点

H2（2026 下半年）有几件事值得你自己观察。看完之后你可以自己判断，要不要调整自己的学习路径。

节点 1 · 18 个月窗口。 Stanford STORM 的 5 视角方法，如果 H2 8 月还没被烤进每个 AI 工具（Perplexity / Claude Projects / Cursor Background Agents），那窗口期可能比 18 个月更长——意味着现在学 5 视角的人 edge 还在。错过了就是错过了。

节点 2 · Claude Code 6 层框架是否被跨工具采纳。 HiTw93 那套 CLAUDE.md / Skills / Tools / Hooks / Subagents / 上下文工程的 6 层，H2 7-8 月是否被 OpenAI Codex / Cursor / Windsurf 跟进——决定了"6 层"是不是新标准。如果跟进，你栈的第 3 层可以省力；如果不跟进，第 3 层可能得自己造。

节点 3 · Vibe OS 哲学是否被 Coding Agent 工具反向采纳。 "我永远站在系统之外"是哲学层——如果 H2 9 月有 Coding Agent 工具出现"主体性保护层"（避免 AI 自动跑判断），那哲学就落地了。 反之，你栈的第 1 层要靠自己守住。

八、留给你的一个问题

你今天用 AI 帮你做的那件事，AI 做的是"判断"还是"执行"？

如果 100% 是"执行"——你在"学 AI"。如果 50% 是"判断"——你在"用 AI"。如果 80% 是"判断"——AI 在"用你"。

普通人学 AI 的关键不是"用什么工具"，是"哪个层级的判断你外包了"。 栈让你看见层级，树让你坚持每天不外包。

写完这篇回头看了一下 6/20 的另一篇《持票权》——那篇讲 H2（2026 下半年）地缘层、个人层、经济层 3 个尺度同时出现"持票权重构"，3 个尺度都问同一个问题：你手里的票还有几年价值。

这篇文章讲的是那个问题在中频个人训练层的解法——地缘层的票你拿不到（除非你在国务院），经济层的票你拿不到（除非你是 OpenAI 持股人），但中频的个人训练——每天用 AI、追问三层、把判断留在自己手里——是你一个人能完成的一件事。

栈是横向的（看清层级），树是纵向的（坚持每天）。栈和树，缺一不可。

关于工具组合：本文作者使用 Obsidian 作为每日笔记系统，使用 Claude 进行深度对话和推理，使用 DeepSeek 进行快速验证和反例搜索，使用终端脚本处理重复性的同步和发布任务。这些工具不是"唯一的正确答案"——它们只是栈的几层选择。你拿你手边的任何工具，用同样的方法，效果是一样的。