从 source(-daily).md 多篇文章到 files/source 整理流程
优先从 news/source-daily.md(若存在)读取多篇聚合文章;若仅有 news/source.md,则从 source.md 读取。在 Plan 阶段 明确识别每篇边界与数量,对每一篇进行重新整理,生成原创 MD 写入 files/source/,只保留核心内容,避免侵权。不直接复制原文。
一、数据源与输出约定
| 项目 | 约定 |
|---|---|
| 输入 | 优先:news/source-daily.md;若不存在则使用 news/source.md(单文件内多篇文章聚合,可能来自公众号、转载等) |
| 输出 | 每篇文章对应一个 MD:files/source/<主题简写>.md |
| 原则 | 每篇重新整理、用自己的话归纳,保留核心内容即可,不逐段抄录 |
侵权规避:source.md 中内容可能涉及版权,因此必须对每一篇做原创化整理(提炼观点、术语、结论,改写表述),仅保留核心信息,不原文照搬。
二、Plan 阶段(必做)
在处理前必须先完成规划,避免漏篇或重复:
- 读取
news/source-daily.md(若存在)或news/source.md全文。 - 识别多篇文章边界:
- 文章通常以主标题或明显分隔(如空行+新标题、
END、下一篇文章标题)为界。 - 常见模式:首行或前几行为第一篇标题;后续出现与上文无关的新标题、或「END」+ 大量空行/列表/“留言”等,多为下一篇开始。
- 文章通常以主标题或明显分隔(如空行+新标题、
- 列出每篇文章:
- 序号、标题/主题、建议文件名(英文或拼音,如
pku-wanghe-2025-embodied-roundup.md、leju-showroom-strategy-2026.md)。
- 序号、标题/主题、建议文件名(英文或拼音,如
- 确认:共 N 篇,输出到
files/source/的 N 个 MD 与之一一对应。
只有在 Plan 中明确「篇数 + 每篇标题 + 输出文件名」后,再逐篇执行整理。
三、文章边界识别参考
- 第一篇:多为文件开头到第一个「结尾标志」或下一篇文章标题之前。
- 下一篇:新出现的独立标题(与上文无连贯关系)、或「END」/「写在最后」+ 空行/列表/“留言”之后的新标题。
- 噪音:企业名单、公众号引导、留言、精选推荐等可视为分隔或文末噪音,不纳入正文;若某段明显是下一篇开头,则从该处切开。
不确定时,宁可先按「标题 + 语义连贯性」切出候选篇,在整理时再微调边界。
四、单篇整理与输出规范
对 每一篇 独立执行:
- 从 source.md 中截取该篇的完整正文(按 Plan 中划定的边界)。
- 原创整理:
- 提炼:核心观点、关键术语、重要结论、数据/结果(若有)。
- 用自己的话重写,分节归纳(可加小标题),不逐段抄录。
- 写出 MD 到
files/source/<主题简写>.md:- 必须包含:标题、整理说明(如「基于 [原文主题] 的整理,仅保留核心内容」)、正文(分节、列表均可)。
- 可选:文末注明「—— 整理自 Xbotics 具身智能学习指南 | 供学习参考」。
单篇 MD 模板
markdown1# [文章主题标题] 2 3*基于原文的整理,仅保留核心内容,供学习参考。* 4 5--- 6 7## 1. [小节名] 8[原创归纳内容……] 9 10## 2. [小节名] 11[原创归纳内容……] 12 13--- 14 15*—— 整理自 Xbotics 具身智能学习指南 | 供学习参考*
文件名:files/source/ 下使用英文或拼音,如 pku-wanghe-2025-roundup.md、leju-showroom-2026.md、xiaomi-vla-open-source.md,避免中文与特殊字符。
图标与表情(必做)
news/source-daily.md(或news/source.md):在编辑或生成日报/源文件时,在主标题、本期重点、各篇标题、小节标题(如「一句话记住」「为什么重要」「核心亮点」「配图建议」「资源」)及要点列表前使用适量图标与表情,使内容更生动、易扫读。可参考:📰 🎯 🤖 🧭 📐 🔄 💡 ❓ ✨ 🖼️ 🔗 📌 🏷️ 等,按主题选用。files/source/*.md整理稿:写入每篇整理稿时,在文章标题、小节标题(如「背景与目标」「核心亮点」「实验结果与意义」)及要点条目前同样使用适量图标与表情,与 source-daily 风格一致,便于阅读。
五、检查(必做)
每篇整理并写出 MD 后,必须做以下两项检查;不合格则修正再继续。
5.1 内容一致性检查(总结与原文是否一致)
- 对照原文:用 source.md 中该篇的原文段落,逐条核对整理稿是否覆盖了核心信息(主要观点、关键术语、重要结论、数据/结果)。
- 通过标准:无实质性遗漏(如漏掉原文明确的核心论点、关键数字、方法名/论文名);无实质性偏差(如把“A 优于 B”写成“B 优于 A”);允许概括与改写,但语义不得与原文矛盾。
- 若不一致:在整理稿中补全遗漏、修正偏差,必要时调整小节结构,使总结与原文核心一致。
5.2 放置位置检查(放的位置是否合适)
- 主输出位置:所有整理稿的主产出一律放在
files/source/<主题简写>.md,无需再检查“是否该放 source”。 - 可选集成时的位置:若做了「在 files/papers/、files/interviews/、files/foundations/ 写摘要或索引,并在 docs 中加链接」,则需检查:
- 类型是否匹配:论文/技术 →
files/papers/及 docs/5-sota、4-classical、1.3 等;访谈/产业 →files/interviews/及 docs/8-people、9-landscape、1.3 产业视角;基础/教程 →files/foundations/及 docs/3-foundations、2-roadmaps。 - 链接是否到位:摘要/索引中指向
../source/xxx.md的链接正确;docs 内链接到的是最相关的小节,而非随便挂到某章末尾。
- 类型是否匹配:论文/技术 →
- 通过标准:主产出均在
files/source/;若做了可选集成,则类型与目录对应正确、链接有效且挂到合适小节。 - 若不合适:移动或重命名摘要/索引文件到正确目录,或调整 docs 中的链接目标到更贴切的小节。
检查清单(可逐篇勾选):
- 内容一致性:核心信息无遗漏、无语义偏差
- 放置位置:主产出在
files/source/;若做了集成,类型与链接位置合适
六、实施步骤总览
| 步骤 | 说明 |
|---|---|
| Step 0 Plan | 优先读 news/source-daily.md(若存在,否则读 news/source.md)→ 识别多篇文章边界 → 列出每篇标题与 files/source/<名>.md |
| Step 1 逐篇整理 | 对每篇:截取正文 → 原创归纳(保留核心)→ 写入 files/source/<主题简写>.md |
| Step 2 检查 | 每篇:内容与原文一致性检查 + 放置位置检查;不合格则修正 |
| Step 3 可选 | 若需接入项目文档:在 files/papers/、files/interviews/、files/foundations/ 做摘要或索引,并在 docs 相应小节增加链接(见下节) |
七、可选:与 docs 的集成
整理结果以 files/source/*.md 为主产出。若需在项目知识库中引用:
- 论文/技术类:可在
files/papers/增加简短笔记或索引,链到../source/xxx.md;在 docs/1-embodied-overview、5-sota、4-classical、2-roadmaps 相关小节末加「延伸」链接。 - 访谈/产业类:可在
files/interviews/做摘要,链到../source/xxx.md;在 docs/8-people、9-landscape、1.3 产业视角加链接。 - 基础/教程类:可在
files/foundations/做索引,链到../source/xxx.md;在 docs/3-foundations、2-roadmaps 加链接。
链接格式示例:[主题](../source/主题简写.md)(从 files/papers/、files/interviews/、files/foundations/ 出发)。
八、集成位置速查
docs/
├── 1-embodied-overview/ # 术语、世界模型、产业视角
├── 2-roadmaps/ # 学习路线与延伸
├── 3-foundations/ # 基础与教程
├── 4-classical/ 5-sota/ # 经典与 SOTA
├── 8-people/ 9-landscape/ # 人物与公司
└── …
files/
├── source/ # 本流程主输出:每篇整理 MD
├── papers/ interviews/ foundations/ # 可选摘要与链接
└── …
九、若仍有 PDF 需求(可选保留)
若项目中同时存在需要从 PDF 提取并整理的内容(例如 news/ 下个别 PDF):
- 可继续使用现有
news/extract_pdf.py、news/ocr_pdf.py提取文字; - 提取后的文本建议先汇总或粘贴到
news/source.md的独立“文章块”中,再按本流程统一「Plan → 逐篇整理 → 输出到files/source/」; - 或对单份 PDF 单独执行:提取/OCR → 原创整理 → 输出
files/source/<主题>.md。
本 skill 的主流程以 news/source.md 多篇文章 → files/source/*.md 为准;PDF 仅作为可选输入来源之一。