資料來源說明

本站每筆紀錄都附原始來源連結與 archive 存檔。資料怎麼來、怎麼清洗、怎麼保存，這頁完整公開。可隨時拿任一筆紀錄回原始連結驗證。

87 總紀錄數
34 已 Wayback archive 39% 覆蓋
8% High confidence 7 high / 64 medium / 16 low
12 涵蓋行政區
2026-04-30 最後更新

以上數字由 npm run build 直接從 content collection 計算，跟頁面內容同源。

資料流程

從原始貼文到上站的 6 步：

採集

爬蟲從 Threads / FB 公開來源抓取貼文 / 評論，保留完整 raw text 與來源 URL。 不收錄私密群組、私訊截圖、需登入才能看的內容。
結構化

scripts/clean_sources.py 用 Claude API（claude-sonnet-4-6）把自由文字轉成符合 schema 的結構化欄位（city / district / address / issue_types / severity / landlord_marker 等）。同時 AI 自評 confidence。
個資脫敏

手機 (09\d{8})、市話、Email (*@*.*)、身份證 ([A-Z][12]\d{9}) 走 regex 自動 redact，description 裡置換為「[已脫敏]」。未公開姓名用 LLM 二次過濾。房東 / 仲介不寫真名，改用 landlord_marker（LINE ID / 品牌簽名字 / 姓氏 marker）。
Confidence 分流

AI 自評 high（訊號明確）→ 直接上線。medium（單一可疑點）→ 上線但標 confidence 中。low（衝突訊號 / raw 不完整 / 含糊）→ 不上線，進 data/review_queue.json 等人工審。
原文 Archive

scripts/archive_sources.py 對每筆 source URL 呼叫 Internet Archive Wayback Save API 存檔，archive_url 寫回 frontmatter。FB 私社團 / Threads 動態載入無法 archive 的，標 original_status。確保原 PO 刪文後仍可舉證。
聚合呈現

單筆紀錄存進 Astro content collection，build 時依 address / district / landlord / community 四維聚合產出彙整頁。每筆紀錄頁底「資料來源」區塊永遠顯示原始 URL + archive URL，方便讀者獨立驗證。

資料來源類型

當前站內 87 筆紀錄按 source type 分布：

Threads 公開貼文 — 87 筆（100%）

不收錄的內容

私密群組 / 私訊截圖（無法公開驗證）
只有情緒抱怨無具體事實的內容
含個資（手機 / 身份證 / 未公開姓名）且無法脫敏的內容
已知為房客 vs 房東之間仲裁案件且雙方說法各執
無法明確指涉某地址 / 房東 / 社區的模糊敘述
純行銷文字（無實質糾紛 / 觀察）— 自動標 confidence=low 不上線

聚合演算法

本站除了單筆紀錄，還產出 4 種聚合頁面：

同地址聚合（/address/[slug]）：根據 address 欄位完全相符
同社區 / 同棟聚合（/community/[slug]）：根據地址 geocoding 後的座標，半徑 100m 內 cluster
同房東 / 仲介聚合（/landlord/[slug]）：根據 landlord_marker（LINE ID / 品牌簽名字 / 姓氏 marker）相符
行政區聚合（/district/[name]）：根據 district 欄位

更新頻率

FB 雙北資料源：每日從 rental-analysis 增量同步（目前以 review-grade 篩選後上線，listing 觀察不直接上）
Threads 台中資料源：定期批次補完。當前已收 87 筆 Threads 35 萬瀏覽蓋樓的有效避雷紀錄
個別紀錄修正：依爭議處理流程隨時更新，dateModified 隨之更新

透明度承諾

不刪除已上線紀錄（只會更新狀態，例如標註「當事人聲明」）
不接受付費刪除房東 / 仲介付錢請求刪除紀錄一律不受理
修改保留 audit trail：dateModified 永遠更新，git 有完整 commit 歷史
所有清洗 / 聚合 / archive 邏輯公開於 GitHub repo — 任何人可獨立檢視 schema、scripts、docs

怎麼獨立驗證一筆紀錄

每筆紀錄頁底「資料來源」區塊有兩個連結：

原始 URL：點過去看 FB / Threads 原文（若已被刪除，404 或進不去）
Archive URL（Wayback Machine）：點過去看當時抓取時的快照，永久可訪問

你可以拿原文跟本站 description / original_text 欄位比對，看清洗是否忠於原意。發現偏差請來 Discord 回報。

資料來源說明

當前資料量

資料流程

採集

結構化

個資脫敏

Confidence 分流

原文 Archive