資料來源說明

本站每筆紀錄都附原始來源連結與 archive 存檔。資料怎麼來、怎麼清洗、怎麼保存,這頁完整公開。可隨時拿任一筆紀錄回原始連結驗證。

當前資料量

  • 87 總紀錄數
  • 34 已 Wayback archive 39% 覆蓋
  • 8% High confidence 7 high / 64 medium / 16 low
  • 12 涵蓋行政區
  • 2026-04-30 最後更新

以上數字由 npm run build 直接從 content collection 計算,跟頁面內容同源。

資料流程

從原始貼文到上站的 6 步:

  1. 採集

    爬蟲從 Threads / FB 公開來源抓取貼文 / 評論,保留完整 raw text 與來源 URL。 不收錄私密群組、私訊截圖、需登入才能看的內容。

  2. 結構化

    scripts/clean_sources.py 用 Claude API(claude-sonnet-4-6)把自由文字轉成符合 schema 的結構化欄位(city / district / address / issue_types / severity / landlord_marker 等)。同時 AI 自評 confidence。

  3. 個資脫敏

    手機 (09\d{8})、市話、Email (*@*.*)、身份證 ([A-Z][12]\d{9}) 走 regex 自動 redact,description 裡置換為「[已脫敏]」。未公開姓名用 LLM 二次過濾。房東 / 仲介不寫真名,改用 landlord_marker(LINE ID / 品牌簽名字 / 姓氏 marker)。

  4. Confidence 分流

    AI 自評 high(訊號明確)→ 直接上線。medium(單一可疑點)→ 上線但標 confidence 中。low(衝突訊號 / raw 不完整 / 含糊)→ 不上線,進 data/review_queue.json 等人工審。

  5. 原文 Archive

    scripts/archive_sources.py 對每筆 source URL 呼叫 Internet Archive Wayback Save API 存檔,archive_url 寫回 frontmatter。FB 私社團 / Threads 動態載入無法 archive 的,標 original_status。確保原 PO 刪文後仍可舉證

  6. 聚合呈現

    單筆紀錄存進 Astro content collection,build 時依 address / district / landlord / community 四維聚合產出彙整頁。 每筆紀錄頁底「資料來源」區塊永遠顯示原始 URL + archive URL,方便讀者獨立驗證。

資料來源類型

當前站內 87 筆紀錄按 source type 分布:

不收錄的內容

聚合演算法

本站除了單筆紀錄,還產出 4 種聚合頁面:

更新頻率

透明度承諾

怎麼獨立驗證一筆紀錄

每筆紀錄頁底「資料來源」區塊有兩個連結:

  1. 原始 URL:點過去看 FB / Threads 原文(若已被刪除,404 或進不去)
  2. Archive URL(Wayback Machine):點過去看當時抓取時的快照,永久可訪問

你可以拿原文跟本站 description / original_text 欄位比對,看清洗是否忠於原意。發現偏差請來 Discord 回報。