資料來源說明
本站每筆紀錄都附原始來源連結與 archive 存檔。資料怎麼來、怎麼清洗、怎麼保存,這頁完整公開。可隨時拿任一筆紀錄回原始連結驗證。
當前資料量
- 87 總紀錄數
- 34 已 Wayback archive 39% 覆蓋
- 8% High confidence 7 high / 64 medium / 16 low
- 12 涵蓋行政區
- 2026-04-30 最後更新
以上數字由 npm run build 直接從 content collection 計算,跟頁面內容同源。
資料流程
從原始貼文到上站的 6 步:
-
採集
爬蟲從 Threads / FB 公開來源抓取貼文 / 評論,保留完整 raw text 與來源 URL。 不收錄私密群組、私訊截圖、需登入才能看的內容。
-
結構化
scripts/clean_sources.py用 Claude API(claude-sonnet-4-6)把自由文字轉成符合 schema 的結構化欄位(city / district / address / issue_types / severity / landlord_marker 等)。同時 AI 自評 confidence。 -
個資脫敏
手機 (
09\d{8})、市話、Email (*@*.*)、身份證 ([A-Z][12]\d{9}) 走 regex 自動 redact,description 裡置換為「[已脫敏]」。未公開姓名用 LLM 二次過濾。房東 / 仲介不寫真名,改用landlord_marker(LINE ID / 品牌簽名字 / 姓氏 marker)。 -
Confidence 分流
AI 自評 high(訊號明確)→ 直接上線。medium(單一可疑點)→ 上線但標 confidence 中。low(衝突訊號 / raw 不完整 / 含糊)→ 不上線,進
data/review_queue.json等人工審。 -
原文 Archive
scripts/archive_sources.py對每筆 source URL 呼叫 Internet Archive Wayback Save API 存檔,archive_url 寫回 frontmatter。FB 私社團 / Threads 動態載入無法 archive 的,標original_status。確保原 PO 刪文後仍可舉證。 -
聚合呈現
單筆紀錄存進 Astro content collection,build 時依 address / district / landlord / community 四維聚合產出彙整頁。 每筆紀錄頁底「資料來源」區塊永遠顯示原始 URL + archive URL,方便讀者獨立驗證。
資料來源類型
當前站內 87 筆紀錄按 source type 分布:
- Threads 公開貼文 — 87 筆 (100%)
不收錄的內容
- 私密群組 / 私訊截圖(無法公開驗證)
- 只有情緒抱怨無具體事實的內容
- 含個資(手機 / 身份證 / 未公開姓名)且無法脫敏的內容
- 已知為房客 vs 房東之間仲裁案件且雙方說法各執
- 無法明確指涉某地址 / 房東 / 社區的模糊敘述
- 純行銷文字(無實質糾紛 / 觀察)— 自動標 confidence=low 不上線
聚合演算法
本站除了單筆紀錄,還產出 4 種聚合頁面:
- 同地址聚合(
/address/[slug]):根據address欄位完全相符 - 同社區 / 同棟聚合(
/community/[slug]):根據地址 geocoding 後的座標,半徑 100m 內 cluster - 同房東 / 仲介聚合(
/landlord/[slug]):根據landlord_marker(LINE ID / 品牌簽名字 / 姓氏 marker)相符 - 行政區聚合(
/district/[name]):根據district欄位
更新頻率
- FB 雙北資料源:每日從 rental-analysis 增量同步(目前以 review-grade 篩選後上線,listing 觀察不直接上)
- Threads 台中資料源:定期批次補完。當前已收 87 筆 Threads 35 萬瀏覽蓋樓的有效避雷紀錄
- 個別紀錄修正:依爭議處理流程隨時更新,
dateModified隨之更新
透明度承諾
- 不刪除已上線紀錄(只會更新狀態,例如標註「當事人聲明」)
- 不接受付費刪除房東 / 仲介付錢請求刪除紀錄一律不受理
- 修改保留 audit trail:dateModified 永遠更新,git 有完整 commit 歷史
- 所有清洗 / 聚合 / archive 邏輯公開於 GitHub repo — 任何人可獨立檢視 schema、scripts、docs
怎麼獨立驗證一筆紀錄
每筆紀錄頁底「資料來源」區塊有兩個連結:
- 原始 URL:點過去看 FB / Threads 原文(若已被刪除,404 或進不去)
- Archive URL(Wayback Machine):點過去看當時抓取時的快照,永久可訪問
你可以拿原文跟本站 description / original_text 欄位比對,看清洗是否忠於原意。發現偏差請來
Discord
回報。