你的 RAG 在喝毒水——精準假資料投放與 AI 自動化的盲區

如果你跑 RAG（檢索增強生成）、養會自己上網搜尋的 AI 代理（agent）、或排了每天自動抓資料做報表的定時程式（cron），這篇是寫給你的。因為你比任何人都清楚：這些東西的輸出，只跟它讀到的東西一樣可靠。

那就先講一個具體的數字。

320 元台幣，註冊一個聽起來像智庫的網域：agri-stat-tw.org。一個下午，用 AI 生出六篇「2026 年第一季台灣香蕉出口分析」，附圖表、附數據、附查不到本人的「研究員」署名。丟到幾個免費平台（Substack、Medium、*.github.io），內容彼此互引。

三天後，拿同一個問題去問 ChatGPT、Perplexity、Gemini 和一個本土的大型語言模型（LLM）：2026 年第一季台灣香蕉出口量多少。

它們會給你同一個答案，而且全錯。

我餵的數字是 12,500 公噸。台灣近年香蕉出口大多落在 1,200 到 1,700 公噸，連 2020 年的近十年高點也只到約 3,300 公噸（農業部統計）。320 元加一個下午，就把所有主流 AI 對這件事的認知改寫了一遍——包括你那條會自己上網搜尋的流程。

我沒有真的做這個實驗。光是文中描述的協同投放，就可能同時觸及證交法 155 條（散布流言影響有價證券價格）、刑法 310 條（誹謗）、選罷法 104 條、社會秩序維護法 63 條等規定，本文僅停在思想實驗層次提示攻擊面、不是操作教學。但你只要知道 AI 怎麼做網路搜尋，就知道這個推演會成立。

一、把「香蕉」換成任何字，腳本照跑

香蕉只是一個代稱。把問句換掉、其他變數不動，整套攻擊複製貼上就能用：

某上市公司去年 Q4 海外營收占比
台中七期某社區去年成交均價
某立委對某法案的表態紀錄
某疫苗在 18-30 歲族群的不良反應比例
某國對台灣某產品的關稅近況

只要這個問題有商業價值、官方資料發布有空窗、又查不到現成對照組，它就是靶。攻擊者要的也不是改變輿論，而是改變一個具體決策：一筆採購、一筆投資、一張選票、一份盡職調查、一場記者會。

我在內部把這個叫精準假資料投放（precision data poisoning）：針對特定垂直領域（vertical）的事實基礎、做針對性污染，再借 AI 的網路搜尋完成最後一哩擴散。

它跟假新聞不是同一種東西。假新聞是廣播式的，瞄準情緒和點擊；這個是狙擊式的，瞄準一筆決策。它也不是市場操縱——市場操縱動的是價量，這個動的是被當成事實的數字本身。

學術圈已經有 RAG poisoning、retrieval poisoning（檢索污染）這些命名，但那些研究多半在談「單一企業內部 RAG 系統的對抗樣本注入」，是企業資安的範疇。我想標記的是另一層：公開網路上的投放。攻擊者把假資料丟進開放網路，由 ChatGPT、Perplexity、Gemini 的網路搜尋自動收進去，間接污染所有沒自建 RAG、直接信任模型輸出的人。前者你還能在自己的檢索層設防，後者你連攻擊面都不在自己手上。

目前它沒有名字、沒有專責防線，也沒有人的績效指標（KPI）裡有它。而它的施作成本，低到不太合理。

二、為什麼沒人會幫你接住

你可能會想：這種東西不是會被查核中心或平台事實標籤掃掉嗎？

不會，而且原因很結構性。台灣事實查核中心、Cofacts、MyGoPen 是寶貴的隊伍，但它們是有限人力，議題排程跟著公共熱度走。「某社區去年均價是不是 8 萬」「某公司海外營收占比多少」這種問題永遠排不進去。這不是失職，是垂直領域數據本來就在現有查核基礎建設的設計盲區。

精準假資料投放打的，剛好就是這塊沒人在看的地方。把它跟假新聞並排，差別最大的一行是「有沒有人在看」：

維度	假新聞	精準假資料投放
受害人	一般網民（情緒被操弄）	貿易商、投資人、企業決策者（真的虧錢）
有沒有查核者在看	有	沒有（垂直領域數據不在查核範圍）
損害量化	困難	容易（一筆決策動輒百萬到億）
攻擊者動機	政治、流量、意識型態	市場操縱、競品打擊、外資情報、養假權威
發現時點	通常事件當下	通常事後幾週、甚至幾季

講得具體一點。

一間五人的小型投信，做台股 ETF 主動選股。分析師用 AI 整理某檔個股的營收結構，數字精確、來源看似合理、Google 第一頁三個「研究機構」給出相近數字，就採信了，建了部位。三週後財報出來，數字差一個數量級，停損出場，損失上千萬。

整個過程裡沒有任何一句話「明顯」是假的，沒有單一句子可以被查核者標成假訊息。每個來源都有「研究員」，每個數字都精確到小數點。被害人甚至會懷疑是自己看錯，而不會想到整條訊息鏈是被刻意污染的。

換個更尖銳的版本：某縣市市長選舉前三週，六個看起來像地產分析網站的網域，同步發佈該選區某區段「去年成交均價下跌兩位數百分比」。實際實價登錄是小幅上漲。等內政部新一期實價登錄公告出來，選舉已經結束。

這不是科幻，是 2026 年一個有耐心的人在通勤路上就能備好的東西。

三、現有防線逐一為什麼擋不住

你大概已經在心裡列了幾道「應該會擋下來吧」的防線。我也列了，然後一條一條發現它們都有結構性破口。

網域信譽。LLM 在網路搜尋時會對老牌網站加權、對新註冊網域降權。但網域齡只是「夠久沒被檢舉、而且被引用過幾次」的證明，這兩條都能事先製造。養網域、互引幾次，新樁就能在多數信譽演算法下看起來像正常網站。

多源交叉。模型生成答案時會嘗試從多個來源交叉比對，而協同投放就是專門打這個機制：一次架六個內容農場，同一份數據換語氣、換圖表、換切角，再互相引用。模型看到的是「三個獨立來源都這樣說」，不是「同一個污染源的六個分身」。多源交叉能擋單點錯誤，擋不了協同造假。

官方資料對照。理論上有官方資料就有對照組。實務上政府統計幾乎都有 2-3 個月空窗：海關進出口月底發、實價登錄按季、農業統計按月、財報季報按季，而且都晚一段時間。空窗期就是假資料的稱王期。等真實數據出來，部位停損了、選票投了。

模型內建的可疑來源提示。主流和本土模型都有一些「對可疑來源加註不確定性」的內建機制。問題是這本身也是一套規則——信號集合可被觀察、可被調適。攻擊者做幾輪 A/B 測試，就能找出哪些信號會觸發警示，然後反向繞開。

最後是你自己交叉查證。這是最脆弱的一道，而且有個正在發生的反諷：越信任 AI 的人越不交叉查證。你問了三家、得到相近答案，會覺得「三家都這樣說應該沒錯」。你不會知道，這三家的網路搜尋來源吃進的是同一個污染源。

每一道防線單獨看都合理，疊起來卻剛好留了一個垂直領域數據大小的洞。

四、那要怎麼補：一個 6 層偵測堆疊

要對付一個沒名字的東西，得先給它一個名字，再針對它的攻擊面設專屬防線。我認為可行的是一個 6 層的偵測堆疊（stack），它不取代上面任何一道防線，只補垂直領域數據那塊空白。

第一層，一手來源比對。這是地基。對接政府開放資料、官方公告、權威統計、實價登錄、海關進出口、上市櫃財報、農產品交易行情——每個垂直領域都有它的事實基準源（oracle）。一筆內容宣稱某個數字，系統先去基準源抓對照組；沒有對照組的數字，自動標紅旗。維護一份「台灣關鍵經濟／民生資料基準地圖（oracle map）」是最費工的部分，難不在資料封閉，難在對接、清洗、欄位對映、頻率對齊、版本追蹤是長期累積的工程。資料源是公共的，工程是私營的。

第二層，網域鑑識（forensic）。對每個來源網域跑鑑識：WHOIS 註冊時間、註冊主體、註冊地、DNS、SSL 簽發歷史、同一 IP 區段、同一個 Google Analytics 追蹤碼（GA tracking ID）、同一個 AdSense 發布商編號、同一個 Cloudflare 帳號。一個剛註冊半年的「智庫」，寫得越專業越可疑；六個「獨立分析網站」共用同一個 GA 追蹤碼，那就是協同造假的數位指紋。

第三層，內容指紋 + 協同行為偵測。同一筆數據在多少個域名出現、最早是哪一個、措辭與段落結構相似度、圖表的圖片雜湊值（image hash）是否一致、是否在同一時間窗集中發佈。協同投放最致命的弱點就是它必須協同——換個角度看，那個「協同」本身就是一條螢光線。

第四層，時序異常偵測。把每個關鍵主題當成一條時間序列追蹤供給量。「台灣香蕉出口」過去 365 天平均每天三篇，某一週突然每天四十篇，就是異常。再對照 Google Trends、社群提及量：內容供給暴增但社群討論沒動，那不是真實熱度，是有人在灌。

第五層，作者／機構／引用源溯源。署名的「研究員」是不是真人——查 LinkedIn、ORCID、既往著作、任職機構。引用的論文與報告是不是真的存在、引文有沒有被斷章取義。AI 生成的假權威很容易在這層露馬腳：它生不出一個有十年實際著作紀錄的人。

第六層，領域常識檢查。和該領域過去 N 年的歷史基準（baseline）比。台灣香蕉年出口量 2015-2024 從未超過 4,000 公噸（高點是 2020 年約 3,300 公噸、農業部統計），突然有人講某季 12,500 公噸，這是數量級層次的異常，不需要懂農業也該紅旗。

六層疊起來不做多數決、也不做一票否決，而是輸出一份證據包：這筆內容在哪幾層觸發了什麼信號，攤開來給你看。

這帶到一個關鍵設計選擇：這個服務不下「真假」判決，只出證據包。「這份報告由六個半年前同時註冊的網域發佈、共用同一個 GA 追蹤碼、所引述的研究員 LinkedIn 不存在、所宣稱的數據比過去十年歷史基準高四倍、且早於官方統計兩個月發布」——這是事實陳述，不是判決。記者、分析師、法務、AI 應用商拿著證據包，自己決定信不信。

法律上這是公證人，不是裁判。技術上這也是大幅降低毀謗風險的選擇：我們不說某網站是假的，只列可被驗證的事實，其餘留給使用者判斷。

五、為什麼台灣是個好起點

精準假資料投放是全球問題，多數國家也有不錯的開放資料和反操弄政策。但台灣是一個異常適合先做的市場，靠的是一個特定組合。

第一，繁中是一個可防守的封閉語料圈。 這是最關鍵的一點。繁體中文的垂直領域數據污染只能在台灣加港澳加海外這個相對封閉的語料圈內進行。不像英文是全球戰場、簡中是巨量市場，繁中的攻擊面小到一個專注團隊可以「全域防禦」。這同時是優勢也是限制：市場天花板也跟著小，所以它是灘頭堡（beachhead），不是終局。

第二，相對於國家規模，台灣有全球數一數二的公民科技（civic-tech）× 反資訊操弄生態。 g0v、Cofacts、IORG、Doublethink Lab、TFC 累積了十年，而且因為長期站在中共資訊操弄的最前線，這套生態被國際當成「公民社會韌性」的研究範例。對這個服務的意義是：不必從零教育市場、從零打造工具鏈，而且和這些隊伍是分工互補——他們做公共議題，這套系統做商業／民生的垂直領域。數位部的打詐國家隊把資訊操弄列為優先項，等於在政府側補上對接的意願。這個「公民科技生態 × 政府願意對接」的組合，別的國家很難複製。

第三，開放資料的底子夠厚。 台灣在 Open Knowledge 的全球開放資料指數（Global Open Data Index）2015、2016 連兩年拿過世界第一，data.gov.tw、實價登錄、農業統計、海關進出口、公開資訊觀測站大多有 API 或可程式化下載。這一塊台灣不輸任何人（英、法、韓也都很強），第一層基準地圖的建設成本因此偏低。

實作上，這套服務的核心是一個已查證事實 API（verified facts API），給任何要以台灣資料為事實依據（grounding）的 AI、RAG、代理使用；垂直領域包（vertical pack）是第二層的加值訂閱，不是廠商綁定（vendor lock-in）。至於市場規模，台灣本地夠養一個健康的中型 SaaS，再漸進擴到日本、東南亞的繁中與在地資料圈，但那是把台灣跑通之後的事。

資料來源：農業部農糧署、財政部關務署進出口貿易統計。

六、給有興趣對話的人

我寫這篇是因為我自己正在做這件事。

我在做一個叫 FactRoute（事實路由） 的服務：一個已查證事實＋來源信任 API，給每天用 AI 跑自動化的人用。RAG 流程、AI 代理工作流、自動報表的定時程式——任何「AI 在外面抓資料、再拿來做決策」的場景，前面都該有一層已查證事實＋來源信任評分（source trust scoring）。目前還很早期，候補名單（waitlist）剛開、早期測試版（alpha）還在開發。把這個問題公開命名，一方面覺得它真的該被看見，一方面也想找願意一起校準的早期使用者。

如果你是這幾種屬性的朋友，特別歡迎聊：

跑 AI 自動化的開發者或進階使用者（power user）：你的 RAG、代理、定時程式是不是已經在不知不覺吃進污染資料？想試一個把來源信任過濾加進去的 API，告訴我你的使用情境。
AI 應用開發者、AI 代理 SaaS 創業者：產品要以台灣垂直領域資料為事實依據、缺一個已查證事實 API，我們做的可能就是你少的那塊。
本土大型語言模型廠、RAG 平台：事實依據層（grounding）的驗證，要不要合作。
金融業（投信、券商、銀行）：研究、分析、客戶身分審查（KYC）／反詐單位在用 AI 時，有沒有交叉查證的缺口。
律師 / 法務：證據包（含 zkTLS 證明、可法庭呈遞）能不能變成舉證武器。
媒體 / 編輯、產業協會、政府開源情報（OSINT）單位：任何一條對得上，都歡迎聊。

早期版 API 即將開放，優先給開發者、進階使用者、AI 打造者。 下面留信箱我會通知公開測試（beta）。

聯絡：marc@factroute.com X：@factroute GitHub：@factroute 候補名單：factroute.com/#waitlist

接下來會有系列文：第二篇談為什麼公證人模式比裁判模式更能存活、第三篇拆 6 層堆疊的技術細節、第四篇談政府開放資料的基準地圖怎麼建、第五篇談 API 設計與證據包格式。

我不知道這條路會不會走通。我只知道，一個用 320 元加一個下午就能改寫所有主流 AI 認知的攻擊面，不可能沒人去做防線——而台灣有條件，現在就該開始。

本文所有案例皆為情境推演、非真實事件；所述攻擊手法僅為說明研究方向、不構成操作指南。

關於作者

劉凜、building FactRoute——verified facts API for AI agents.

聯絡：marc@factroute.com　·　X　·　GitHub　·　factroute.com

凜

劉凜

building FactRoute——verified facts API for AI agents.

聯絡：marc@factroute.com · X · GitHub · factroute.com