Wednesday, October 15, 2008

資料融合:整合你的一舉一動

‧科學人 2008/10/08
將你的個人資料,從信用卡帳單到手機通訊記錄,全部整合在一個無所不包的數位檔案中,就可以全面監控你的一舉一動。但請先別擔心,資料融合技術沒有一般人想像的那麼簡單。


【撰文/賈范克(Simson L. Garfinkel);翻譯/周坤毅】


(照片提供/科學人)

重點提要

■將資料庫連結在一起的概念稱為「資料融合」,這是隱私權擁護者最害怕的事情。然而到目前為止,這項技術似乎只應用在某些特定領域,譬如說賭場防止詐騙與強制追討子女贍養費。

■資料融合技術具有相當的挑戰性,原因是資料庫中充斥著錯誤與無意義的巧合。新的演算法克服了部份的障礙,但是否真能改善損益比?


幾年前,我在開車前往機場的路上,順路在星巴克買了一杯拿鐵,到機場停好車後,我搭上前往英國的班機。八個小時後我抵達希斯洛機場,先買了一張手機預付卡,然後想買前往倫敦的火車票。就在此時,我的信用卡開始罷工,不能使用。直到返回美國,我才知道發生了什麼事。很顯然的,上飛機前我在星巴克消費,沒多久之後就在海外購買手機預付卡的行為,觸發了信用卡公司的電腦中某種反詐騙的資料管理機制。信用卡公司試圖打電話通知我,卻轉接到語音信箱,於是決定停用我的信用卡。


這次經驗最讓我生氣的是,電腦早該知道在英國購買預付卡的正是我本人。畢竟我購買機票時用的也是這張信用卡,而且我搭乘的是美國的主要航班。這些資料庫不是都應該互相連結嗎?


大部份的人可能以為事情本該如此。在看過「全民公敵」和「神鬼認證三部曲」這類好萊塢電影後,我們預期某個地下政府組織,能夠隨時存取我們倚賴的所有資料庫,而且只要敲幾下鍵盤,便可以隨時監視我們的行蹤。從不同的來源收集資訊並加以合併的程序稱為「資料融合」,目的是建立一個比原始資料的功能更強大、更有彈性,也更精確的資料庫。資料融合的擁護者宣稱,他們的系統能讓政府機構更有效率地利用現有的資訊;批評者則擔憂這項技術會威脅公民自由,因為當初人民提供這些資訊時,沒有預期要讓資料轉做他用。正反兩造都假定資料融合系統確實可行,但事實上,這個系統與大家想像的那麼無所不包、穩定可靠而發展成熟,還有著相當大的差距。


面資訊監控計畫

資料融合技術可以追溯至1970年代發展的電腦配對程式。美國國會在1974年通過隱私權法案,也同時授權創立了聯邦家長協尋服務,這個單位擁有一個龐大的黑名單,用來禁止那些失去監護權後,就未善盡贍養責任的父母取得多項聯邦福利(例如護照)。這些資料也與全美新聘僱員檔案相連結,能夠找出最近剛找到工作卻沒有按時支付贍養費的父母,以便從他們的薪水扣除相關費用。


美國洛克希德馬丁公司先進科技中心的研究人員在1984年發表了兩篇論文,討論一種「戰術資料融合系統」,能夠從感測器、資料庫與其他來源即時蒐集戰場資訊,加以融合後提供給分析人員,從此「資料融合」正式成為科技新名詞。這個概念隨後在各個領域蓬勃發展:生物資訊研究人員討論基因組資料融合;美國國土安全部花費超過2億5000萬美元,設立58個全國與地方性的資料融合中心;消費者市場行銷公司尼爾森(Nielsen)也研發了資料融合產品,能夠辨認並鎖定具有特定特徵的潛在顧客群,而不必浪費精力在傳統亂槍打鳥式的行銷手法。


資料融合的用途廣泛,而應用在尋找潛藏的恐怖份子時,引起了最激烈的公共辯論。美國海軍少將彭岱特(John Poindexter)與國防高等研究計畫署(DARPA)的波普(Robert L. Popp)在2006年表示:「偵測恐怖份子的關鍵在於觀察現在與過去恐怖攻擊的計畫,據此尋找恐怖攻擊計畫的行動模式。」他們認為如果美國政府能從市場交易的資料庫中,找出不是農民卻大量購買肥料的記錄,那麼1993年的世貿中心爆炸案、1995年的俄克拉荷馬爆炸案都是可以避免的。但是想要取得這些購買記錄,並與農田所有者與聘僱記錄的資料庫媒合,政府必須史無前例地取得私人電腦系統的使用權,全國每個人的每筆轉帳記錄都會在沒有正當理由的情形下受到監控。基於上述理由,國會決定在2003年取消彭岱特與波普的「全面資訊監控」(TIA)研究計畫。


有意義的資訊在哪裡?

政府很少透露他們如何使用資料融合系統來保護國家安全,理由是如果歹徒知道系統如何運作,便能夠輕易躲避資料融合程式的偵測,然而對於資料融合的技術如此守口如瓶,使得公民自由主義者一直無法放下心中的恐懼。但是有足夠的公開資料顯示,資料融合面臨的不僅是道德與法律上的議題,技術上也遭遇瓶頸。


資料品質是其中一個問題。大部份資料庫中的資訊,當初在蒐集時純粹是為了統計之用,還不夠精確到足以讓系統自動判斷出犯罪行為。1994年,澳洲國立大學的克拉克(Roger Clarke)研究美國與澳洲政府所使用的電腦配對程式,這些系統掃描數百萬筆記錄,挑出數千個可疑的案件,但其中大部份後來都證實是虛驚一場。舉例而言,某個用來找出詐領社會救濟金的程式,比對了健康暨民眾服務部的聘僱記錄,以及華盛頓特區周圍各郡內接受社會救濟者的名單之後,產生出大約1000筆可疑的案件,但是進一步的調查顯示其中3/4的人是無辜的。這個程式所帶來的效益,根本抵不過蒐集資料的費用、人員訓練,與調查那些誤判案例所耗費的成本。


許多人覺得如果資料融合程式可以介入並阻止大型恐怖攻擊的發生,那麼不論花費多少成本都值得。彭岱特是職業海軍軍官,他以在廣袤的海洋中尋找敵軍潛艦的技術問題,來和資料融合技術做比較──在資料之海中尋找可能的恐怖活動跡象,遠比在海洋中尋找潛艦困難許多。全世界的海洋或許浩瀚,但是每個地點都可以用經度、緯度與深度來標示,資訊之海卻沒辦法輕易地分門別類。此外,真實的海洋可不像資訊之海,每幾年便會加倍成長。大部份的資訊空間都沒有路標:資料雜亂地分散在好幾百萬個獨立電腦系統內,有些甚至是隱藏資訊,或是當局根本無從查起的資訊。


資料融合如此困難,是因為有太多的資料來源,而且包含著不同程度的細節與不確定性。資料融合所面臨的真正挑戰,不是如何取得資料,而是從資料中擷取有意義的資訊。


藏在硬碟裡的資訊

要了解資料融合的困難度,不妨先從你家電腦中的硬碟資料開始。1998~2005年間,我從eBay、小型電腦專賣店與跳蚤市場購買了超過1000顆二手硬碟,甚至從丟棄在路旁的電腦中,我也找到幾顆硬碟。現任職美國維吉尼亞大學的電腦科學家謝拉(Abhi Shelat)與我在2003年1月發表了一篇論文,揭露我們在這些硬碟上找到什麼。


大約有1/3的硬碟無法操作,另外1/3在丟棄前,資料已經被適當地消除;但是剩下的1/3則含有大量的個人資訊,包含電子郵件、備忘錄與金融記錄。其中一顆硬碟曾經安裝在自動提款機中,記錄著數千筆信用卡號碼,另一顆硬碟則被超級市場用來提交信用卡付款記錄給銀行。這兩顆硬碟在銷售到市場上時,資料都沒有被適當的消除。


我用來搜索這些硬碟的程式很容易取得、也不特別複雜,世界各地的警察單位都是使用這些工具,從電腦與手機中取得檔案。使用者通常不會察覺他們留下的數位「麵包屑」,以人稱「BTK殺手」的案件做為例子,1970~1980年代,他在堪薩斯州的威契塔犯下八件謀殺案,然後銷聲匿跡。這名殺手在2004年3月重新現身,寫信給《威契塔鷹報》,描述他過去犯下的罪行,並寄出一片存有微軟Word檔案的軟碟給當地的電視台。警方依據該檔案內含的「後設資料」(metadata),追查到當地教堂中的一台電腦,並發現這部電腦的使用者是教堂長執會的主席,也就是殺手本人。