對於AI來說，要獲得數據比您想像的要難

首頁新增資料與公告

最新消息 :

數字分析 - 中國於非洲農業報導之破解

索馬利亞的乾旱影響和解決方案建議

在非洲商業邊緣爭奪空間-本土企業與中資企業之間日益激烈的競爭

數據分析與知識產業

對於AI來說，要獲得數據比您想像的要難

中興大學生物系統工程研究室陳加忠

資料來源:

https://www.economist.com/weeklyedition/2020-06-13#

亞馬遜的“Go”商店是令人印象深刻的地方。沒有收銀員的商店於2018年首次在西雅圖開業，允許使用App的客戶領取物品並輕鬆走出去。該系統使用許多感測器，但是最大的神奇是由連接到AI系統的攝像機所執行的。該系統可以跟踪客人從架子上取走的物品。一旦購物者帶走了他們的商品，便計算出賬單並自動向他們收費。

在擁擠的商店裡這樣做並不容易。該系統必須在擁擠的商店處理。在店中人們藏在其他顧客的身後，因在視線中消失了。它必須識別單個客戶以及朋友或家庭組。如果孩子將某物品放入家庭籃，則系統必須意識到應該向他的父母收取費用。它必須實時且高度準確地完成所有這些操作。

對機器進行訓練需要以客戶瀏覽貨架，提貨，放回物品等的影像形式向他們展示大量“訓練數據”。對於圖像識別等標準化任務，開發人員可以使用公共訓練數據集，每個數據集包含數千張圖片。但是還沒有這樣的人們在商店裡瀏覽訓練集。

某些數據可能由亞馬遜自己的員工做成的，這些員工被允許進入商店的測試版本。但是這種方法僅使公司走得這裡。人們可以通過多種方式從架子上取走產品，然後決定選擇它，立即將其放回原處或稍後再歸還。為了在現實世界中工作，系統必須涵蓋盡可能多的範圍。

從理論上講，世界充斥著數據，這是現代人工智能的命脈。市場研究公司IDC估計，在2018年全球產生了33 ZB的數據，足以填滿7萬億DVD。但是，專注於人工智能的Cognilytica的諮詢公司Kathleen Walch表示：儘管如此，數據問題還是任何人工智能項目中最常見的癥結之一。與亞馬遜一樣，所需數據可能根本不存在。否則，它們可能會被鎖定在競爭對手的保險庫中。即使可以挖掘相關數據，它們也可能不適合回饋到電腦。

Cognilytica表示，整理各種數據佔用了AI典型項目的大約80％所用時間。訓練機器學習系統需要大量帶有仔細標籤的例子，並且這些標籤通常必須由人類應用。大型科技公司通常在內部進行這項工作。缺少所需資源或專業知識的公司可以利用不斷發展的外包行業來為他們服務。例如，一家名為mbh的中國公司，僱用了30萬多人來貼上無休止的面部，街道場景或醫學掃描照片，以便可以用機器對其進行處理。Mechanical Turk是Amazon的另一子部門，將公司與大量臨時工聯繫在一起，這些臨時工被支付一定的工資來執行重複的任務。

Cognilytica估計，第三方的“準備數據”市場在2019年價值超過15億美元。到2024年可能增長至35億美元。數據標籤業務與此類似，公司在2019年的支出至少為17億美元。到2024年，這一數字可能會達到41億美元。對這一主題的掌握也沒有必要。例如在醫學診斷中，可以訓練一些業餘數據標記員，使其在識別骨折和腫瘤等方面其能力與醫生幾乎一樣。但是，人工智慧研究人員稱之為領域專業知識的內容其實至關重要。

數據本身可以包含陷阱。機器學習系統將輸入與輸出相互關聯，但是它們卻是盲目地執行，而沒有對於更廣泛的上下文內容加以理解。1968年，編程大師Donald Knuth警告說，電腦“完全按照它們所告訴的去做，不能多也不能少”。機器學習充滿了Knuth先生的格言的例子：其中機器嚴格遵循了法律的規定，卻沒有遵守法律的精神。

紐約的一家網絡醫院Mount Sinai的研究人員於2018年發現，經過訓練可以在胸部X光片上發現肺炎的人工辨識系統，在對於訓練醫院以外的其他醫院的X光片上使用時，其能力明顯下降。研究人員發現，機器能夠確定掃描來自哪家醫院。其方法是分析放置在掃描角落的小金屬令牌，這在不同醫院之間是不同的。

由於接受訓練的一家醫院的肺炎基線發病率遠高於其他醫院，因此這些信息本身就足以大大提高系統的準確性。研究人員稱這種巧妙的作弊，是因為當系統收到來自其不知道的醫院數據時，它卻失敗了。

不同種族

偏差是問題的另一個來源。去年，美國國家標準技術研究院測試了近200種面部識別算法，發現許多算法在識別黑臉方面的準確性明顯低於白臉。該問題可能反映出白人在其訓練數據中佔優勢。 IBM去年發表的一項研究發現，在三種廣泛使用的訓練集中，超過80％的面部有較明亮的皮膚。

至少從理論上講，此類缺陷很容易解決（IBM提供了更具代表性的數據集供任何人使用。其他偏見的來源可能很難消除。在2017年，亞馬遜放棄了一個招聘項目，該項目目的在通過簡歷搜尋以尋找合適的人選，而該系統被發現有利於男性申請人。檢驗後發現了一個循環的，自我增強的問題。該系統已接受過該公司先前成功申請人的簡歷訓練。但是由於技術人員已經大部分是男性，因此根據歷史數據訓練的系統將鎖定男性，以作為適合性的有力預測指標。

PWC在英國的機器學習團隊的負責人Fabrice Ciais說人類試圖做到這一點，人類可以禁止這種推論。在許多情況下，他們被要求在大多數富裕國家，雇主不能基於性別，年齡或種族等因素來僱用。 Ciais先生說，但是通過使用代理變量來重構禁止信息，算法可以比人類主人更聰明。從業餘愛好到以前的工作，再到電話號碼中的區號，所有內容都可能暗示申請者可能是女性，年輕，少數民族。

如果現實世界中的數據難題太艱鉅，那麼另一種選擇就是自己構造一些數據。這就是亞馬遜對Go商店進行微調的方法。該公司使用圖形軟體來創建虛擬購物者。這些虛構的人被用來在許多困難或異常情況下訓練機器，這些情況在實際訓練數據中並未出現，但是可能是在實際環境中部署該系統時才出現的。

亞馬遜並不孤單。無人駕駛汽車公司接受了高度保持真實模擬的大量訓練，當出現問題時，無法進行真正的處理。晶片製造商Nvidia在2018年發表的一篇論文中描述了一種快速創立汽車自動駕駛綜合訓練數據的方法，並得出結論。所產生的算法比起僅使用真實數據進行訓練的算法效果更好。

隱私是合成數據的另一個吸引力。希望在醫學或金融領域使用人工智能的公司必須遵守美國的《健康保險可移植性和責任制法》或歐盟的《通用數據保護條例》等法律。正確地匿名化數據可能會很困難。這個問題則是以對偽裝人員進行訓練的系統就加以解決。

Ciais先生的一位同事Euan Cameron說，訣竅在於確保模擬足夠接近現實，以使他們的課程得以延續。對於一些範圍廣泛的問題，例如欺詐檢測或信用評分，這很簡單。可以通過將統計噪聲添加到實際種類中來創建合成數據。因此，儘管單個交易是虛擬的，但可以保證它們共同具有與衍生它們的真實數據，且有相同的統計特徵。但是問題變得越複雜，就越難確保從虛擬數據中汲取的教訓可以順利地轉化為現實世界。

另一個希望是所有與這些與數據相關的事情都將是一次性。並且一旦受過訓練，機器學習模型將在數百萬個自動決策中回報工作。亞馬遜已經開設了26家Go商店，並已提議將該技術許可給其他零售商。但是即使在這裡，也有謹慎的理由。研究公司Gartner的Svetlana Sicular表示，許多人工智能模型都受到“漂移”的影響，其中，隨著時間的推移，世界運轉方式的變化意味著他們的決策變得越來越不准確。客戶行為發生變化，語言不斷演變。公司也要改善其監管機構的工作方式。

有時，漂移會在一夜之間發生。 Sicular女士說：“在自動檢測模型中，購買單程機票可以很好地預測欺詐行為。然後，隨著covid-19的封鎖，突然有很多無辜的人在被限制。”由於面罩已成為常態，一些過去只能看到裸露的人臉的面部識別系統正在苦苦掙扎。自動化的物流系統需要人類的幫助，以應對衛生紙，麵粉和其他必需品的突然需求。世界的可變性意味著需要更多的訓練，這意味著需要以無休止的再訓練週期，為機器提供更多的數據。Cameron警告說：因此人工智能不是一個一勞永逸的系統。