數據分析與知識產業

首頁新增資料與公告

最新消息 :

數字分析 - 中國於非洲農業報導之破解

索馬利亞的乾旱影響和解決方案建議

在非洲商業邊緣爭奪空間-本土企業與中資企業之間日益激烈的競爭

數據分析與知識產業

通過馴服數據野獸來加速AI的影響

國立中興大學生物產業機電工程學系陳加忠

尋求部署使用人工智慧的政府機構在數據意識，可用性和品質方面面臨障礙。基於任務的五個數據策略可以幫助克服這些挑戰。

人工智慧（AI）可以極大地改善公共部門機構為其選民提供服務，解決其最棘手的問題並從預算中獲得最大收益的方式。多種相同因素正迫使政府接受AI的潛力。隨著公民通過數字銀行，虛擬助手和智能電子商務越來越了解AI的功能，他們要求政府取得更好的成果。同樣公務員正在尋求類似私營部門的解決方案，以提高工作效率。人工智慧技術正在迅速成熟，並已被整合到許多產品中，從而使所有組織都越來越容易使用它。

全世界大多數政府機構尚未具備成功的AI計劃所需的所有構成要素。清晰的願景和策略，預算，高品質的可用數據以及人才。即使製定了AI戰略，確保了預算並吸引了人才，數據仍然是重要的絆腳石。對於政府而言，使組織的所有數據都準備就緒是困難，昂貴且耗時的，從而將AI的影響限制在現有孤島般中的試點和項目。

政府如何才能通過過去的試驗和概念驗證，來取得更廣泛的成果？為了提高AI支出的回報率，領先的組織正在對於使用案利進行優先級排序，並縮小範圍以僅專注於改善對AI產生影響的必要數據。由任務驅動的五個步驟過程可以確保數據滿足所有AI要求，並且每投入一美元都可以帶來切實的改進。

導航數據迷宮

在政府尋求利用AI的力量時，需要回答AI程序的第一個問題涉及分析的充分性是否有數據，並且其品質足以滿足特定的業務需求？¹總體而言，公眾比起私有部門組織擁有更多的數據，但是通常格式不可用，不一致。平均而言，組織中只有3％的數據可滿足分析所需的品質標準。²與工具，基礎架構或人才不同，通常無法購買一整套可用於AI的數據，因為要制定機構的獨特用例和依據任務需求的數據輸入。

最強大的AI解決方案通常需要大量有關組織構成，程序和服務的內部數據，以及來自其他機構和第三方的外部數據以進行充實。現有內部機構數據為核心，通常其採用的格式和品質使其與AI方法不兼容。 Socrata的一項調查強調了這些挑戰³。

只有45％的開發人員同意政府數據是乾淨準確。相同百分比的人認為該格式適用於他們的工作，不到35％的人認為它被充分記錄。此外，在機構之間共享數據通常需要政府間協議（IGA），即使與最願意的交易雙方的合作也可能需要數年的時間才能確保安全。在單個國家機構內，政策限制要求簽署數據共享協議並遵守多個安全標準。國家機構在保密性，隱私要求和共享數據的法律框架方面也面臨類似的問題。結果成為諒解備忘錄(MOU)和IGA相互衝突的大雜燴。

查找數據和確定其所有權也會帶來挑戰。在許多組織中，多年以來數據一直非控制性的積累。代理商通常不知道數據在哪裡，誰擁有它們，以及它們來自何處，這些並不少見。結果組織中任何給定的辦公室或“問題所有者”都無法訪問與AI相關的數據。根據麥肯錫全球關於人工智慧功能的調查，只有8％的行業受訪者表示，整個組織的系統都可以訪問與AI相關的數據。⁴數據品質問題由於政府擁有多種不同的系統而變得更加複雜，其中一些已過時，因此匯綜數據可能非常困難。州和聯邦機構都在努力應對老化的基礎架構，在某些情況下，整個硬體，數據存儲和應用程序堆棧仍在使用中已達到使用壽命終止後的數十年。而且，年度預算週期使實施長期解決方案變得困難。

挑戰規模可能導致政府官員採取較慢，更全面的數據管理方法。意識到數據對AI的重要性後，機構通常將最初的工作重點放在整合和清理數據，目的是在數百甚至數千個舊系統中創建支持AI的數據池。一種更有效的方法側重於通過手術修復來改善數據品質和基礎系統。所有這些因素使得準備AI好數據變得既昂貴又費時。這項工作還需要公共部門並不經常提供的人才。它還將數年的IT項目和數據清理工作置於當前的公民需求與基於AI的解決方案的影響之間。有效分析所需的記錄數量可以從數百到數百萬不等。

可以支持AI的數據已定義，可以支持人工智慧（AI）解決方案的數據必須滿足五個條件：

1.已知

該機構知道其可用的企業和本地數據源

2.了解

用戶和領導者都知道數據集的內容，它來自何處（其來源和血統），以及其格式，大小和鏈接到其他數據集的潛力。

3.可用

數據必須“存在”某個地方，以供從事AI工作的用戶和分析師使用。

4.適合目的

數據適合AI目標，並且具有足夠的品質，多樣性和規模。

5.安全

數據已得到適當處理，並符合信息安全準則，機密性，相關的公民權利和公民自由規則以及數據隱私制度（例如，通用數據保護條例）。

支持AI的數據的五個步驟

公共部門機構開始其應用AI旅程的最佳方法是定義一個基於任務的數據策略，該策略將資源集中在影響最大的可行用例上，從而自然地減少了需要準備AI的數據集的數量。換句話說，政府通常可以通過強調影響而不是完美來加速其AI努力。

此外，在確定使用優先級的同時，政府應確保數據源可用，並且隨著時間的推移，組織將逐漸與最重要的數據源建立熟悉度和專業知識。適當的計劃可以允許連結相關的用例，即利用相似的工具和數據集，從而減少實例所需的時間。通過僅在因任務影響和可行性而確定優先級的用例上花費資源，政府可以確保投資與直接，有形的任務結果和結果緊密相關。這些早期的勝利可以為代理商在AI方面的進一步努力建立支持。政府可以按照以下五個步驟選擇適當的數據集，並確保它們符合AI就緒標準。

一.建立特定於用例的數據目錄

首席數據官，首席信息官或數據域所有者應與業務負責人一起確定與優先使用案例有關的現有數據集。誰擁有它們，它們存在哪些系統中，以及如何獲得訪問權限。數據發現方法必須適合特定的機構實際情況和體系結構。建立AI數據目錄的許多成功工作，包括與生產線和主管級系統用戶的直接協作，與技術專家和終身業務人員的訪談，以及使用智能或自動數據發現工具來快速反應和分類代理數據。

例如，一個聯邦機構領導了對其企業數據的數字評估，以突出顯示實現增強的營運效率和節省成本的最重要因素。它建立了一個數據目錄，允許整個機構的數據從業人員查找和訪問可用的數據集。

二. 評估數據集的品質和完整性

由於優先使用案例將需要數量有限的數據集，因此代理商應評估這些來源的狀態，以確定它們是否符合品質和完整性的基準。在國家海關機構，業務負責人和分析專家選擇了優先使用案例，然後審核了相關數據集。在第一批用例中，使用的可用數據不到估計可用數據的10％。

在許多情況下，代理商有很大的機會調整AI的工作，以利用可用數據來產生影響，然後隨著時間的推移，完善這種方法。一個州級政府機構能夠使用已經存在的數據和預測分析來將性能提高1.5到1.8倍。然後，他們利用這一潛勢尋求跨機構的IGA，將他們的投資重點放在影響最大的數據上。

三. 匯綜優先數據源

然後，代理商應將選定的數據源合併到現有的數據湖或微數據湖（“水坑”）中。在現有基礎架構上或為此目的而構建的基於雲端的新平台上。數據湖應可供企業，客戶，分析人員和承包商使用。一個大型的土木工程組織在單個雲端實例上從23個企業資源計劃系統中快速收集和集中了相關的採購數據，所有相關的利益相關者都可以使用它。

四.衡量數據是否合適

接下來，政府機構必須對使用案例進行特定的評估，以評估可用數據的數量，內容，品質和連接能力。由於此類評估取決於特定用例的文件或要解決的問題，因此數據不能客觀地適合目的。例如高度聚合的數據或缺少某些觀察值的數據可能不夠細密或品質低下，無法為人員的決策支持提供信息。但是，它們可能非常適合社區級別的預測。要評估適合度，分析團隊必須執行以下操作：

五.選擇與優先使用案例有關的可用數據

為分析開發可重用的數據模型，確定通知模型所需的特定字段和表。值得注意的是，依賴於直接處理原始數據，利用物化視圖或為每個功能開發自定義查詢的方法通常無法擴展，並可能導致數據不一致。系統地評估優先數據的品質和完整性（例如錯誤率和遺漏字段），以了解差距和潛在的改進機會。將最佳方法用於數據開發，以迭代方式豐富可重新使用數據模型及其內容。在缺乏品質的地方，分析團隊可以設計新功能或參數，合併第三方數據集或在關鍵域中收集新數據。

一個國家機構決定建立一個機器學習模型，以幫助告知弱勢群體的護理決策。該模型需要從人口統計到健康的廣泛輸入。這些數據多數品質較差且格式欠佳。該機構通過消化紙張數據對所需數據進行了系統評估，並進行了有針對性的投資，以提高數據品質並豐富現有數據集。它還生成了分析模型以改善結果。

治理與執行

代理機構的最後一步是建立一個涵蓋管理，安全性，品質和原來數據的治理框架。這不必立即是數據成熟的規則，控制和期望的詳盡列表。但是，至關重要的是定義企業所有者如何管理不同環境中的數據集，如何提高其品質以及其他機構如何使它們可訪問和使用。

通過將數據保存在合規環境或經過認可的容器中，可能已經解決了許多安全治理問題，但是機構仍需要查明所有未解決的規則。最後，他們應基於標準框架（例如，美國國家標準技術研究院）和領先的安全組織的最佳實行來確定所需的控制措施。一家大型政府機構正在努力應對其150多種數據源和專用應用程序的安全性和共享要求。它沒有針對這樣一個複雜的基於角色的環境量身定制的機構級安全性程序，在該環境中可能存在數十種角色和限制的組合。為了解決此問題，領導者開發了具有用例級安全要求的全面企業數據策略，從而大大簡化了目標體系結構和應用程序堆棧。該機構目前正在執行一項多年實施路線圖。

這些重要的治理和安全責任必須與對影響的強烈偏見相結合。大多數公共部門機構已經發現，傳統的瀑布式開發生命週期以及認證和鑑定過程與AI項目不兼容。敏捷的開發方法（從基於Scrum的領先開發工作方法到完全成熟的DevSecOps方法再到持續交付）對於確保流程和文化也已做好AI的準備至關重要。儘管這種變化通常是緩慢的，並且受規避風險的文化和長期制定的政策的影響而減緩，但它是AI成功案例中的關鍵要素。

通過採用基於任務的數據策略，政府可以避免許多常見的障礙，並立即將其技術才能，知識和有限的預算集中在優先使用案例所需的數據子集上。該策略避免了在沒有計劃的情況下創建數據和工具功能。迭代過程將任務優先級轉換為需求和數據工程任務，生成AI就緒數據，並將數據轉換為見解，從而使投資重點集中並最大化其影響。