資料來源:
https://searchdatamanagement.techtarget.com/The-ultimate-guide-to-big-data-for-businesses
大數據是當今分析應用程序的燃料。此篇文章的大數據指南解釋了企業如何從中受益,以及他們需要準備什麼才能有效地使用它。
大數據技術的發展為企業開啟了豐富的資訊寶庫。在此之前,BI
和分析應用程序,主要局限於存儲在關係數據庫和數據倉庫中的結構化數據,例如交易和財務記錄。許多不符合關係模型,但是潛在有價值的數據都沒有被使用。不過,不會再有了。大數據環境可用於處理、管理和分析許多不同類型的數據。現在可供組織使用的豐富數據,包括客戶數據庫和電子郵件、互聯網點擊記錄、日誌文件、圖像、社交網路文章、感測器數據、醫療資訊等等。
越來越多的公司正在試圖利用所有這些數據來幫助推動更好的業務和決策。諮詢公司
NewVantage Partners在2020年底,對來自
85 家大公司的 IT 和業務主管進行了一項調查,其中
91.9% 的人表示他們正在加快對大數據和相關人工智慧計劃的投資。而96%的投資者在表示此類項目取得了成功。然而,即使是許多新公司也在最大限度地努力,發揮其大數據環境的商業潛力。根據2021
年 1 月發布的年度調查報告,只有
39.3% 的受訪者表示他們的組織將數據作為業務資產進行管理。只有 24%
的人表示他們已經建立了一個數據驅動的組織。
為了幫助大大小小的公司,從流入其系統的數據中獲得更多價值,這份面向企業的大數據綜合指南解釋了它是什麼、它的業務優勢、它帶來的挑戰以及有效使用它的最佳作業。您還將找到大數據用例和大數據技術概述。在整個指南中,都有相關文章的超鏈接,這些文章更深入地涵蓋了這些主題,並提供了有關管理大數據程序的專家建議。
為什麼大數據對企業很重要?
在開發大數據平台和工具之前,許多組織只能將一小部分數據用於營運和分析應用程序。其餘的通常作為所謂的暗數據被推到一邊。這些數據有被處理和存儲,但是沒有進一步使用。有效的大數據管理流程,使企業能夠更好地利用其數據資產。
公司可以擴展了運行的數據分析類型,和他們可以獲得的商業價值。大數據為機器學習、預測分析、數據挖掘、流分析、文章挖掘以及其他數據科學和高級分析學科創造了更多機會。使用這些學科,大數據分析應用程序可以幫助企業更好地了解客戶,識別營運問題,檢測欺詐交易和管理供應鏈,以及其他用途。
如果做得好,最終結果包括更有效的營銷和廣告活動,改進的業務流程,增加收入、降低成本和更強大的策略規劃。所有這些都可以帶來更好的財務結果,和更優於商業競爭對手的競爭優勢。此外大數據有助於在醫療診斷和治療,科學研究和智慧城市計劃,官方執法和其他政府項目方面取得突破。
大數據有哪些不同類型?
大數據包含廣泛的數據類型。雖然大數據系統通常不使用於交易處理,但它們通常存儲交易,客戶記錄,財務資訊,股票市場數據和其他形式的結構化數據,超出通常由傳統數據支持的基本BI
和報告應用程序的分析用途倉庫。
然而真正區分大數據環境的是對於不適合關係數據庫的非結構化,和半結構化數據的支持。非結構化數據包括文檔、電子郵件、調查回覆、呼叫中心成績單和社交媒體中的文章,以及圖像和音頻和錄影文件。半結構化數據的示例包括來自網路、網站、服務器和app的活動日誌,以及來自物聯網設備和工業設備的數據。
大數據的多個V
大數據通常以一組V為特徵,使用以V開頭的詞來解釋其屬性。Doug
Laney 是前Gartner分析師,現在在諮詢公司West
Monroe 工作,他在2001年首次定義了三個V—數量(Volume)、種類和(Variety)速度(Velocity)。現在許多人使用五個V的擴展列表來描述具有這些特徵的大數據包括:
1.體積。大數據沒有構成最小大小級別,但它通常涉及大量數據,例如TB或更多。
2.種類。如上所述,大數據包括可以在同一系統中處理和存儲的各種數據類型。
3.速度。大數據集通常包括即時數據和其他快速生成和更新的資訊。
4.真實(Vavacity)性。這是指不同數據集的準確性和可信度,需要預先評估。
5.價值(Value)。組織還必須了解大數據集可以提供的商業價值,以便有效地使用它。
另一個經常應用於大數據的 V 是可變性(Variability),它指的是同一數據在不同源系統中,可以具有的多種含義或格式。還建立了多達
10 V 的列表。
大數據示例和用例
市場研究公司 IDC 估計,到
2020 年,全球建立或複制了640億TB的數據。並預測到
2025 年這一數字將增長到1800億IB。2020
年總量中約有 10% 是主流企業數據,而且並非所有這些都是大數據。但據
IDC 稱,總體而言企業數據量的增長速度是消費者數據量的兩倍。顯然地,這包括許多企業正在生成和收集的越來越多的大數據。
該數據可用於各種批處理和流處理的應用程序,以及交互式查詢、機器學習、預測建模等。AI
研究和諮詢公司 Cognilytica 的首席分析師兼管理合夥人
Ronald Schmelzer 在一篇文章中概述了大數據的八個常見用例,以及行業示例。他的清單包括以下用途:
1.獲得客戶的
360 度視圖,以幫助最佳化營銷、增加銷售和升級客戶服務。改善客戶的獲取和保留。這同樣可以通過更好地了解客戶需求和偏好來實現。
2.通過更好地識別可疑交易和安全威脅,來加強欺詐預防和網路安全保護。改進業務預測和流程,最佳化產品定價並提高營運效率。
3.為企業網站、流媒體服務和在線廣告開發個性化和推薦系統。
4.分析文本、錄影、圖像和音頻,以幫助了解客戶情緒、發現模式並將內容與廣告相匹配。
5.進行預防性維護,以最大限度地減少製造工廠和其他工業營運中的設備故障和停機時間。
6.識別和減輕財務管理、供應鏈、物流營運以及貸款和保險單審查批准中的潛在風險。
大數據的商業利益是什麼?
在一篇關於大數據的商業利益的文章中,分析諮詢公司
TreeHive Strategy 的負責人 Donald Farmer
將大數據描述為“現代商業的命脈”。他列舉了組織的六個潛在好處:更好地洞察客戶,改進營運,增加市場情報,更靈活的供應鏈營運、數據驅動的產品創新,和更複雜的推薦引擎。這些引擎可以更好地適應個人客戶的興趣和偏好。
在更高的層面上,大數據通過產生可操作的洞察力,使公司能夠實施數據驅動的策略和決策,從而使公司受益。還可以為組織查明新的商機、潛在的成本節約和新興市場趨勢。此外由大數據推動的即時分析應用程序可用於向營運經理、呼叫中心代理,銷售代表和其他一線工作人員,提供有關問題的最新資訊和警報。這些是大數據應用程序可以產生的一些商業利益。
常見的大數據挑戰有哪些?
由於其基本性質,大數據往往難以有效處理、管理和使用。大數據環境通常很複雜,需要很好地協調多個系統和工具才能順利協同工作。數據本身也很複雜,特別是當數據集龐大,多變,或涉及流數據。
技術作家 George Lawton 的一篇文章詳細介紹了部署大數據的
10 個挑戰,並就如何避免和解決這些挑戰提供了建議。這些問題可以分為以下幾類:
1.技術挑戰,包括選擇正確的大數據工具和技術,以及設計大數據系統,以便可以根據需要進行擴展。
2.數據管理挑戰,從處理和存儲大量數據到清理、整合、準備和管理它們。
3.分析挑戰,例如確保了解業務需求,以及確保分析結果與組織的業務相關策略。
4.項目管理挑戰,包括控制成本和尋找具備所需大數據技能的員工。僱用和留住技術人員可能特別困難。因為現在對於數據科學家、數據架構師和大數據工程師等的需求量很大。
企業在大數據部署方面面臨著各種挑戰
大數據環境的關鍵要素
大數據管理和分析計劃涉及各種組件和功能。以下是它們需要預先考慮到項目計劃中的一些核心方面。
大數據架構
傳統的數據倉庫可以整合到大數據架構中來存儲結構化數據。不過更常見的是架構數據湖。可以以其原生格式存儲不同的數據集,並且通常建構在
Spark、Hadoop、NoSQL
數據庫和雲端對象存儲服務等技術。其他架構層支持數據管理和分析流程,正如技術作家 Mary
K. Pratt在設計大數據架構所解釋的那樣。堅實的架構還提供了數據工程師建立大數據管道,以將數據匯集到存儲庫和分析應用程序所需的基礎。
大數據分析
大數據系統主要用於分析應用程序,其範圍從簡單的BI和報告,到數據科學團隊完成的各種形式的高級分析。機器學習尤其受益於大數據的可用性。曾經主要是一種科學追求,現在被企業廣泛用於發現大數據集中的模式和異常。
Cognilytica
的另一位首席分析師兼管理合夥人 Kathleen Walch 的一篇文章進一步解釋如何結合大數據和機器學習演算法,以提高分析效率。
大數據採集
在處理和分析大數據集之前,通常需要從內部系統和外部數據來源收集它們。由於數據量大、種類繁多以及可能涉及的不同來源的數量,這可能是一項複雜的工作。數據安全和隱私問題增加了挑戰,現在企業需要遵守
GDPR、CCPA 和其他法規更是如此。在
Pratt 的文章中閱讀有關收集大數據和管理流程的最佳作業的更多資訊。
大數據整合和準備
整合數據集也是大數據環境中的一項關鍵任務。與傳統的數據整合流程相比,它增加了新的要求和挑戰。例如大數據的數量、種類和速度特徵可能不適合傳統的提取、轉換和加載程序。因此數據管理團隊通常必須採用新的大數據整合技術。一旦數據被整合並準備好,就需要為分析做好準備。這個過程包括數據發現、清理、建模、驗證和其他步驟。在以原始形式存儲數據的數據湖中,數據準備工作,通常由數據科學家或數據工程師完成,以滿足各個分析應用程序的需求。
大數據治理
有效的數據治理對於幫助確保大數據集合的一致性和正確使用性也十分重要。以符合隱私法規和內部數據標準等。但是管理大數據給數據管理經理帶來了新的挑戰。因為他們現在經常需要監督各種各樣的數據。作為數據治理計劃的一部分,數據品質管理通常是大數據部署的一個重點。同樣大數據和數據品質的結合,需要新的流程來識別和修復錯誤和其他品質問題。
大數據管理和分析的最佳作業
制定願景、目標和指導方針的企業大數據策略是組織的關鍵起點。在一篇關於制定大數據策略的文章中,Walch
推薦了以下四個步驟:
1.定義貴公司的業務目標,以確保策略與其保持一致。
2.識別可用數據源並評估業務流程中數據使用的當前狀態。
3.識別、優先考慮和記錄滿足您的業務目標的大數據用例。
4.制定一個項目路線圖,其中包括對您的數據架構和現有技術的差距分析,然後在必要時重新確定計劃用例的優先級。
Farmer在另一篇文章中提出了六種大數據最佳作業。除其他外,這包括關注業務需求而不是技術能力、收集和存儲數據以備將來使用、以迭代方式管理不同分析應用程序的大數據集,以及考慮使用雲端來簡化部署並可能降低成本.
組織應採用這些最佳作業作為其大數據計劃的一部分。
大數據技術和工具
Hadoop分佈式處理框架於2006年首次發布,大數據時代正式開始,提供了一個可以處理各種數據集的開源平台。圍繞
Hadoop 建立了廣泛的支持技術生態系統,包括 Spark
數據處理引擎。此外還開發了各種 NoSQL 數據庫,為管理和存儲基於
SQL 的關係數據庫無法處理的數據提供了更多平台。
雖然 Hadoop 的內置
MapReduce 處理引擎已被 Spark 和其他新技術部分取代,但它和其他
Hadoop 組件仍然被許多組織使用。總的來說,現在大數據環境常用的技術包括以下幾類:
1.處理引擎。
例子包括 Spark、Hadoop
MapReduce 和流處理平台,如 Flink、Kafka、Samza、Storm
和 Spark 的結構化流模塊。
2.存儲庫。
例子包括
Hadoop 分佈式文件系統和雲端對象存儲服務,如 Amazon Simple
Storage Service 和 Google Cloud Storage。
3.NoSQL 數據庫。
例子包括
Cassandra、Couchbase、CouchDB、HBase、MarkLogic
Data Hub、MongoDB、Redis
和 Neo4j。
4.SQL 查詢引擎。
例子包括
Drill、Hive、Presto
和 Trino。
5.數據湖和數據倉庫平台。
例子包括
Amazon Redshift、Delta Lake、Google
BigQuery、Kylin 和
Snowflake。
6.商業平台和託管服務。
例子包括
Amazon EMR、Azure HDInsight、Cloudera
Data Platform 和 Google Cloud Dataproc。
了解15
種開源大數據工具的特性和功能,包括上面列出的許多技術。閱讀Hadoop
和 Spark
的比較,檢查它們的架構、處理能力、性能和其他屬性。這些是評估大數據分析工具時要尋找的功能。
大數據的未來趨勢是什麼?
越來越多的組織在雲端中運行大數據系統。通常使用供應商管理的平台,這些平台提供大數據即服務,以簡化部署和持續管理。正如Cognilytica的Schmelzer
在一篇關於大數據趨勢的文章中所寫的那樣,遷移到雲端使企業能夠“處理幾乎無限量的新數據,並按需要為存儲和計算能力付費,而無需維護自己的大型複雜數據中心。他還列出了以下值得注意的趨勢:
1.增加數據多樣性,特別是來自物聯網設備的數據數量不斷增長。這導致更多組織採用邊緣計算,來更好地處理處理工作負載。
2.進一步增加企業對機器學習和其他人工智慧技術的使用。用於數據分析和使聊天機器人,能夠通過更個性化的交互提供更好的客戶支持。
3.更廣泛地採用DataOps作業來管理數據流,並更加關注數據管理。以幫助組織處理數據治理、安全和隱私問題。 |