免费A级毛片无码专区网站-成人国产精品视频一区二区-啊 日出水了 用力乖乖在线-国产黑色丝袜在线观看下-天天操美女夜夜操美女-日韩网站在线观看中文字幕-AV高清hd片XXX国产-亚洲av中文字字幕乱码综合-搬开女人下面使劲插视频

什么是數(shù)據(jù)湖,數(shù)據(jù)湖和數(shù)據(jù)倉庫的區(qū)別是什么?

1、數(shù)據(jù)湖和數(shù)據(jù)倉庫的區(qū)別是什么?01 數(shù)據(jù)倉庫
數(shù)據(jù)倉庫(Data Warehouse),也稱為企業(yè)數(shù)據(jù)倉庫 , 它是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合存儲系統(tǒng) , 它將來自不同來源的結構化數(shù)據(jù)聚合起來,用于業(yè)務智能領域的比較和分析 , 數(shù)據(jù)倉庫是包含多種數(shù)據(jù)的存儲庫,并且是高度建模的 。
數(shù)據(jù)倉庫系統(tǒng)的作用能實現(xiàn)跨業(yè)務條線、跨系統(tǒng)的數(shù)據(jù)整合,為管理分析和業(yè)務決策提供統(tǒng)一的數(shù)據(jù)支持 。數(shù)據(jù)倉庫能夠從根本上幫助你把公司的運營數(shù)據(jù)轉化成為高價值的可以獲取的信息(或知識),并且在恰當?shù)臅r候通過恰當?shù)姆绞桨亚‘數(shù)男畔鬟f給恰當?shù)娜?。
數(shù)據(jù)倉庫針對實時數(shù)據(jù)處理和非結構化數(shù)據(jù)處理能力較弱,以及在業(yè)務在預警預測等方面應用有一定的限制 。
02 數(shù)據(jù)湖
數(shù)據(jù)湖(Data Lake)是Pentaho公司CTO James Dixon提出來一種數(shù)據(jù)存儲理念―即在系統(tǒng)或存儲庫中以自然格式存儲數(shù)據(jù)的方法 。數(shù)據(jù)湖作為一個集中的存儲庫,可以在其中存儲任意規(guī)模的結構化和非結構化數(shù)據(jù) 。在數(shù)據(jù)湖中,可以存儲不需要對其進行結構化的數(shù)據(jù),這樣就可以運行不同類型的分析 。下面的定義是維基百科所給出的“數(shù)據(jù)湖”定義 。
數(shù)據(jù)湖(Data Lake)是一個存儲企業(yè)的各種各樣原始數(shù)據(jù)的大型倉庫,其中的數(shù)據(jù)可供存取、處理、分析及傳輸 。數(shù)據(jù)湖是以其自然格式存儲的數(shù)據(jù)的系統(tǒng)或存儲庫,通常是對象Blob或文件 。數(shù)據(jù)湖通常是企業(yè)所有數(shù)據(jù)的單一存儲,包括源系統(tǒng)數(shù)據(jù)的原始副本,以及用于報告、可視化、分析和機器學習等任務的轉換數(shù)據(jù) 。數(shù)據(jù)湖可以包括來自關系數(shù)據(jù)庫(行和列)的結構化數(shù)據(jù),半結構化數(shù)據(jù)(CSV , 日志,XML , JSON),非結構化數(shù)據(jù)(電子郵件 , 文檔 , PDF)和二進制數(shù)據(jù)(圖像,音頻 , 視頻) 。
數(shù)據(jù)湖能夠幫助企業(yè)實現(xiàn)數(shù)據(jù)的集中式管理等多種能力;數(shù)據(jù)湖融合了先進的數(shù)據(jù)科學、機器學習和人工智能技術 , 幫助企業(yè)構建更加優(yōu)化的數(shù)據(jù)運營模型,為企業(yè)提供預測分析、推薦模型等能力,這些模型能夠刺激企業(yè)能力的持續(xù)增長,不斷賦能于企業(yè)增長 。數(shù)據(jù)湖能從以下方面幫助到企業(yè):
實現(xiàn)數(shù)據(jù)治理;
通過應用機器學習與人工智能技術實現(xiàn)商業(yè)智能;
預測分析和模型推薦 , 例如:領域特定的推薦引擎 ;
信息追蹤與一致性保障;
基于歷史數(shù)據(jù)分析生成新的數(shù)據(jù)維度,挖掘數(shù)據(jù)深度價值;
提供集中式存儲的企業(yè)數(shù)據(jù)中心 , 并提供基于數(shù)據(jù)傳輸優(yōu)化的數(shù)據(jù)服務;
協(xié)助企業(yè)實現(xiàn)靈活的增長決策 。
數(shù)據(jù)湖就是一個集中存儲數(shù)據(jù)庫 , 用于存儲所有結構化和非結構化數(shù)據(jù) 。數(shù)據(jù)湖可用其原生格式存儲任何類型的數(shù)據(jù),這是沒有大小限制 。
數(shù)據(jù)倉庫是位于多個數(shù)據(jù)庫上的大容量存儲庫 。它的作用是存儲大量的結構化數(shù)據(jù),并能進行頻繁和可重復的分析 。
數(shù)據(jù)科學家
可能會用具有預測建模和統(tǒng)計分析等功能的高級分析工具 。而數(shù)據(jù)倉庫就是數(shù)據(jù)倉庫非常適用于月度報告等操作用途,因為它具有高度結構化 。在架構中數(shù)據(jù)湖通常,在存儲數(shù)據(jù)之后定義架構 。使用較少的初始工作并提供更大的靈活性 。
在數(shù)據(jù)倉庫中存儲數(shù)據(jù)之前定義架構 。這需要你清理和規(guī)范化數(shù)據(jù),這意味著架構的靈活性要低不少 。
其實數(shù)據(jù)倉庫和數(shù)據(jù)湖是我們都需要的地方,數(shù)據(jù)倉庫非常適用于業(yè)務實踐中常見的可重復報告 。當我們執(zhí)行不太直接的分析時,數(shù)據(jù)湖就很有用 。

什么是數(shù)據(jù)湖,數(shù)據(jù)湖和數(shù)據(jù)倉庫的區(qū)別是什么?

文章插圖
文章插圖
2、如何區(qū)別數(shù)據(jù)庫、數(shù)據(jù)中臺、數(shù)據(jù)湖?我們談論數(shù)據(jù)中臺之前 ,  我們也聽到過數(shù)據(jù)平臺、數(shù)據(jù)倉庫、數(shù)據(jù)湖的相關概念,它們都與數(shù)據(jù)有關系,但他們和數(shù)據(jù)中臺有什么樣的區(qū)別, 下面我們將圍繞數(shù)據(jù)平臺、數(shù)據(jù)倉庫、數(shù)據(jù)湖和數(shù)據(jù)中臺的區(qū)別進行介紹 。
01 數(shù)據(jù)倉庫
數(shù)據(jù)倉庫(Data Warehouse),也稱為企業(yè)數(shù)據(jù)倉庫,它是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合存儲系統(tǒng),它將來自不同來源的結構化數(shù)據(jù)聚合起來,用于業(yè)務智能領域的比較和分析,數(shù)據(jù)倉庫是包含多種數(shù)據(jù)的存儲庫,并且是高度建模的 。
數(shù)據(jù)倉庫系統(tǒng)的作用能實現(xiàn)跨業(yè)務條線、跨系統(tǒng)的數(shù)據(jù)整合,為管理分析和業(yè)務決策提供統(tǒng)一的數(shù)據(jù)支持 。數(shù)據(jù)倉庫能夠從根本上幫助你把公司的運營數(shù)據(jù)轉化成為高價值的可以獲取的信息(或知識),并且在恰當?shù)臅r候通過恰當?shù)姆绞桨亚‘數(shù)男畔鬟f給恰當?shù)娜?。
數(shù)據(jù)倉庫針對實時數(shù)據(jù)處理和非結構化數(shù)據(jù)處理能力較弱,以及在業(yè)務在預警預測等方面應用有一定的限制 。
02 數(shù)據(jù)湖
數(shù)據(jù)湖(Data Lake)是Pentaho公司CTO James Dixon提出來一種數(shù)據(jù)存儲理念―即在系統(tǒng)或存儲庫中以自然格式存儲數(shù)據(jù)的方法 。數(shù)據(jù)湖作為一個集中的存儲庫 , 可以在其中存儲任意規(guī)模的結構化和非結構化數(shù)據(jù) 。在數(shù)據(jù)湖中,可以存儲不需要對其進行結構化的數(shù)據(jù) , 這樣就可以運行不同類型的分析 。下面的定義是維基百科所給出的“數(shù)據(jù)湖”定義 。
數(shù)據(jù)湖(Data Lake)是一個存儲企業(yè)的各種各樣原始數(shù)據(jù)的大型倉庫,其中的數(shù)據(jù)可供存取、處理、分析及傳輸 。數(shù)據(jù)湖是以其自然格式存儲的數(shù)據(jù)的系統(tǒng)或存儲庫,通常是對象Blob或文件 。數(shù)據(jù)湖通常是企業(yè)所有數(shù)據(jù)的單一存儲,包括源系統(tǒng)數(shù)據(jù)的原始副本,以及用于報告、可視化、分析和機器學習等任務的轉換數(shù)據(jù) 。數(shù)據(jù)湖可以包括來自關系數(shù)據(jù)庫(行和列)的結構化數(shù)據(jù),半結構化數(shù)據(jù)(CSV,日志 , XML,JSON),非結構化數(shù)據(jù)(電子郵件,文檔,PDF)和二進制數(shù)據(jù)(圖像,音頻,視頻) 。
數(shù)據(jù)湖能夠幫助企業(yè)實現(xiàn)數(shù)據(jù)的集中式管理等多種能力;數(shù)據(jù)湖融合了先進的數(shù)據(jù)科學、機器學習和人工智能技術,幫助企業(yè)構建更加優(yōu)化的數(shù)據(jù)運營模型,為企業(yè)提供預測分析、推薦模型等能力 , 這些模型能夠刺激企業(yè)能力的持續(xù)增長,不斷賦能于企業(yè)增長 。數(shù)據(jù)湖能從以下方面幫助到企業(yè):
實現(xiàn)數(shù)據(jù)治理;
通過應用機器學習與人工智能技術實現(xiàn)商業(yè)智能;
預測分析和模型推薦,例如:領域特定的推薦引擎 ;
信息追蹤與一致性保障;
基于歷史數(shù)據(jù)分析生成新的數(shù)據(jù)維度,挖掘數(shù)據(jù)深度價值;
提供集中式存儲的企業(yè)數(shù)據(jù)中心 , 并提供基于數(shù)據(jù)傳輸優(yōu)化的數(shù)據(jù)服務;
協(xié)助企業(yè)實現(xiàn)靈活的增長決策 。
03 數(shù)據(jù)平臺
數(shù)據(jù)平臺是在大數(shù)據(jù)基礎上出現(xiàn)的融合了結構化和非結構化數(shù)據(jù)的數(shù)據(jù)基礎平臺,為業(yè)務提供服務的方式主要是直接提供數(shù)據(jù)集 。
數(shù)據(jù)平臺的出現(xiàn)是為了解決數(shù)據(jù)倉庫不能處理非結構化數(shù)據(jù)和報表開發(fā)周期長的問題,所以先撇開業(yè)務需求、把企業(yè)所有的數(shù)據(jù)都抽取出來放到一起,成為一個大的數(shù)據(jù)集,其中有結構化數(shù)據(jù)、非結構化數(shù)據(jù)等 。當業(yè)務方有需求的時候,再把他們需要的若干個小數(shù)據(jù)集單獨提取出來 , 以數(shù)據(jù)集的形式提供給數(shù)據(jù)應用 。
大數(shù)據(jù)時代,數(shù)據(jù)平臺一般被稱之為大數(shù)據(jù)平臺 。狹義上的大數(shù)據(jù)平臺和傳統(tǒng)數(shù)據(jù)平臺的功能一致 , 只是技術架構和數(shù)據(jù)容量方面的不同,但廣義的大數(shù)據(jù)平臺通常被賦予更多的使命,它不僅存儲多樣化的數(shù)據(jù)類型,還具有報表分析等數(shù)據(jù)倉庫的功能 , 以及其他數(shù)據(jù)分析挖掘方面的高級功能 。
04 數(shù)據(jù)中臺
數(shù)據(jù)中臺通過對企業(yè)內外部多源異構的數(shù)據(jù)采集、治理、建模、分析和應用,使數(shù)據(jù)對內優(yōu)化管理提高業(yè)務價值,對外進行數(shù)據(jù)合作讓業(yè)務價值得到釋放,使之成為企業(yè)數(shù)據(jù)資產管理中樞 。數(shù)據(jù)中臺建立后,會形成數(shù)據(jù)API服務,為企業(yè)和客戶提供高效各種數(shù)據(jù)服務 。
數(shù)據(jù)中臺對一個企業(yè)的數(shù)字化轉型和可持續(xù)發(fā)展起著至關重要的作用 。數(shù)據(jù)中臺為解耦而生 , 企業(yè)建設數(shù)據(jù)中臺的最大意義就是應用與數(shù)據(jù)之間的解藕,這樣企業(yè)就可以不受限制地按需構建滿足業(yè)務需求的數(shù)據(jù)應用 。
構建了開放、靈活、可擴展的企業(yè)級統(tǒng)一數(shù)據(jù)管理和分析平臺,將企業(yè)內、外部數(shù)據(jù)隨需關聯(lián),打破了數(shù)據(jù)的系統(tǒng)界限 。
利用大數(shù)據(jù)智能分析、數(shù)據(jù)可視化等技術,實現(xiàn)了數(shù)據(jù)共享、日常報表自動生成、快速和智能分析,滿足企業(yè)各級部門之間的數(shù)據(jù)分析應用需求 。
深度挖掘數(shù)據(jù)價值,助力企業(yè)數(shù)字化轉型落地 。實現(xiàn)了數(shù)據(jù)的目錄、模型、標準、認責、安全、可視化、共享等管理,實現(xiàn)數(shù)據(jù)集中存儲、處理、分類與管理 , 建立大數(shù)據(jù)分析工具庫、算法服務庫 , 實現(xiàn)報表生成自動化、數(shù)據(jù)分析敏捷化、數(shù)據(jù)挖掘可視化,實現(xiàn)數(shù)據(jù)質量評估、落地管理流程 。
05 數(shù)據(jù)倉庫 VS 數(shù)據(jù)湖
相較而言 , 數(shù)據(jù)湖是較新的技術 , 擁有不斷演變的架構 。數(shù)據(jù)湖存儲任何形式(包括結構化和非結構化)和任何格式(包括文本、音頻、視頻和圖像)的原始數(shù)據(jù) 。根據(jù)定義 , 數(shù)據(jù)湖不會接受數(shù)據(jù)治理,但專家們一致認為良好的數(shù)據(jù)管理對預防數(shù)據(jù)湖轉變?yōu)閿?shù)據(jù)沼澤不可或缺 。數(shù)據(jù)湖在數(shù)據(jù)讀取期間創(chuàng)建模式 。與數(shù)據(jù)倉庫相比,數(shù)據(jù)湖缺乏結構性,而且更靈活,并且提供了更高的敏捷性 。值得一提的是,數(shù)據(jù)湖非常適合使用機器學習和深度學習來執(zhí)行各種任務 , 比如數(shù)據(jù)挖掘和數(shù)據(jù)分析,以及提取非結構化數(shù)據(jù)等 。
06 數(shù)據(jù)倉庫 VS 數(shù)據(jù)平臺
由于數(shù)據(jù)倉庫具有歷史性的特性,其中存儲的數(shù)據(jù)大多是結構化數(shù)據(jù);而數(shù)據(jù)平臺的出現(xiàn)解決了數(shù)據(jù)倉庫不能處理非結構化數(shù)據(jù)和報表開發(fā)周期長的問題 。
通過以上的論述 , 我們發(fā)現(xiàn)數(shù)據(jù)平臺和數(shù)據(jù)湖好像存在諸多相似性,這二者之間的區(qū)別 , 從個人角度理解上分析應該是數(shù)據(jù)加工的角度不同,數(shù)據(jù)湖更著重于對原始數(shù)據(jù)的存儲,而數(shù)據(jù)平臺則同數(shù)據(jù)倉庫一樣 , 需對原始數(shù)據(jù)進行清洗、轉換等數(shù)據(jù)處理后按照統(tǒng)一的標準規(guī)范進行存儲 。
07 數(shù)據(jù)倉庫 VS 數(shù)據(jù)中臺
數(shù)據(jù)倉庫和傳統(tǒng)的數(shù)據(jù)平臺 , 其出發(fā)點為一個支撐性的技術系統(tǒng) , 即一定要先考慮我具有什么數(shù)據(jù),然后我才能干什么,因此特別強調數(shù)據(jù)質量和元數(shù)據(jù)管理;而數(shù)據(jù)中臺的第一出發(fā)點不是數(shù)據(jù)而是業(yè)務,一開始不用看你系統(tǒng)里面有什么數(shù)據(jù),而是去解決你的業(yè)務問題需要什么樣的數(shù)據(jù)服務 。
在具體的技術處理環(huán)節(jié) , 二者也有明顯不同,數(shù)據(jù)的預處理流程正在從傳統(tǒng)的ETL結構向ELT結構轉變 。傳統(tǒng)的數(shù)據(jù)倉庫集成處理架構是ETL結構,這是構建數(shù)據(jù)倉庫的重要一環(huán),即用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去 。而大數(shù)據(jù)背景下的架構體系是ELT結構,其根據(jù)上層的應用需求,隨時從數(shù)據(jù)中臺中抽取想要的原始數(shù)據(jù)進行建模分析 。
08 總結
根據(jù)以上數(shù)據(jù)平臺、數(shù)據(jù)倉庫、數(shù)據(jù)湖和數(shù)據(jù)中臺的概念論述和對比 , 我們進行如下總結:
數(shù)據(jù)中臺、數(shù)據(jù)倉庫和數(shù)據(jù)湖沒有直接的關系;
數(shù)據(jù)中臺、數(shù)據(jù)平臺、數(shù)據(jù)倉庫和數(shù)據(jù)湖在某個維度上為業(yè)務產生價值的形式有不同的側重;
數(shù)據(jù)中臺是企業(yè)級的邏輯概念,體現(xiàn)企業(yè)數(shù)據(jù)向業(yè)務價值轉化的能力,為業(yè)務提供服務的主要方式是數(shù)據(jù) API;
數(shù)據(jù)平臺是在大數(shù)據(jù)基礎上出現(xiàn)的融合了結構化和非結構化數(shù)據(jù)的數(shù)據(jù)基礎平臺,為業(yè)務提供服務的方式主要是直接提供數(shù)據(jù)集;
數(shù)據(jù)中臺距離業(yè)務更近,能夠更快速的響應業(yè)務和應用開發(fā)需求,從而為業(yè)務提供速度更快的服務;
數(shù)據(jù)中臺可以建立在數(shù)據(jù)倉庫和數(shù)據(jù)平臺之上,是加速企業(yè)從數(shù)據(jù)到業(yè)務價值的過程的中間層 。
數(shù)據(jù)湖、數(shù)據(jù)倉庫和數(shù)據(jù)中臺,他們并沒有直接的關系,只是他們?yōu)闃I(yè)務產生價值的形式有不同的側重 。
一、區(qū)別:
數(shù)據(jù)湖作為一個集中的存儲庫,可以在其中存儲任意規(guī)模的所有結構化和非結構化數(shù)據(jù) 。在數(shù)據(jù)湖中,可以存儲數(shù)據(jù)不需要對其進行結構化,就可以運行不同類型的分析 。
數(shù)據(jù)倉庫,也稱為企業(yè)數(shù)據(jù)倉庫,是一種數(shù)據(jù)存儲系統(tǒng),它將來自不同來源的結構化數(shù)據(jù)聚合起來,用于業(yè)務智能領域的比較和分析,數(shù)據(jù)倉庫是包含多種數(shù)據(jù)的存儲庫,并且是高度建模的 。
數(shù)據(jù)中臺是一個承接技術,引領業(yè)務,構建規(guī)范定義的、全域可連接萃取的、智慧的數(shù)據(jù)處理平臺,建設目標是為了高效滿足前臺數(shù)據(jù)分析和應用的需求 。數(shù)據(jù)中臺距離業(yè)務更近,能更快速的相應業(yè)務和應用開發(fā)的需求,可追溯 , 更精準 。
二、關系:
數(shù)據(jù)湖、數(shù)據(jù)倉庫更多地是面向不同對象的不同形態(tài)的數(shù)據(jù)資產 。而數(shù)據(jù)中臺更多強調的是服務于前臺,實現(xiàn)邏輯、標簽、算法、模型的復用沉淀 。
數(shù)據(jù)中臺像一個“數(shù)據(jù)工廠”,涵蓋了數(shù)據(jù)湖、數(shù)據(jù)倉庫等存儲組件,隨著數(shù)據(jù)中臺的發(fā)展,未來很有可能數(shù)據(jù)湖和數(shù)據(jù)倉庫的概念會被弱化 。
三、小結:
數(shù)據(jù)空間持續(xù)增長,為了更好地發(fā)揮數(shù)據(jù)價值,未來數(shù)據(jù)技術趨于融合 , 同時也在不斷創(chuàng)新 。
數(shù)據(jù)湖、數(shù)據(jù)倉庫和數(shù)據(jù)中臺,他們并沒有直接的關系 , 只是他們?yōu)闃I(yè)務產生價值的形式有不同的側重 。
數(shù)據(jù)湖作為一個集中的存儲庫,可以在其中存儲任意規(guī)模的所有結構化和非結構化數(shù)據(jù) 。在數(shù)據(jù)湖中,可以村村數(shù)據(jù)不需要對其進行結構化,就可以運行不同類型的分析 。
數(shù)據(jù)倉庫 , 也稱為企業(yè)數(shù)據(jù)倉庫 , 是一種數(shù)據(jù)存儲系統(tǒng),它將來自不同來源的架構華數(shù)據(jù)聚合起來 , 用于業(yè)務職能領域的比較和分析,數(shù)據(jù)倉庫是包含多種數(shù)據(jù)的存儲庫 , 并且是高度建模的 。
數(shù)據(jù)中臺是一個承接技術,引領業(yè)務,構建規(guī)范定義的,全域可連接萃取的、智慧的數(shù)據(jù)處理平臺,建設目標是為了高效滿足前臺數(shù)據(jù)分析和應用的需求 。數(shù)據(jù)中臺距離業(yè)務更近,能更快速的響應業(yè)務和應用開發(fā)的需求,可追溯,更精準 。
什么是數(shù)據(jù)湖,數(shù)據(jù)湖和數(shù)據(jù)倉庫的區(qū)別是什么?

文章插圖
文章插圖
3、數(shù)據(jù)匯集和數(shù)據(jù)湖哪一個先進行數(shù)據(jù)匯集先進行 。
1、數(shù)據(jù)匯集是數(shù)據(jù)中臺數(shù)據(jù)接入的入口 。
2、數(shù)據(jù)湖是一種數(shù)據(jù)存儲的概念,數(shù)據(jù)湖更相當于是數(shù)據(jù)的一種自然狀態(tài) , 數(shù)據(jù)從源端流向這個湖,用戶、應用系統(tǒng)可以在其進行數(shù)據(jù)校驗、取樣或完全的使用數(shù)據(jù) 。
什么是數(shù)據(jù)湖,數(shù)據(jù)湖和數(shù)據(jù)倉庫的區(qū)別是什么?

文章插圖
文章插圖
4、估值380億美元的數(shù)據(jù)湖引領者,Databricks是如何發(fā)展壯大的?阿爾法公社
重度幫助創(chuàng)業(yè)者的天使投資基金

Databricks是一家正在崛起的企業(yè)軟件巨頭 。2021年,它連續(xù)獲得兩輪10億美元級別的大額融資,估值躍升到380億美元,它在數(shù)據(jù)和人工智能領域具有全球雄心 。
Databricks是一個非典型的創(chuàng)業(yè)故事 , 它由七位聯(lián)合創(chuàng)始人創(chuàng)辦,其中大部分是學者 。它從Spark開源項目起步,現(xiàn)在引領了數(shù)據(jù)湖范式,這將加速其與主要競爭對手Snowflake的競爭 。

本文是投資人Matt Turck與Databricks聯(lián)合創(chuàng)始人兼CEO Ali Ghodsi的對話實錄,Matt Turck在2015年就與Databricks的聯(lián)合創(chuàng)始人Ion Stoica有過對話,對于Databricks的情況相當熟悉 。在本文中Ali Ghodsi將透露Databricks從一個開源項目到大型公司的成長經(jīng)歷,以及在團隊 , 產品,進入市?。?擴張等方面積累的洞見,Enjoy 。
科學家創(chuàng)始人們推動Databricks起步
Matt Turck: 我們談一下Databricks的起步,AMPLab、Spark和Databricks,這一切是如何開始的?
Ali Ghodsi:我們當時正處于人工智能革新的風口浪尖:Uber剛剛起步,Airbnb、Twitter處于早期,F(xiàn)acebook還不是巨頭 。他們聲稱,使用20世紀70年代誕生的機器學習算法實現(xiàn)了很好的效果 。

以當時的常識來想這不可能是真的,我們覺得那些算法不可能Work,但他們說,“不 , 我們得到了非常厲害的結果 。”當仔細觀察后,我們的想法被顛覆了――他們確實獲得了驚人的結果 。以現(xiàn)代硬件和大量數(shù)據(jù)為支撐,運用上世紀的算法依舊可以獲得令人難以置信的產出 , 我們對此感到震驚 。我們想:”需要使之普適化” 。例如,在Facebook,他們可以提前檢測到情侶分手,如果地球上的每個企業(yè)都有這種技術,這會對現(xiàn)有商業(yè)產生巨大影響 。這就是AMPLab的起點 。
Matt Turck: 當時AMPLab的Spark是怎么來的?
Ali Ghodsi:圖靈獎得主之一戴夫?帕特森當時是伯克利的教授,他非常相信人們應該聚在一起,打破孤島 。伯克利的教授們放棄了自己的私人辦公室,和所有學生一起在巨大的開放區(qū)域辦公 。
他們試圖解決的機器學習問題以當時的技術背景來說是很有挑戰(zhàn)性的 。AMPLab里做機器學習的人,做數(shù)學的人 , 不得不使用Hadoop,數(shù)據(jù)的每一次迭代都必須運行MapReduce,這樣光是做一次迭代就需要20到30分鐘 。所以當時我們決定:”聯(lián)合起來,建立一個反應快速的基礎架構 ?!蔽覀冊跀?shù)據(jù)上做了很多迭代 。因此,不只是做一次,不只是一個SQL引擎,而是可以做遞歸機器學習的東西,并可以極快地找到數(shù)據(jù)中的內涵模式 。
Matt Turck: Databricks創(chuàng)始故事的特殊之處在于,你們有七、八個聯(lián)合創(chuàng)始人 。回過頭看,擁有這樣一個大的創(chuàng)始團隊利與弊是什么?
Ali Ghodsi:肯定是有利有弊的 。如果你知道如何真正讓由七個人組成的緊密小組真正信任對方,并在一起工作得很好,就會發(fā)生令人驚訝的事情 。我認為Databricks的成功很大程度上歸因于我們互相的信任 。
創(chuàng)業(yè)早期的創(chuàng)始人 , 即使只有兩個人,他們也會爭吵,然后可能會在一兩年內分裂,這就是問題所在 。我們找到了一種方法,使大家真正了解對方的長處和短處,使這段創(chuàng)業(yè)旅程成為一種樂趣 。
人們總說CEO是地球上最漫長的工作,我從來沒有這種感覺 。我有很多聯(lián)合創(chuàng)始人和我在一起,他們一直都在,這對我們來說絕對是一種力量 。如果我們沒有這些人 , 就不會有現(xiàn)在的成就 。
從開源項目到公司,
從0到100萬美元ARR
Matt Turck: 你們是如何從學術性的開源項目(Spark)變成一家公司,然后從0做到1000萬美元ARR的?這背后是否有任何決定性的時刻,或其他特別的增長手段?
Ali Ghodsi:我們從0到100萬美元ARR的旅程非常特別,與其他的旅程非常不同 。我們經(jīng)歷了三個階段,第一個階段是PMF(產品與市場契合)階段,當你有了一個產品,你能找到它與用戶之間的契合點么?這對任何公司都存在挑戰(zhàn) 。
你一旦你找到PMF,接下來就得弄清楚什么是能將該產品與市場聯(lián)系起來的渠道,你的產品或許符合市場需求,但怎么通過渠道銷售呢?事實上,我們一開始在這方面走了彎路,花了幾年時間才確定正確的發(fā)展方向 。在這幾年里 , 為了弄清楚Databricks的正確模式我們進行了大量的實驗 。
接下來,讓我們從產品開始,然后再談談渠道 。
產品方面,我們有在伯克利建立的開源技術 , 但這不一定符合大企業(yè)的需要,因為在大企業(yè),他們沒有來自伯克利的博士 。因此,我們需要為他們大簡化問題 , 我們開始在云中托管它,但事實證明,即使是云版本對他們來說也太復雜了,無法使用 。
因此 , 我們開始與用戶一起進行迭代 。我們在這之后削減了很多特性和功能,甚至可以說重新構建了一個產品 。我們問自己:”如果我們知道現(xiàn)在的一切,回去再做一次,會怎么做?”
于是 , 我們重新做了另一個開源項目,Delta,你可以把它看作Spark為大型企業(yè)所做的非常簡單和自動化的軟件 。當我們在伯克利時 , 我們的產品設想是提供盡可能多的功能和設置項,因為可能是一個博士在用它做研究 。但當我們把產品在企業(yè)中推廣時,我們意識到不是每個人都有博士學位,大家不知道如何使用它 。這就是早期我們遇到的問題 。在渠道方面,錯誤在于,我們在早期真的是非常相信這種產品主導的增長 。
關于銷售,當時我們的設想是,有了一個簡化的產品,我們把它做成基于云的產品,就會有人會使用它,會為它刷信用卡 , 我們會非常成功 。我們可以雇用銷售人員,給年輕人打電話進行推銷 , 我們不會雇傭企業(yè)的銷售人員 。我們更喜歡這種模式,它更便宜 , 更簡單 。
但那是一個錯誤 。你不能憑空選擇你的渠道 。你有一個產品和相應的市場,必須找到正確的渠道來連接它們 。

Databricks如何開發(fā)產品,
數(shù)據(jù)倉庫VS數(shù)據(jù)湖
Matt Turck: 我們一會再繼續(xù)談進入市場 。現(xiàn)在讓我們先談談產品,我在Databricks觀察到的令人著迷的事情之一是 , 你們發(fā)布新產品并將其轉化為一個平臺的速度 。從Spark到機器學習到AI工作臺再到Lakehouse,請向我們介紹一下產品的思路――一個產品如何導致另一個產品的出現(xiàn) 。
Ali Ghodsi:我們從Spark開始起步 , 它讓用戶可以訪問所有數(shù)據(jù);于是人們開始在企業(yè)中創(chuàng)建數(shù)據(jù)庫,并在其中積累了大量數(shù)據(jù) 。但過了一段時間,企業(yè)高管會問:“我不在乎我們獲得和存儲了多少數(shù)據(jù),你能用這些數(shù)據(jù)為我做什么? ”這就是我們試圖建立其他應用程序的原因 。
起初我們的收入很少,然后我們意識到它太復雜了,有太多的選項和配置 。我們就問自己:”如果必須重做,必須簡化,會做什么?”這種思路后的第一個創(chuàng)新是Delta,它重新定義了Spark , 以一種真正企業(yè)友好的簡化方式 。但最初我們沒有將它開源 。

接下來,我們想:“如果拓寬數(shù)據(jù)庫的用途 , 不僅僅是數(shù)據(jù)科學家和機器學習工程師,而是真正廣泛的用例,應該怎么做? ”這就是我們開始重視商業(yè)分析師的原因 。
商業(yè)分析師習慣于像Tableau那樣的操作軟件 。如果他們想做一些更復雜的事情,只能使用SQL 。因此 , 我們在四年前開始致力于構建數(shù)據(jù)倉庫能力 , 把它建立在我們稱為Lakehouse的核心基礎設施中,然后在前年較大規(guī)模的推廣 。
我們的秘訣是:看企業(yè)的問題,弄清楚那是什么,通過實際的客戶問題來深入了解它,把問題帶回來,解決這個問題,在云中與客戶快速迭代 。一旦它有了產品的市場適應性,就把它開放出來 。建立巨大的開源勢頭,幾乎像一個B2C病毒式的形式 。然后,用基于云的SaaS版本將其變現(xiàn) 。
這是受AWS的啟發(fā),當創(chuàng)立Databricks時,我們認為AWS是地球上最好的云計算開源公司 。他們本身不進行開發(fā),其盈利模式基于開源軟件 , 托管它并在上面賺很多錢 。我們只是在這一點上進行了調整和演變 。我們認為:“這是一個偉大的商業(yè)模式 。我們將在云上托管開源軟件 。但不同的是,我們將自己創(chuàng)建開源軟件 。這樣一來,就獲得了相對于其他任何想做同樣事情的人的競爭優(yōu)勢 。” 否則 , 任何人都可以建立任何開源軟件并在云中托管它 。
Matt Turck: 接下來 , 讓我們從Lakehouse開始 , 了解一下數(shù)據(jù)湖和數(shù)據(jù)倉庫的演變,以及Lakehouse是如何在這兩個領域中取得最好的成績 。
Ali Ghodsi:這很簡單 。人們在數(shù)據(jù)湖里存儲所有的數(shù)據(jù):數(shù)據(jù)集,視頻、音頻、隨機文本 , 這既迅速又便宜 。利用各種各樣的數(shù)據(jù)集,你可以基于數(shù)據(jù)湖進行AI創(chuàng)新 , AI與數(shù)據(jù)湖密切相關 。如果你想做BI , 而不是AI,你就使用數(shù)據(jù)倉庫 , 數(shù)據(jù)倉庫和BI有一個單獨的技術堆棧,但是它其實和AI一樣,有很多同樣的數(shù)據(jù)集 。
BI用于回答過去的問題 , 比如上個季度的收入是多少;AI用來問關于未來的問題,哪些客戶將會回來?所以,這意味著需要兩個獨立的堆棧,你必須有兩個數(shù)據(jù)副本,而且你必須管理它們 , 這造成了很多復雜性 。但當年的FAANG(硅谷幾個頂尖互聯(lián)網(wǎng)巨頭的聯(lián)合簡稱)可不是這樣做的,他們有一個統(tǒng)一的平臺 。所以,我們的想法是把這兩個統(tǒng)一成一個平臺―Lakehouse、人工智能數(shù)據(jù)湖–提出關于未來的問題 。這兩者的結合將使企業(yè)能夠更快地發(fā)展 。它是數(shù)據(jù)工程師、數(shù)據(jù)科學家和商業(yè)分析師的平臺,這樣他們就可以在整個企業(yè)內一起工作 。所以這是一個用于AI和BI的數(shù)據(jù)平臺 。
Matt Turck: 實現(xiàn)這一點靠的是什么重大的技術突破么?是Delta Lake?還是Iceberg?那是如何工作的?
Ali Ghodsi:是的,我認為有四個技術突破是在2016、2017年同時發(fā)生的 , Hudi、Hive ACID、Iceberg、Delta Lake,我們貢獻的是Delta Lake 。問題是這樣的,在數(shù)據(jù)湖里有人們收集了所有的數(shù)據(jù),這些數(shù)據(jù)非常有價值,但很難對它們進行結構化查詢 。之前的傳統(tǒng)方式是利用SQL數(shù)據(jù)庫,然后應用在BI領域 。因此,你需要一個單獨的數(shù)據(jù)倉庫 。
為什么這么難?因為數(shù)據(jù)湖是為大數(shù)據(jù)、大數(shù)據(jù)集建立的,它并不是為真正的快速查詢而建立的 。它太慢了,而且沒有任何方法來結構化數(shù)據(jù),并以表格的形式展現(xiàn)數(shù)據(jù),這就是問題所在 。那么,你如何把像一個大的數(shù)據(jù)塊存儲的東西,變成一個數(shù)據(jù)倉庫?這就是這些項目的秘訣 。我們找出了解決這些數(shù)據(jù)湖效率低下的方法,并使用戶能夠直接從數(shù)據(jù)湖的數(shù)據(jù)倉庫中獲得相同的價值 。
Matt Turck: 這種方法有什么取舍嗎?
Ali Ghodsi:事實上并非如此,我們做到了魚與熊掌可以兼得 。我知道這聽起來很瘋狂,但試試就是如此 。我們減少了很多在80、90年代由數(shù)據(jù)倉庫供應商發(fā)明的技術,調整它們,使它們在數(shù)據(jù)湖上工作 。你可以問:“為什么這在10或15年前沒有發(fā)生? ”因為開放標準的生態(tài)系統(tǒng)并不存在,它是隨著時間的推移慢慢出現(xiàn)的 。所以,它從數(shù)據(jù)湖開始,然后有一個很大的實際技術先導突破 。我們在這里談論的,是數(shù)據(jù)的標準化格式 。他們被稱為Parquet和ORC,但這些是數(shù)據(jù)格式 , 行業(yè)要將所有的數(shù)據(jù)集標準化 。
這些類型的標準化步驟是需要的,以獲得數(shù)據(jù)湖的突破 。這有點像USB,一旦你有了它 , 你就可以把任何兩個設備相互連接起來 。所以 , 正在發(fā)生的事情是,開源領域的一個生態(tài)系統(tǒng)正在出現(xiàn),在那里你可以在數(shù)據(jù)湖的范式中做所有的分析 。最終,你將不需要所有這些自八十年代以來的專有舊系統(tǒng),包括數(shù)據(jù)倉庫和其他類似系統(tǒng) 。
Matt Turck: 我會針對這個再問問題 , 業(yè)界有很多關于Snowflake和Databricks之間即將發(fā)生大沖突的議論,作為這個領域的兩個巨大的公司 , 你對未來的看法是,數(shù)據(jù)湖最終成為范式,然后隨著時間的推移,其他一切都被吸收?還是你認為未來更多的是混合,用戶可以用數(shù)據(jù)倉庫做某些事情,數(shù)據(jù)湖做其他事情?
Ali Ghodsi:我將從兩個方面回答這個問題 。首先 , 人們把這說成是零和博弈 , 但你認為谷歌云會淘汰AWS和微軟云,還是AWS會淘汰其他云?沒有人這么認為,對吧 。他們會共存,都將獲得成功 。
數(shù)據(jù)空間是巨大的 。將會有很多供應商參與其中 。我認為Snowflake將獲得成功,他們現(xiàn)在有一個偉大的數(shù)據(jù)倉庫,可能是市場上最好的數(shù)據(jù)倉庫 。而它肯定會與Databricks共存 。事實上,Databricks與Snowflake共存于可能70%的客戶中 。我認為這種情況將繼續(xù)存在,人們將使用數(shù)據(jù)倉庫進行商業(yè)智能 。
但是,如果長期來看,我認為數(shù)據(jù)湖的范式將獲勝 。為什么?因為數(shù)據(jù)太重要了,人們所有的數(shù)據(jù)都在這些數(shù)據(jù)湖中,而且更多的數(shù)據(jù)正在進入數(shù)據(jù)湖中 。公有云計算供應商也有動力推動更多的動力讓人們把數(shù)據(jù)存到他們的數(shù)據(jù)湖中,因為這對他們來說是既得利益 。因此,任何使其真正有價值的解決方案 , 都將是未來的趨勢 。所以,我認為從長遠來看,越來越多的人將傾向于這種數(shù)據(jù)湖的范式 。
為什么Databricks能夠不斷產出創(chuàng)新產品?
Matt Turck: 我想了解你的產品和工程團隊是如何組織的?對于一家公司,能夠在第一個產品成功的基礎上做第二個產品是非常罕見的 。但在這里,我們正在談論,如何成功的做出三個、四個、五個不同的產品 。你的公司是如何管理好團隊組織結構和其他資源,以不斷創(chuàng)新?
Ali Ghodsi:我們從創(chuàng)立Databricks時,就在試圖找到這個問題的答案 。我們不想靠一個單一的產品生存 。當我們有了Spark,卻并沒有把它當成公司的名字,因為如果Spark變得落后了,我們就會把它迭代掉,然后繼續(xù)向前,我們想不斷找到數(shù)據(jù)的最佳答案 。那么如何不斷的有創(chuàng)新產品出現(xiàn)?我認為非常重要的是,要把創(chuàng)新和現(xiàn)有的現(xiàn)金流業(yè)務分開 。
有一本關于這個問題的好書 , 叫Zone To Win 。書中談到 , 當你創(chuàng)造出一些新東西時,你需要快速迭代 。你需要讓工程師直接與客戶交談,甚至不一定要讓產品經(jīng)理來做,快速的創(chuàng)新迭代是最要緊的 。而在在企業(yè)端,你需要一個慢得多的周期來迭代 。
另外,所有的工程和產品團隊組織被分成兩個不同的部分 。一部分專注于企業(yè)客戶需要的東西:加密,安全,認證,穩(wěn)定性等 。另一部分則專注于創(chuàng)新,而且你應該把這些分開,分別的投入資源,否則前者(企業(yè)那部分)將得到所有的資源 。你會傾向于不斷地建立那些擴大你的TAM的東西 。TAM擴展實際上是安全能力,它本身并沒有任何創(chuàng)新 。
我認為,有些公司已經(jīng)做得很好了,比如AWS,它不是一招鮮,亞馬遜本身也不是一招鮮,它不斷有新的創(chuàng)新 。所以我們希望我們的公司也是這樣的,因此取名為Databricks 。
Matt Turck: MLflow Delta Lake, Koalas 。這屬于創(chuàng)新陣營還是商業(yè)陣營的子層?
Ali Ghodsi:這些都是創(chuàng)新陣營 。當然,其中一些項目,當他們不那么創(chuàng)新的時候,像Spark,會轉移到維護方面,我們通常也會移動核心人員 。因此,實際上是同一個人或同一撥人在不斷地進行創(chuàng)新 。我們試圖培養(yǎng)更多的創(chuàng)新者,但我們試圖把那種已經(jīng)真正有訣竅破解從0到1的人轉移到下一個問題,然后把現(xiàn)有的項目移交給其他人去運行,比方說Spark , 這已經(jīng)是一個巨大的成功項目 。
當我們把已經(jīng)創(chuàng)造出東西的人轉移到別的地方去創(chuàng)造下一個東西,對于一個優(yōu)秀人才 , 獲得這種責任是一個很大的職業(yè)提升 。而我們也會發(fā)現(xiàn)誰是擅長從0到1人 。我們實際上是在做實驗,給研發(fā)部門的人一個機會去試驗從0到1的東西,他們并不總是成功 。這需要幾次嘗試,直到他們成為真正擅長的人 。所以你必須慎重考慮這種高失敗的策略 。
開源的商業(yè)模式,有何優(yōu)越性?
Matt Turck: 如果你今天要再開一家企業(yè)軟件公司 , 你會先去開源代碼嗎?
Ali Ghodsi:是的,我認為它很優(yōu)越 。我認為如果你從進化的角度來考慮,它在進化上比以前的商業(yè)模式要好 。為什么我這么說?因為任何專有的軟件公司都是成熟的,可以被開源的競爭者破壞 。因此,任何專有的東西都可以立即被顛覆,就像Windows被Linux顛覆一樣 。我的意思是,那是最先進的東西,是真正復雜的技術操作系統(tǒng),對嗎?你不會認為大學里的某個家伙會發(fā)明,然后成為工業(yè)的標準 。任何專有軟件都是成熟的 , 可以進行這樣的顛覆 。問題是,你能靠它賺錢嗎?在紅帽和所有這些做支持網(wǎng)絡服務的公司之前,這真的很難,直到AWS破解了商業(yè)模式的密碼 。
商業(yè)模式是我們?yōu)槟氵\行軟件,你從我們這里租用它 。這是一個優(yōu)越的商業(yè)模式,因為你實際上可以擁有大量的IP,這是很難復制的 。所以我認為我創(chuàng)辦的下一家公司將是這樣的 。如果你要問我,我的下一次創(chuàng)業(yè)會在哪個領域開始 , 我會在人工智能方面做什么?我會認為我們現(xiàn)在在人工智能方面的應用還很淺層 , 尤其是操作性的人工智能 。人工智能未來將會被嵌入到各個地方 。我知道這很老套 。馬克?安德森說 , 軟件正在吞噬世界 。我們真的相信,人工智能將吞噬所有的軟件 。你擁有的任何軟件,人工智能都會悄悄進入,就像軟件悄悄進入你的 汽車 、冰箱和恒溫器一樣 。所以這真的是早期的事情,我認為任何加入或創(chuàng)辦人工智能領域公司的人,他們還在早期,他們有機會創(chuàng)辦下一個谷歌 。所以這就是我想做的 。
Matt Turck: 我們談到了開源,也繼續(xù)談進入市場的問題 , 在這個階段 , 作為一個非常晚期的創(chuàng)業(yè)公司 。開源在進入市場的過程中處于什么位置?你們進入市場的策略是自下而上與自上而下?你們如何分配BDR小組與AE的工作 , 讓他們協(xié)作而不是互相拖后腿?
Ali Ghodsi:Databricks是混合模式 , 我們是自下而上與自上而下在同一時間結合 。一開始我們是自下而上,但是也會做自上而下的事情 。我們有BDRs和SDRs 。這是一個從市場營銷開始的篩選器 。
Databricks社區(qū)版是完全免費的,你想怎么用就怎么用,永遠不需要付錢,而且有完整的功能 。但是從這里產生的線索會導入到SDR 。因此,這也是一個非常重要的管道 。我們一半的線索來自于此,這就是為什么開源對我們是一個重要的引擎 。
現(xiàn)在,我們也有傳統(tǒng)的企業(yè)銷售動作,比如給CIO遞名片 , 一對一的交流,但發(fā)生的情況是 , 開發(fā)人員在這些組織中也變得越來越強大 。例如,CIO說,我與Databricks的CEO進行了一次很好的談話,我正在 探索 這項技術,但我擔心,這對我們來說是正確的選擇嗎?那家公司的聽眾中會有人說,是的,我使用社區(qū)版 。我們不需要做6個月的POC 。我認識這些人 , 他們真的非常好 , 或者我認識他們,他們來自伯克利 。我已經(jīng)使用了這些技術 。我去參加了一些聚會等 。
因此,這有助于證實用例,你可以消除整個POC,因為他們已經(jīng)知道它是什么,而不是像10-20年前那樣,一個銷售人員進來,解釋這個軟件有多棒,但你不能相信他們 。因此你就必須去做POC,然后去花時間檢驗這個軟件是不是真的有用 。我們不必這樣做,我們可以穿過所有這些層次 。因此,我們把自上而下和自下而上結合起來,而這兩方面對于Databricks的成功都是非常必要的 。
從創(chuàng)業(yè)公司到超級獨角獸,
領導者的修煉之路
Matt Turck: 你已經(jīng)把一家小型創(chuàng)業(yè)公司帶成了超級獨角獸,很快還會上市 。你是如何讓自己完成角色轉變的,從一個講愿景,講故事的人 , 變成管理一個全球組織?
Ali Ghodsi:其實就是如何找到你可以信任的具有領導力的幫手,并和他們建立更深的信任 。我可以把我大部分時間都花在這上面,而公司能夠繼續(xù)正常運行 。我有運行良好的銷售團隊,市場營銷團隊 , 工程團隊,我卻不需要自己直接參與其中,因為我找到了適合領導這些部門的領導者 , 并且花了很多時間與他們建立起信任 。
這是你在早期就要開始準備的事情,早期時,你的組織規(guī)模?。?你可以參與到每個環(huán)節(jié),如臂使指 。但是當團隊規(guī)模擴展到150-200人直到超過鄧巴數(shù) 。你會感覺自己完全被淹沒了 。因此你必須找到可以信任的正確的領導人,而且要找到自己與組織溝通的方法,因為現(xiàn)在不是直接溝通,而是通過領導層間接溝通,所以幫助你與團隊組織溝通的人就特別重要 。
Matt Turck: 你如何找到他們?你是偏向在內部提拔人才,還是從外部引入已經(jīng)獲得成功的高管,哪一個效果更好?你是如何處理的?
Ali Ghodsi:要找到與公司文化相適應的、你能與之建立強大信任的高管是非常困難的,我認為不應該排除任何選項 。如果能夠從內部提拔人 , 那很好,但是如果只是內部晉升,你就不能獲得市場上已經(jīng)存在的成功經(jīng)驗,這種經(jīng)驗可能是超級有價值的 。
如果我們尋找外部的高管,他必須經(jīng)歷過我們現(xiàn)在所處的階段,有實戰(zhàn)的經(jīng)驗 。不是說他必須從零開始創(chuàng)建一個估值幾百億的公司,而是建立和操作過這種階段公司的工程等相應部門,他是否在這個過程中有第一性思考,有自己的沉淀 。我認為能力和智商還是非常重要的 。
文化看起來是個很復雜的東西,但是對與我,會把它分解成一連串問題:我可以和這個人相處嗎?愿意每天花10個小時和他在一起工作么?當事情變得非常棘手和困難的時候,我們能一起去解決問題么?所以你要做的就是花大量時間與這個人相處,然后問自己是否喜歡他們 , 就像婚姻一樣 。你可以問他們一些困難的問題,與他們爭論或者聽取他們的意見,直到確定這就是正確的人 。如果你感覺到自己無法和某個人一起好好工作,那他就可能是文化不匹配 。
本文編譯整理自Matt Turck個人博客 , 略有刪節(jié) 。
關于阿爾法公社
阿爾法公社(Alpha Startup Fund)是中國領先的早期投資基金,由曾帶領公司在納斯達克上市的許四清和前創(chuàng)新工場聯(lián)合管理合伙人蔣亞萌在2015年共同創(chuàng)立 。
阿爾法公社基金的三大特點是系統(tǒng)化投資、社交化創(chuàng)業(yè)者社區(qū)運營和重度產業(yè)資源加速成長 。專注在半導體、企業(yè)服務軟件、人工智能應用、物聯(lián)網(wǎng)技術、金融 科技 等 科技 創(chuàng)新領域進行早期投資 。目前已經(jīng)在天使輪投資了包括白山云 科技 、領創(chuàng)集團(Advance Intelligence Group)、Zenlayer、帷幄 科技 、所思 科技 等為數(shù)眾多的優(yōu)秀項目 。
什么是數(shù)據(jù)湖,數(shù)據(jù)湖和數(shù)據(jù)倉庫的區(qū)別是什么?

文章插圖
文章插圖
5、數(shù)據(jù)中臺由什么組成?“數(shù)據(jù)中臺”重構了企業(yè)數(shù)據(jù)系統(tǒng)的架構,將其分為三個層級:底層底層是數(shù)據(jù)收集層,就是數(shù)據(jù)湖,來自ERP、SRM等各個信息化系統(tǒng)中的業(yè)務數(shù)據(jù)、財務數(shù)據(jù)、大數(shù)據(jù) , 結構化和非結構化數(shù)據(jù)直接匯入這層數(shù)據(jù)湖中,實現(xiàn)統(tǒng)一、集中的數(shù)據(jù)收集 。核心層中間的核心層是數(shù)據(jù)存儲與計算層,核心是通過數(shù)據(jù)建模,形成服務化的數(shù)據(jù)應用 。數(shù)據(jù)模型可以分為基礎模型、融合模型和挖掘模型 ?;A模型一般是關系建模,主要實現(xiàn)數(shù)據(jù)的標準化;融合模型一般是維度建模 , 主要實現(xiàn)跨越數(shù)據(jù)的整合 , 整合的形式可以是匯總、關聯(lián)、解析;挖掘模型是偏應用的模型,作為企業(yè)的知識沉淀在中臺內,可在數(shù)據(jù)應用端調取進行復用 。上層上層是業(yè)務應用層,聚焦于對數(shù)據(jù)的應用和展現(xiàn),核心層的數(shù)據(jù)模型可以共享到這個層級中并實現(xiàn)復用 , 賦能企業(yè)業(yè)務發(fā)展 。數(shù)據(jù)應用通過將數(shù)據(jù)融入企業(yè)具體的業(yè)務經(jīng)營場景中,基于豐富的數(shù)據(jù)模型開展場景化應用,用數(shù)據(jù)解決具體的業(yè)務問題 , 具體應用包括產銷協(xié)同分析、投資分析、產品定價、商品推薦、客戶畫像等,數(shù)據(jù)展現(xiàn)聚焦于以多樣化的形式展現(xiàn)數(shù)據(jù)分析應用的結果,這些形式包括管理駕駛艙、即席分析、自助報告、數(shù)據(jù)大屏、移動APP等 , 系統(tǒng)可以根據(jù)不同用戶在不同場景下的需求調整合適的展現(xiàn)方式 。
樓上講的是比較大的維度,給你舉個例子吧,像WakeData的數(shù)據(jù)中臺惟客通是包含了大數(shù)據(jù)、流計算、數(shù)據(jù)接入、數(shù)據(jù)開發(fā)、數(shù)據(jù)治理、機器學習六大平臺 , 在這些平臺的基礎上提供了自主分析、用戶畫像平臺、開放服務以及智能推薦等數(shù)據(jù)應用服務 。
【什么是數(shù)據(jù)湖,數(shù)據(jù)湖和數(shù)據(jù)倉庫的區(qū)別是什么?】數(shù)據(jù)中臺其實是一個數(shù)據(jù)運轉站,它包含了大數(shù)據(jù)平臺、數(shù)據(jù)處理工具和數(shù)據(jù)應用三個層面的系統(tǒng)、產品和服務 。

    經(jīng)驗總結擴展閱讀