2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
這是一場(chǎng)緊跟技術(shù)變革浪潮的狂野之旅。一些公司錯(cuò)過(guò)了這波浪潮,而另一些公司抓住了它,只是在它達(dá)到頂峰時(shí)就出局了。在大數(shù)據(jù)的世界里,Vertica已經(jīng)養(yǎng)成了一個(gè)習(xí)慣:一波接一波地捕捉、定位、使勁劃水,然后在它旋轉(zhuǎn)的時(shí)候懸掛10個(gè)。
作為大數(shù)據(jù)服務(wù)的早期參與者,Vertica已經(jīng)順利地從一個(gè)趨勢(shì)過(guò)渡到下一個(gè)趨勢(shì),無(wú)論是模型-視圖-演示架構(gòu)、使用Hadoop分布式文件系統(tǒng)的大數(shù)據(jù),還是HDFS,通過(guò)數(shù)據(jù)科學(xué)和數(shù)據(jù)分析,過(guò)渡到云計(jì)算和機(jī)器學(xué)習(xí)。Vertica是目前唯一一個(gè)同時(shí)提供本地計(jì)算和云計(jì)算的平臺(tái),隨著Vertica version 10的發(fā)布,該平臺(tái)的部署靈活性又上了一個(gè)臺(tái)階。
“Vertica的核心是一種真正的工程文化,”微焦點(diǎn)國(guó)際有限公司Vertica產(chǎn)品管理和營(yíng)銷副總裁Joy King(如圖)說(shuō)?!斑@意味著我們不會(huì)假裝知道即將發(fā)生的一切。但我們致力于擁抱技術(shù)趨勢(shì)和創(chuàng)新。我們不會(huì)假裝什么都知道;我們什么都做?!?/p>
在虛擬Vertica大數(shù)據(jù)會(huì)議期間,金與SiliconANGLE Media的移動(dòng)直播工作室theCUBE的主持人戴夫?韋蘭特進(jìn)行了交談。他們討論了數(shù)據(jù)方面的趨勢(shì),以及Vertica如何使機(jī)器學(xué)習(xí)模型變得透明和可復(fù)制。(*披露如下。)
[編者注:為清晰起見(jiàn),以下內(nèi)容已被壓縮。]
我對(duì)我們的一些客人說(shuō)過(guò)Vertica一直都很擅長(zhǎng)駕馭潮流。你認(rèn)為目前的趨勢(shì)是什么?你正在駕馭的巨浪。
King:數(shù)據(jù)增長(zhǎng)和數(shù)據(jù)豎井是趨勢(shì)一。Hadoop是一只非常能干的大象,但它不可能是一個(gè)完整的動(dòng)物園。所以,市場(chǎng)上有很多令人失望的東西,但是HDFS中有很多數(shù)據(jù)。再加上云對(duì)象存儲(chǔ)的爆炸式增長(zhǎng),你會(huì)看到更多的數(shù)據(jù),甚至更多的數(shù)據(jù)豎井。
趨勢(shì)二是云現(xiàn)實(shí)。云帶來(lái)了很多好處;公共云計(jì)算提供了如此多的機(jī)會(huì)。但我認(rèn)為,我們現(xiàn)在已經(jīng)了解了足夠多的東西,知道還有一些現(xiàn)實(shí)。這比我們預(yù)期的要貴一些,還有一些安全和隱私方面的問(wèn)題,還有一些工作負(fù)載不能放到云上,所以混合和多云部署是下一個(gè)趨勢(shì),是必須的。
就改變世界而言,最令人興奮的趨勢(shì)——我們現(xiàn)在可以做一點(diǎn)小小的改變——就是機(jī)器學(xué)習(xí)的運(yùn)作化。這項(xiàng)技術(shù)有很大的潛力,但在很大程度上,它被困在了科學(xué)項(xiàng)目和數(shù)據(jù)科學(xué)實(shí)驗(yàn)室中,現(xiàn)在是時(shí)候?qū)⑺度胧褂昧恕?/p>
我想我們都知道,數(shù)據(jù)分析,機(jī)器學(xué)習(xí),這些都不能帶來(lái)真正的價(jià)值,除非有大量的數(shù)據(jù)能夠真正預(yù)測(cè)和影響未來(lái)。過(guò)去7到10年,正確地說(shuō),是關(guān)于收集數(shù)據(jù),把數(shù)據(jù)放到一個(gè)公共位置。而HDFS正是為此而精心設(shè)計(jì)的?,F(xiàn)在的關(guān)鍵是,我們?nèi)绾卫盟羞@些數(shù)據(jù)?這正是Vertica關(guān)注的。
Vertica 10.0剛剛發(fā)布。有什么亮點(diǎn)?
King:在Eon模式下的Vertica允許工作負(fù)載隔離,這意味著分配不同用例需要的計(jì)算資源,而不允許它們干擾其他用例,并允許每個(gè)人訪問(wèn)數(shù)據(jù)。所以,這是一種很好的方式,既能把企業(yè)界團(tuán)結(jié)起來(lái),又能保護(hù)他們不受彼此傷害。
通過(guò)Vertica 10.0,我們?yōu)镠DFS引入了Eon模式的Vertica,為谷歌云引入了Eon模式的Vertica。HDFS的Eon模式是一種將ANSI SQL數(shù)據(jù)庫(kù)管理平臺(tái)應(yīng)用于HDFS基礎(chǔ)設(shè)施和HDFS文件存儲(chǔ)中的數(shù)據(jù)的方式。這是利用許多公司在HDFS上的投資的好方法。我認(rèn)為善待大象是公平的。
您擊敗了許多云玩家,因?yàn)樗鼈儞碛歇?dú)立的計(jì)算和存儲(chǔ)功能。這是Vertica的一個(gè)不同之處,假設(shè)你給了我云體驗(yàn)、許可和定價(jià)能力。你能解釋一下Vertica是如何處理許可和費(fèi)用的嗎?
金:毫無(wú)疑問(wèn),公共云帶來(lái)了計(jì)算和存儲(chǔ)的分離以及這些優(yōu)勢(shì)。但他們沒(méi)有能力,也沒(méi)有興趣,來(lái)復(fù)制這種內(nèi)部模式。對(duì)于Vertica,我們生來(lái)就是只做軟件的。我們不收取底層硬件的費(fèi)用,所以我們完全有動(dòng)力去獨(dú)立于它,并不斷優(yōu)化軟件使其盡可能的高效。
Vertica為我們的客戶提供每個(gè)節(jié)點(diǎn)和每tb的數(shù)據(jù),具體取決于他們的用例。我們還為需要資本支出的客戶提供永久許可證。但我們也為那些說(shuō)“不”的公司提供訂閱服務(wù)。我必須有OPEX?!斑@肯定會(huì)給我們的實(shí)地組織帶來(lái)一些復(fù)雜性;我們知道這一切都是關(guān)于選擇的,當(dāng)今世界的每個(gè)人都想讓它個(gè)性化,而這正是我們?cè)诙▋r(jià)和授權(quán)方面所做的。
所以,我的結(jié)論是選擇和定價(jià)。太好了?,F(xiàn)在讓我們討論一下存儲(chǔ)的可選性。你有亞馬遜網(wǎng)絡(luò)服務(wù)公司,我假設(shè)現(xiàn)在谷歌有限責(zé)任公司,純存儲(chǔ)公司是合作伙伴…
King:我們支持谷歌對(duì)象存儲(chǔ)、Amazon S3對(duì)象存儲(chǔ)、HDFS、純存儲(chǔ)FlashBlade,這是一個(gè)prem對(duì)象存儲(chǔ),我們將繼續(xù)沿著這條路走下去。因?yàn)?,最終,我們知道我們的客戶需要有下一代數(shù)據(jù)中心架構(gòu)的選擇,這是一種共享或公共存儲(chǔ),所以所有的數(shù)據(jù)都在一個(gè)地方,但是工作負(fù)載可以在數(shù)據(jù)上獨(dú)立管理,這正是我們正在做的。
讓我們來(lái)談?wù)剬C(jī)器智能應(yīng)用到數(shù)據(jù)上,也就是其中的機(jī)器學(xué)習(xí)部分。你有什么故事?
金:幾年前,我們開(kāi)始在Vertica中構(gòu)建一些數(shù)據(jù)庫(kù)內(nèi)的、本地的數(shù)據(jù)庫(kù)內(nèi)機(jī)器學(xué)習(xí)算法。我們這樣做的原因是我們知道MPP柱狀結(jié)構(gòu)的執(zhí)行將顯著提高性能。我們也知道很多人說(shuō)SQL。那么,如果我們可以通過(guò)SQL訪問(wèn)數(shù)據(jù)庫(kù)中的機(jī)器學(xué)習(xí),并提供這種性能,結(jié)果會(huì)怎樣呢?這就是我們開(kāi)始的旅程。
然后我們意識(shí)到,實(shí)際上機(jī)器學(xué)習(xí)遠(yuǎn)不止是算法,大家都知道。因此,我們隨后構(gòu)建了完整的端到端機(jī)器學(xué)習(xí)功能,從數(shù)據(jù)準(zhǔn)備到模型培訓(xùn)、模型評(píng)分和評(píng)估,一直到全面部署。所有這些sql都是可訪問(wèn)的。你說(shuō)SQL;你對(duì)數(shù)據(jù)說(shuō)話。這種方法的另一個(gè)優(yōu)點(diǎn)是,我們意識(shí)到如果你減少樣本,準(zhǔn)確性就會(huì)降低。
如果您將數(shù)據(jù)的一部分從數(shù)據(jù)庫(kù)移動(dòng)到專門(mén)的機(jī)器學(xué)習(xí)平臺(tái),您將面臨準(zhǔn)確性和業(yè)界所謂的可復(fù)制性的挑戰(zhàn)。這意味著,如果一個(gè)模型做出了一個(gè)決定,比如說(shuō)信用評(píng)分,而這個(gè)決定在任何方面都受到了挑戰(zhàn),那么,你必須能夠復(fù)制它,來(lái)證明你的決定是正確的。
就在不久前,媒體還對(duì)一項(xiàng)似乎帶有性別偏見(jiàn)的信用評(píng)分決定大發(fā)雷霆,但不幸的是,由于這種模式無(wú)法復(fù)制,沒(méi)有辦法反駁這一點(diǎn),這不是一件好事。
所有這些都被內(nèi)置到Vertica中,有了Vertica 10,我們又進(jìn)了一步。就像Hadoop一樣,我們知道創(chuàng)新不僅發(fā)生在Vertica內(nèi)部,也發(fā)生在Vertica外部。我們發(fā)現(xiàn),數(shù)據(jù)科學(xué)家真的很喜歡他們喜歡的語(yǔ)言,比如Python;他們喜歡自己的工具和平臺(tái),比如TensorFlow。使用Vertica 10,我們現(xiàn)在甚至更多地集成了Python,我們已經(jīng)有一段時(shí)間了,但是我們也集成了TensorFlow集成和PMML。
這是什么意思?這意味著,如果您使用自己喜歡的機(jī)器學(xué)習(xí)平臺(tái),在Vertica之外構(gòu)建并訓(xùn)練一個(gè)模型,那么您可以將該模型導(dǎo)入Vertica,并在整個(gè)端到端流程上運(yùn)行它,但在所有數(shù)據(jù)上運(yùn)行它。沒(méi)有更多的精度挑戰(zhàn),MPP柱狀執(zhí)行,所以它非???。如果有人想知道為什么一個(gè)模型要做決定,你可以復(fù)制那個(gè)模型,然后解釋為什么。
它也帶來(lái)了文化的統(tǒng)一。它將使用SQL的業(yè)務(wù)分析師社區(qū)與熱愛(ài)TensorFlow和Python等工具的數(shù)據(jù)科學(xué)家社區(qū)統(tǒng)一起來(lái)。
在如此多的機(jī)器智能和人工智能中,存在一個(gè)無(wú)法復(fù)制模型的黑箱問(wèn)題;然后你就會(huì)遇到潛在的性別偏見(jiàn)。能夠復(fù)制它,并使機(jī)器智能透明化是非常非常重要的。
金:的確如此,這種可復(fù)制性和準(zhǔn)確性是至關(guān)重要的,因?yàn)槿绻阆蛳虏蓸?,在不同的?shù)據(jù)集上運(yùn)行模型,事情就會(huì)變得混亂。在數(shù)據(jù)庫(kù)中執(zhí)行或者訓(xùn)練模型,然后將其導(dǎo)入數(shù)據(jù)庫(kù)用于生產(chǎn),這就是Vertica所允許的。這是開(kāi)拓ML蹤跡的下一步。
你的客戶要求你做什么,你提供什么?
金:我們的客戶現(xiàn)在最需要的是部署的靈活性。我告訴他們的是,你不可能知道你將要被命令做什么,或者你將來(lái)可能會(huì)有什么選擇;關(guān)鍵不是必須選擇。他們非常非常致力于此。
我想說(shuō)的是對(duì)機(jī)器學(xué)習(xí)操作化的興趣,但不一定要強(qiáng)迫分析團(tuán)隊(duì)去敲打數(shù)據(jù)科學(xué)團(tuán)隊(duì)關(guān)于哪些工具是最好的工具,這可能是第二點(diǎn)。
我認(rèn)為第三點(diǎn)是規(guī)模上的表現(xiàn)??纯磧?yōu)步科技公司(Uber Technologies Inc.)、Trade Desk Inc.或電話公司(AT&T Corp.)等公司吧,他們說(shuō)毫秒,其實(shí)是慢的。當(dāng)他們說(shuō)拍字節(jié)的時(shí)候,他們會(huì)說(shuō),‘是的,那是昨天。因此,對(duì)Vertica來(lái)說(shuō),規(guī)模足夠好的性能永遠(yuǎn)都不夠好。這就是為什么我們一直在核心構(gòu)建下一代執(zhí)行引擎,數(shù)據(jù)庫(kù)設(shè)計(jì),優(yōu)化引擎,所有這些東西。
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。