AWS張俠深度解析“數據湖”的數據洞察能力

來源:TECHWEB  責任編輯:小易  

早在今年7月,AWS在北京召開AWS技術峰會2017之時,AWS全球副總裁大中華區執行董事容永康就在演講中強調“未來,AWS未來會在除了傳統的大數據方面投入很多的資源之外,AWS仍會在物聯網、人工智能方面也會投入大量的資源。AWS re:Invent就將基于重點領域的創新呈現在廣大客戶、合作伙伴、開發者面前,那么,他們對AWS的“創新”功能、服務、技術怎么看?這些創新究竟能為客戶帶來什么?AI:好玩、好用、好管 不要用技術限制了想象力AWS在人工智能、機器學習、深度學習方面同樣是AWS發展的重點,為此,起推出了六個新服務:Amazon SageMaker可以消除機器學習過程中每一步的繁重工作,方便幫客戶建立、訓練和部署機器學習模型。Amazon Rekognition Video可以實時或批量分析視頻,Amazon Kinesis Video Streams 安全地導入和存儲視頻、音頻和其它有時間標簽的數據。Amazon Transcribe自動語音識別文字記錄服務,將語音轉成語法正確的準確文字,Amazon Translate自動多語種文字翻譯服務,Amazon Comprehend是全托管的自然語言理解服務。而新裝置AWS DeepLens(深鏡),是全球第一款為開發者提供的、內置深度學習能力的智能攝像頭。除了LEX語音交互功能之外,AWS希望把更多的功能在AWS的平臺上面開放出來,讓AWS全球的開發者,包括在國內的開發者、初創企業和大的企業,可以快速的利用到AI、深度學習方面的一些功能,去開拓他們的一些新產品、新服務、新市場。AWS的合作伙伴AGT International&Heed Matl kochayi則表示,他們早已經同AWS合作,將AWS的AI技術同他們的創新想法相結合,最終為其用戶呈現出一場智能的拳擊比賽,并為現場觀眾展示了未來體育和人工智能相結合的情景。而 AWS更是展示出了眾多合作伙伴一起在努力用AI構筑起智能AI未來的可能。Vogels用一個設計成魚型的語音程序,來告訴開發者,來發揮想象力,“這是一個云軟件,但你可以讓他獲得你想要的一切。不僅如此,AWS推出了更多的新服務來推動AI市場,包括:Amazon SageMaker可以消除機器學習過程中每一步的繁重工作,方便幫客戶建立、訓練和部署機器學習模型。Amazon Rekognition Video可以實時或批量分析視頻,Amazon Kinesis Video Streams 安全地導入和存儲視頻、音頻和其它有時間標簽的數據。Amazon Transcribe自動語音識別文字記錄服務,將語音轉成語法正確的準確文字,Amazon Translate自動多語種文字翻譯服務,Amazon Comprehend是全托管的自然語言理解服務。而新裝置AWS DeepLens(深鏡),是全球第一款為開發者提供的、內置深度學習能力的智能攝像頭。而在辦公領域,將工作變得更簡便,語音同環境相結合AWS同思科的會議系統進行了集成,推出:Alexa for Business“ALEXA可以整合會議室相聯系,自動化辦公處理,針對各種辦公場景也可以進入辦公桌,更可以將家和工作環境相結合,AMAZA音樂、視頻等等與你相聯系。Vogels如是說。實際上,無論是國外還是國內都有大量的企業用到AWS的服務。環球數據公司,DR.Walter Scott就同AWS合作讓自己的業務真正做到了環球。“當我們每天收集800TB數據的時候,就決定依靠AWS幫助,今天,我們終于努力成為了一個環球公司,實現這樣的可能需要散步:第一步,建立大規模數據存儲,利用AWS技術,我猛將17年的數據用一天遷移到AWS云;第二步,形成數據影響,通過AWS,過去幾年中,我們終于完成了從觀看影像到分析影像的轉變,AWS的機器學習技術,幫助我們快速調取實現數據。第三步:完成大規模上線。即通過從大圖像庫中抽取信息,利用GBDX—地理信息數據庫分析,進行線上數據服務,同AWS一起,將技術放在開源社區,讓更多的開發者基于開源技術進行分析,從而實現了新的價值。數據庫:大數據終于有了高性價比的選擇在推出數據庫一系列新功能和新服務之時,AWS用George Michael在歌曲“Freedom”中唱道:“我看見的就是 我不屬于你 你不屬于我;自由!自由!自由!你拿走的都要還給我”做了開場,Andy Jassy認為這句:“‘我不屬于你,你也不屬于我’,很恰當了詮釋了今天CTO的心聲。實際上,在采訪中,一位CTO認為,AWS推出的數據庫給他們帶來的最大的價值就是價格,他認為:“oracle的數據庫是收費比較貴,買了license以后,還要每年買很多服務費。而AWS是按需結算,就如同電力公司,當這家電力公司,增加了自己的發電能力之后,通過節省開支,把價格降低,用戶就會受益。Jessy則對其中一些新服務進行了評論:“六款新推出的數據庫均是針對Data base的服務,特別是DynamoDB Backup and Restore 這款唯一的、既可以提供按需備份又可以提供持續備份的云數據庫,DynamoDB Global Tables全托管、多主(multi-master)、多區域讀寫的數據庫,以前AWS并沒有。加上Amazon Neptune(海王星或海神)全托管的、適用于高度關聯數據的圖形數據庫,我們可以將其用在社交媒體,找尋物體object之間的關系。開源:搭建IoT必須進入的更廣空間現任職AWS Architecture Strategy VP 的Adrian Cockcroft于2016年9月加入AWS,而此前,其就職于開源領域的領先企業之一Netflix。在AWS張俠博士看來,AWS非常重視開源,AWS的應用一直是開放給開發者的,AWS期望能夠通過開源讓更多的開發者能夠同AWS一起合作。有客戶認為,AWS進入社區將接口開源了,其目的是希望更多的客戶用到AWS的產品。在AWS張俠博士表示:“AWS所有的服務都是開放的,服務之間有現成的接口,開源能夠讓更多地企業用到AWS服務,這是很好的開始www.13333515.buzz防采集請勿采集本網。

【TechWeb】3月30日,數字時代,企業海量數據隱藏的價值被空前重視,企業的信息和數據流被認為是“企業的血液流”。與此同時,“把企業的數據化資產使用好”、“如何從大量數據中獲得信息洞察未來”,這些成為企業和業內專家不懈追求的能力。

大數據是我們現在經常聽到的一個詞,在互聯網時代迅速發展的今天,大數據的應用范圍越來越廣,但是深度學習這個詞對于很多人來說是比較陌生的,深度學習是什么,是一種要求還是一種技術,這種

近日AWS首席云計算企業戰略顧問張俠向媒體介紹了“AWS數據湖”在實現“企業數據洞察”中的最新技術成果和應用表現。

外來的日本人是惡魔,做法用的祭臺上都是黑羊頭,狗是黑的,烏鴉也伴隨著他,而且外表可見。那個法師是為虎作倀,他協助惡魔殺人,因為結局時大師的·一個箱子里全是日本人家里的照片,而且,每

張俠表示,數據本身的價值在于從里面提取出真正有用的“信息”,把這些信息歸類樹立成“知識”,然后用這些知識來指導企業的“行動”, 幫企業來運營業務、幫客戶實現業務需求、提高客戶滿意度等等,最終為企業創造更多的價值。

與傳統的在線聯機分析處理OLAP不同,對大數據的深度分析主要基于大規模的機器學習技術,一般而言,機器學習模型的訓練過程可以歸結為最優化定義于大規模訓練數據上的目標函數并且通過一個循環

“數據湖”老概念煥發新活力

數據庫的特點是數據不再只針對某一個特定的應用,而是面向全組織,具有整體的結構性,共享性高,冗余度減小,具有一定的程序與數據之間的獨立性,并且對數據進行統一的控制。擴展資料 數據管理與智能計算

“數據湖”這個概念早在2011年就被提出,發展至今已經走過9個年頭。“我把數據湖的發展分為兩個階段”,張俠表示,“前期數據湖只是一個初級的概念,有一些開源的應用;得益于云計算提供的海量存儲、高性能計算的能力,大概從四年前開始,數據湖進入第二階段,隨著各項元素的逐一到位,AWS數據湖基本上成熟。”

而聯機分析OLAP只是從已經規范化的、純凈的關系數據庫中組織數據。(3)知識與數據的關系不同 數據挖掘DM是從數據中發現知識KDD;而聯機分析OLAP是利用人已知的知識來有意識地組織和使用數據。(4)基本

那么,數據湖究竟是什么?

在張俠看來,數據湖是一個中心數據存儲的容器,這個容器可以存儲格式化、非格式化的各種各樣的數據;這些數據非常容易被快速縮放、有各種方法和工具對這些數據進行查詢、可以做各種各樣的分析。

通俗的講,本來數據很多是結構型數據、交易型數據,比如什么東西多少價格、什么人多大年齡,這些都是很規矩的放在一個一個數據庫和數據倉庫的小格子里的,但是現在有一套方法,這套方法把任何類型的數據庫,結構型的、非結構型的,非結構型的包括電子郵件、視頻的、音頻的、圖形的、一些文章、一些照片等等,都可以直接把它存下來,我們利用現在云計算時代海量存儲的能力和各種新的查詢的能力,還有各種數據分析和處理的能力,直接對這些原始的數據來做查詢,這就是數據湖的時代。

張俠也強調,數據湖特別適用做一些數據科學家、數據研究人員要用的探索性質的數據查詢和分析。原來有一類數據科學家是做那種數據挖掘的,這一類數據科學家要做的工作,數據湖尤其適用,因為數據湖對所有數據都能兼容、保持靈活性特別適合做探索性、預測性、研究性、前瞻性的服務。

AWS數據湖三大元素

在幫助企業構建數據湖上,AWS推出了一系列關鍵服務。張俠介紹,數據湖的操作步驟通常包括:把數據設置、存儲;再把數據按需要移動、加載到不同地方;然后把數據清理好,建成數據目錄。這些數據要安全的、合規的存好、管好,需要的時候使用工具把這些數據拿出來做各種分析。

基于此,目前AWS數據湖主要包含三大元素:一是Amazon S3/Glacier;二是AWS Glue;三是AWS Lake Formation。

張俠介紹:“Amazon S3,可以存所有各類的數據,它有11個9的數據持久性,它是在云上面三個可用區存了六份,互為備份。它后端還有一個冷存儲叫Amazon Glacier (glacier的意思是冰河) 。如果這個數據不常用,我們可以轉到那里面,費用可以降低很多,只是多需要三四個小時把它拿出來。冷存儲還有一個深度的冷存儲Deep Archive。除了這個以外,在我開始講之前,還有一個叫Amazon DynamoDB,是一個非關系型數據庫,存鍵值這類的數據。在游戲里面比如每個玩家是第幾級、有多少血、用什么樣的武器,這樣的數都是鍵值配對的數。全球有大量這樣的數據都存儲在Amazon DynamoDB這樣的非關系型數據庫。“

AWS Glue則是一種全托管的數據提取、轉換和加載 (ETL) 服務及元數據目錄。它讓客戶更容易準備數據,加載數據到數據庫、數據倉庫和數據湖,用于數據分析。使用AWS Glue,在幾分鐘之內便可以準備好數據用于分析。AWS Glue消除了ETL作業基礎設施方面的所有重復勞動,讓Amazon S3數據湖中的數據集可以被發現、可用于查詢和分析,極大地縮短分析項目中做ETL和數據編目階段的時間,讓ETL變得很容易。

AWS Lake Formation則能把建立數據湖的這套工作自動化,幫助企業客戶來操作,可以使很多企業在短短的幾天時間內就完成數據湖的建設工作。

目前AWS Lake Formation尚未在中國正式推出。

AWS數據湖的應用

據張俠介紹,AWS數據湖已經在全球范圍內得到廣泛應用。

以亞馬遜自己為例,亞馬遜曾經是Oracle全球數據庫最大的用戶,它使用了75PB的數據庫,用了7500多個數據庫的例子,整個亞馬遜里面1000多個不同的團隊,從運營、電商、市場營銷、庫存,幾乎業務的很多方面原來都是基于Oracle的數據庫。亞馬遜在過去一年半到兩年的時間做了一件事情,就是全方位的遷出了Oracle的數據庫,去年11月份亞馬遜全部遷移了Oracle的數據庫,遷移到亞馬遜自己相對應的產品。

“這個遷移解決了原來擴展困難、費用昂貴等等一系列的問題,減少了數據庫費用成本60%,減少了管理費用70%,增加的性能高達40%。”張俠介紹道。

此外,金融行業領域,美國納斯達克交易所也是用了AWS數據湖產品。通過使用數據湖每天處理500億條的付款,使用數據湖把產品上市時間縮短了1/3,有很好的服務能力。

張俠表示:“AWS數據湖一個很大的優勢是把所有這些服務整合在一起,統一的接口、統一的標準,包括像無服務器計算,用了AWS Glue以后,這邊接了AWS Lambda,再接了AWS Step Functions,亞馬遜那些其他的服務早都做好了這種無服務器的接口,所以一下子全部都打通了,這是數據湖得以廣泛有效應用的其中一個原因。”

張俠強調:“所以我個人認為,數據湖到了一個真的要好好研究、使用的階段了。數據湖在中國處于一個發展相對早期的階段,這個時機非常重要,在經濟數字化轉型時代,數據湖的應用、作用性越來越強,下一代互聯網、電商、5G、邊緣計算等都發展起來以后,與之相對應的我們更要走數據湖對數據的存儲、分析的道路,所以我們覺得如果利用這個時機把這些知識很好的提供給我們公眾和行業的有關人員,中國的使用甚至是這些相關的服務都能更好的發展起來,那是我們非常喜聞樂見的。”

AWS的優點:AWS的云服務還是很成熟的,譬如大數據計算,開放存儲這些服務的性能都要比阿里云好很多,在全世界各地使用訪問都很快,成本上相對于阿里云來說確實花費多一點,AWS是國際化的,有七八種語言的客戶服務,并且服務團隊在工作日反應還算是很迅速的。我先說說我感受最深的吧,為什么說AWS云服務很成熟,我覺得就可以從VM部署這一點看出來,速度比阿里云快很多(同樣的條件下),微軟的云服務和AWS和阿里云我都或多或少的使用過,如果不是因為AWS入門門檻太高我還會繼續使用下去的,如果一個公司或者團隊需要國際化,把服務全都放在AWS上是特別好的,在中國以內的話體驗最好的其實就是阿里云了。阿里云的優點:首先它易于國人使用,支付寶付款,可以開子賬號團隊協作,安全關把關也還算是可以的,其次就是BGP線路,確實名不虛傳(但是國內區域在國外訪問還是不咋的呀),阿里云確實貼合國人的角度突出了按需付費的這個特性,阿里云服務對于國外的親們來說可能就是需要多地跑的事情集中在了一起而已,很多人也很喜歡,對于中國人來說,阿里云可能就是并不感冒了,技術上成熟度你別說還真的次于AWS(更多的可能是經驗)內容來自www.13333515.buzz請勿采集。


  • 本文相關:
  • AWS 亞馬遜和Aliyun阿里云的區別比較和深度分析
  • 這一次AWS的創新為客戶、合作伙伴帶來了什么?
  • 請對無間道1進行深度解析。
  • 如何自學數據分析
  • 大數據與深度學習的關系
  • 哭聲電影深度解析
  • 大數據分析的技術包括哪些
  • 計算機數據管理技術經歷了哪三個階段?
  • 數據挖掘DM與聯機分析處理OLAP的區別
  • 趙東來和祁同偉誰的官大 兩人官職排名深度分析
  • 免責聲明 - 關于我們 - 聯系我們 - 廣告聯系 - 友情鏈接 - 幫助中心 - 頻道導航
    Copyright © 2017 www.13333515.buzz All Rights Reserved
    3排列五开奖结果