亚洲伊人久久影院_色官网_色姑娘综合网_国产黄色片免费观看_特级毛片在线_亚洲九九

電話咨詢 在線咨詢 產(chǎn)品定制
電話咨詢 在線咨詢 產(chǎn)品定制
010-68321050

從技術(shù)方面分析大數(shù)據(jù)問題

五度易鏈 2018-10-18 1933 78

專屬客服號(hào)

微信訂閱號(hào)

大數(shù)據(jù)治理

全面提升數(shù)據(jù)價(jià)值

賦能業(yè)務(wù)提質(zhì)增效

底層是基礎(chǔ)設(shè)施,涵蓋計(jì)算資源、內(nèi)存與存儲(chǔ)和網(wǎng)絡(luò)互聯(lián),具體表現(xiàn)為計(jì)算節(jié)點(diǎn)、集群、機(jī)柜和數(shù)據(jù)中心。在此之上是數(shù)據(jù)存儲(chǔ)和管理,包括文件系統(tǒng)、數(shù)據(jù)庫和類似YARN的資源管理系統(tǒng)。然后是計(jì)算處理層,如hadoop、MapReduce和Spark,以及在此之上的各種不同計(jì)算范式,如批處理、流處理和圖計(jì)算等,包括衍生出編程模型的計(jì)算模型,如BSP、GAS 等。數(shù)據(jù)分析和可視化基于計(jì)算處理層。分析包括簡單的查詢分析、流分析以及更復(fù)雜的分析(如機(jī)器學(xué)習(xí)、圖計(jì)算等)。查詢分析多基于表結(jié)構(gòu)和關(guān)系函數(shù),流分析基于數(shù)據(jù)、事件流以及簡單的統(tǒng)計(jì)分析,而復(fù)雜分析則基于更復(fù)雜的數(shù)據(jù)結(jié)構(gòu)與方法,如圖、矩陣、迭代計(jì)算和線性代數(shù)。一般意義的可視化是對(duì)分析結(jié)果的展示。但是通過交互式可視化,還可以探索性地提問,使分析獲得新的線索,形成迭代的分析和可視化。基于大規(guī)模數(shù)據(jù)的實(shí)時(shí)交互可視化分析以及在這個(gè)過程中引入自動(dòng)化的因素是目前研究的熱點(diǎn)。

  

  大數(shù)據(jù)時(shí)代已經(jīng)來臨,大數(shù)據(jù)技術(shù)在學(xué)業(yè),工業(yè)中的不斷出現(xiàn)也證明了它的重要性,它的技術(shù)包含很多層面,我們需要在各個(gè)環(huán)節(jié)認(rèn)真的研究這項(xiàng)技術(shù)。

       大數(shù)據(jù)關(guān)鍵技術(shù)

  1,大數(shù)據(jù)生命周期

  底層是基礎(chǔ)設(shè)施,涵蓋計(jì)算資源、內(nèi)存與存儲(chǔ)和網(wǎng)絡(luò)互聯(lián),具體表現(xiàn)為計(jì)算節(jié)點(diǎn)、集群、機(jī)柜和數(shù)據(jù)中心。在此之上是數(shù)據(jù)存儲(chǔ)和管理,包括文件系統(tǒng)、數(shù)據(jù)庫和類似YARN的資源管理系統(tǒng)。然后是計(jì)算處理層,如hadoop、MapReduce和Spark,以及在此之上的各種不同計(jì)算范式,如批處理、流處理和圖計(jì)算等,包括衍生出編程模型的計(jì)算模型,如BSP、GAS 等。數(shù)據(jù)分析和可視化基于計(jì)算處理層。分析包括簡單的查詢分析、流分析以及更復(fù)雜的分析(如機(jī)器學(xué)習(xí)、圖計(jì)算等)。查詢分析多基于表結(jié)構(gòu)和關(guān)系函數(shù),流分析基于數(shù)據(jù)、事件流以及簡單的統(tǒng)計(jì)分析,而復(fù)雜分析則基于更復(fù)雜的數(shù)據(jù)結(jié)構(gòu)與方法,如圖、矩陣、迭代計(jì)算和線性代數(shù)。一般意義的可視化是對(duì)分析結(jié)果的展示。但是通過交互式可視化,還可以探索性地提問,使分析獲得新的線索,形成迭代的分析和可視化?;诖笠?guī)模數(shù)據(jù)的實(shí)時(shí)交互可視化分析以及在這個(gè)過程中引入自動(dòng)化的因素是目前研究的熱點(diǎn)。

  2.大數(shù)據(jù)技術(shù)生態(tài)

  大數(shù)據(jù)的基本處理流程與傳統(tǒng)數(shù)據(jù)處理流程并無太大差異,主要區(qū)別在于:由于大數(shù)據(jù)要處理大量、非結(jié)構(gòu)化的數(shù)據(jù),所以在各處理環(huán)節(jié)中都可以采用并行處理。目前,Hadoop、MapReduce和Spark等分布式處理方式已經(jīng)成為大數(shù)據(jù)處理各環(huán)節(jié)的通用處理方法。

  低成本、高可靠、高擴(kuò)展、高有效、高容錯(cuò)等特性讓Hadoop成為最流行的大數(shù)據(jù)分析系統(tǒng),然而其賴以生存的HDFS 和MapReduce 組件卻讓其一度陷入困境——批處理的工作方式讓其只適用于離線數(shù)據(jù)處理,在要求實(shí)時(shí)性的場景下毫無用武之地。因此,各種基于Hadoop的工具應(yīng)運(yùn)而生。為了減少管理成本,提升資源的利用率,有當(dāng)下眾多的資源統(tǒng)一管理調(diào)度系統(tǒng),例如Twitter 的Apache Mesos、Apache 的YARN、Google 的Borg、騰訊搜搜的Torca、Facebook Corona(開源)等。

  3.大數(shù)據(jù)采集與預(yù)處理

  在大數(shù)據(jù)的生命周期中,數(shù)據(jù)采集處于第一個(gè)環(huán)節(jié)。根據(jù)MapReduce產(chǎn)生數(shù)據(jù)的應(yīng)用系統(tǒng)分類,大數(shù)據(jù)的采集主要有4種來源:管理信息系統(tǒng)、Web信息系統(tǒng)、物理信息系統(tǒng)、科學(xué)實(shí)驗(yàn)系統(tǒng)。對(duì)于不同的數(shù)據(jù)集,可能存在不同的結(jié)構(gòu)和模式,如文件、XML 樹、關(guān)系表等,表現(xiàn)為數(shù)據(jù)的異構(gòu)性。對(duì)多個(gè)異構(gòu)的數(shù)據(jù)集,需要做進(jìn)一步集成處理或整合處理,將來自不同數(shù)據(jù)集的數(shù)據(jù)收集、整理、清洗、轉(zhuǎn)換后,生成到一個(gè)新的數(shù)據(jù)集,為后續(xù)查詢和分析處理提供統(tǒng)一的數(shù)據(jù)視圖。針對(duì)管理信息系統(tǒng)中異構(gòu)數(shù)據(jù)庫集成技術(shù)、Web 信息系統(tǒng)中的實(shí)體識(shí)別技術(shù)和DeepWeb集成技術(shù)、傳感器網(wǎng)絡(luò)數(shù)據(jù)融合技術(shù)已經(jīng)有很多研究工作,取得了較大的進(jìn)展,已經(jīng)推出了多種數(shù)據(jù)清洗和質(zhì)量控制工具,例如,美國SAS公司的Data Flux、美國IBM 公司的Data Stage、美國Informatica 公司的Informatica Power Center。

  4.大數(shù)據(jù)存儲(chǔ)與管理

  傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和管理以結(jié)構(gòu)化數(shù)據(jù)為主,因此關(guān)系數(shù)據(jù)庫系統(tǒng)(RDBMS)可以一統(tǒng)天下滿足各類應(yīng)用需求。大數(shù)據(jù)往往是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)為主,結(jié)構(gòu)化數(shù)據(jù)為輔,而且各種大數(shù)據(jù)應(yīng)用通常是對(duì)不同類型的數(shù)據(jù)內(nèi)容檢索、交叉比對(duì)、深度挖掘與綜合分析。面對(duì)這類應(yīng)用需求,傳統(tǒng)數(shù)據(jù)庫無論在技術(shù)上還是功能上都難以為繼。因此,近幾年出現(xiàn)了oldSQL、NoSQL 與NewSQL 并存的局面。總體上,按數(shù)據(jù)類型的不同,大數(shù)據(jù)的存儲(chǔ)和管理采用不同的技術(shù)路線,大致可以分為3類。第1類主要面對(duì)的是大規(guī)模的結(jié)構(gòu)化數(shù)據(jù)。針對(duì)這類大數(shù)據(jù),通常采用新型數(shù)據(jù)庫集群。它們通過列存儲(chǔ)或行列混合存儲(chǔ)以及粗粒度索引等技術(shù),結(jié)合MPP(Massive Parallel Processing)架構(gòu)高效的分布式計(jì)算模式,實(shí)現(xiàn)對(duì)PB 量級(jí)數(shù)據(jù)的存儲(chǔ)和管理。這類集群具有高性能和高擴(kuò)展性特點(diǎn),在企業(yè)分析類應(yīng)用領(lǐng)域已獲得廣泛應(yīng)用;第2類主要面對(duì)的是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。應(yīng)對(duì)這類應(yīng)用場景,基于Hadoop開源體系的系統(tǒng)平臺(tái)更為擅長。它們通過對(duì)Hadoop生態(tài)體系的技術(shù)擴(kuò)展和封裝,實(shí)現(xiàn)對(duì)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和管理;第3類面對(duì)的是結(jié)構(gòu)化和非結(jié)構(gòu)化混合的大數(shù)據(jù),因此采用MPP 并行數(shù)據(jù)庫集群與Hadoop 集群的混合來實(shí)現(xiàn)對(duì)百PB 量級(jí)、EB量級(jí)數(shù)據(jù)的存儲(chǔ)和管理。一方面,用MPP 來管理計(jì)算高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù),提供強(qiáng)大的SQL和OLTP型服務(wù);另一方面,用Hadoop實(shí)現(xiàn)對(duì)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理,以支持諸如內(nèi)容檢索、深度挖掘與綜合分析等新型應(yīng)用。這類混合模式將是大數(shù)據(jù)存儲(chǔ)和管理未來發(fā)展的趨勢。

  5.大數(shù)據(jù)計(jì)算模式與系統(tǒng)

  所謂大數(shù)據(jù)計(jì)算模式,即根據(jù)大數(shù)據(jù)的不同數(shù)據(jù)特征和計(jì)算特征,從多樣性的大數(shù)據(jù)計(jì)算問題和需求中提煉并建立的各種高層抽象(abstraction)或模型(model)。例如,MapReduce 是一個(gè)并行計(jì)算抽象,加州大學(xué)伯克利分校著名的Spark系統(tǒng)中的“分布內(nèi)存抽象RDD”,CMU 著名的圖計(jì)算系統(tǒng)GraphLab 中的“圖并行抽象”(Graph Parallel Abstraction)等。傳統(tǒng)的并行計(jì)算方法,主要從體系結(jié)構(gòu)和編程語言的層面定義了一些較為底層的并行計(jì)算抽象和模型,但由于大數(shù)據(jù)處理問題具有很多高層的數(shù)據(jù)特征和計(jì)算特征,因此大數(shù)據(jù)處理需要更多地結(jié)合這些高層特征考慮更為高層的計(jì)算模式。

  6.大數(shù)據(jù)分析與可視化

  基于機(jī)器學(xué)習(xí)的大數(shù)據(jù)分析具有自己獨(dú)特的特點(diǎn)。

  (1)迭代性:由于用于優(yōu)化問題通常沒有閉式解,因而對(duì)模型參數(shù)確定并非一次能夠完成,需要循環(huán)迭代多次逐步逼近最優(yōu)值點(diǎn)。

  (2)容錯(cuò)性:機(jī)器學(xué)習(xí)的算法設(shè)計(jì)和模型評(píng)價(jià)容忍非最優(yōu)值點(diǎn)的存在,同時(shí)多次迭代的特性也允許在循環(huán)的過程中產(chǎn)生一些錯(cuò)誤,模型的最終收斂不受影響。

  (3)參數(shù)收斂的非均勻性:模型中一些參數(shù)經(jīng)過少數(shù)幾輪迭代后便不再改變,而有些參數(shù)則需要很長時(shí)間才能達(dá)到收斂。

  大數(shù)據(jù)技術(shù)面臨的問題

  1,如何利用信息技術(shù)等手段處理非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)

  大數(shù)據(jù)中,結(jié)構(gòu)化數(shù)據(jù)只占 15%左右,其余的 85%都是非結(jié)構(gòu)化的數(shù)據(jù),它們大量存在于社交網(wǎng)絡(luò)、互聯(lián)網(wǎng)和電子商務(wù)等領(lǐng)域。另一方面,也許有 90%的數(shù)據(jù)來自開源數(shù)據(jù),其余的被存儲(chǔ)在數(shù)據(jù)庫中。大數(shù)據(jù)的不確定性表現(xiàn)在高維、多變和強(qiáng)隨機(jī)性等方面。股票交易數(shù)據(jù)流是不確定性大數(shù)據(jù)的一個(gè)典型例子。大數(shù)據(jù)刺激了大量研究問題。非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的個(gè)體表現(xiàn)、一般性特征和基本原理尚不清晰,這些都需要通過包括數(shù)學(xué)、經(jīng)濟(jì)學(xué)、社會(huì)學(xué)、計(jì)算機(jī)科學(xué)和管理科學(xué)在內(nèi)的多學(xué)科交叉來研究和討論。給定一種半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),比如圖像,如何把它轉(zhuǎn)化成多維數(shù)據(jù)表、面向?qū)ο蟮臄?shù)據(jù)模型或者直接基于圖像的數(shù)據(jù)模型?值得注意的是,大數(shù)據(jù)每一種表示形式都僅呈現(xiàn)數(shù)據(jù)本身的側(cè)面表現(xiàn),并非全貌。

  如果把通過數(shù)據(jù)挖掘提取 “粗糙知識(shí)” 的過程稱為 “一次挖掘” 過程,那么將粗糙知識(shí)與被量化后主觀知識(shí),包括具體的經(jīng)驗(yàn)、常識(shí)、本能、情境知識(shí)和用戶偏好,相結(jié)合而產(chǎn)生“智能知識(shí)”過程就叫做“二次挖掘”。從“一次挖掘”到“二次挖掘”類似事物“量”到“質(zhì)” 的飛躍。

  2,如何探索大數(shù)據(jù)復(fù)雜性、不確定性特征描述的刻畫方法及大數(shù)據(jù)的系統(tǒng)建模

  這一問題的突破是實(shí)現(xiàn)大數(shù)據(jù)知識(shí)發(fā)現(xiàn)的前提和關(guān)鍵。從長遠(yuǎn)角度來看,依照大數(shù)據(jù)的個(gè)體復(fù)雜性和隨機(jī)性所帶來的挑戰(zhàn)將促使大數(shù)據(jù)數(shù)學(xué)結(jié)構(gòu)的形成,從而導(dǎo)致大數(shù)據(jù)統(tǒng)一理論的完備。從短期而言,學(xué)術(shù)界鼓勵(lì)發(fā)展一種一般性的結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)之間的轉(zhuǎn)化原則,以支持大數(shù)據(jù)的交叉工業(yè)應(yīng)用。管理科學(xué),尤其是基于最優(yōu)化的理論將在發(fā)展大數(shù)據(jù)知識(shí)發(fā)現(xiàn)的一般性方法和規(guī)律性中發(fā)揮重要的作用。

  大數(shù)據(jù)的復(fù)雜形式導(dǎo)致許多對(duì) “粗糙知識(shí)” 的度量和評(píng)估相關(guān)的研究問題。已知的最優(yōu)化、數(shù)據(jù)包絡(luò)分析、期望理論、管理科學(xué)中的效用理論可以被應(yīng)用到研究如何將主觀知識(shí)融合到數(shù)據(jù)挖掘產(chǎn)生的粗糙知識(shí)的 “二次挖掘” 過程中。這里人機(jī)交互將起到至關(guān)重要的作用。

  3,數(shù)據(jù)異構(gòu)性與決策異構(gòu)性的關(guān)系對(duì)大數(shù)據(jù)知識(shí)發(fā)現(xiàn)與管理決策的影響

  在大數(shù)據(jù)環(huán)境下,管理決策面臨著兩個(gè) “異構(gòu)性” 問題:“數(shù)據(jù)異構(gòu)性” 和 “決策異構(gòu)性”。傳統(tǒng)的管理決定模式取決于對(duì)業(yè)務(wù)知識(shí)的學(xué)習(xí)和日益積累的實(shí)踐經(jīng)驗(yàn),而管理決策又是以數(shù)據(jù)分析為基礎(chǔ)的。

  大數(shù)據(jù)已經(jīng)改變了傳統(tǒng)的管理決策結(jié)構(gòu)的模式。研究大數(shù)據(jù)對(duì)管理決策結(jié)構(gòu)的影響會(huì)成為一個(gè)公開的科研問題。除此之外,決策結(jié)構(gòu)的變化要求人們?nèi)ヌ接懭绾螢橹С指邔哟蔚臎Q策而去做 “二次挖掘”。無論大數(shù)據(jù)帶來了哪種數(shù)據(jù)異構(gòu)性,大數(shù)據(jù)中的 “粗糙知識(shí)” 仍可被看作 “一次挖掘” 的范疇。通過尋找 “二次挖掘” 產(chǎn)生的 “智能知識(shí)” 來作為數(shù)據(jù)異構(gòu)性和決策異構(gòu)性之間的橋梁是十分必要的。探索大數(shù)據(jù)環(huán)境下決策結(jié)構(gòu)是如何被改變的,相當(dāng)于研究如何將決策者的主觀知識(shí)參與到?jīng)Q策的過程中。

  大數(shù)據(jù)的數(shù)據(jù)分析其實(shí)也是對(duì)我們的生活環(huán)境和習(xí)慣的分析,憑借大數(shù)據(jù)分析這種手段,為人們提供更合適的產(chǎn)品服務(wù)或發(fā)展方向,也是大數(shù)據(jù)的實(shí)用意義。


本文由五度數(shù)科整理,轉(zhuǎn)載請標(biāo)明出處,違者必究!

評(píng)論

產(chǎn)業(yè)專題

申請產(chǎn)品定制

請完善以下信息,我們的顧問會(huì)在1個(gè)工作日內(nèi)與您聯(lián)系,為您安排產(chǎn)品定制服務(wù)

  • *姓名

  • *手機(jī)號(hào)

  • *驗(yàn)證碼

    獲取驗(yàn)證碼
    獲取驗(yàn)證碼
  • *您的郵箱

  • *政府/園區(qū)/機(jī)構(gòu)/企業(yè)名稱

  • 您的職務(wù)

  • 備注

主站蜘蛛池模板: 欧美一级黄色片免费观看 | 狠狠干91| 蜜桃av网| chengrenzaixian | 久草在线视频免费播放 | 国产精品免费久久久久 | 欧美成在线视频 | 国产麻豆久久 | 狠狠色成色综合网 | xfplay噜噜av | 99ri在线观看 | 天天草夜夜骑 | 精品亚洲va在线va天堂资源站 | av电影网在线观看 | 日本欧美在线播放 | 欧美专区视频 | 国产在线精品一区二区三区不卡 | 久久出精品 | 天天夜夜草 | 国产女同玩人妖 | 私库av在线免费观看 | 欧美黄色大片免费观看 | 91看电影| 精品国产一区二区亚洲人成毛片 | 久久中文字幕在线观看 | 中文字幕在线观看免费视频 | 欧美精品久久久久久久久老牛影院 | 成人在线97 | 国产欧美日韩在线播放 | 国产精品一区二区三区99 | 欧美色大成网站www永久男同 | 日本成年网 | 少妇一级淫片高潮流水电影 | 性少妇videosexfreexx | 国产免费激情视频 | 欧美性生交xxxxx久久久缅北 | 久久精品毛片 | 午夜精品成人一区二区 | 国产一级一国产一级毛片 | 性生活视频软件 | 蜜桃视频在线播放 |