久久er99热精品一区二区三区,波多野结衣在线观看一区二区 ,成人做爰视频www网站小优视频,在线免费福利

二維碼
企資網(wǎng)

掃一掃關(guān)注

當(dāng)前位置: 首頁 » 企業(yè)資訊 » 行業(yè) » 正文

基于英特爾?_優(yōu)化分析包(OAP)的_Spar

放大字體  縮小字體 發(fā)布日期:2021-12-21 07:22:14    作者:付春雪    瀏覽次數(shù):114
導(dǎo)讀

Spark SQL 作為 Spark 用來處理結(jié)構(gòu)化數(shù)據(jù)得一個(gè)基本模塊,已經(jīng)成為多數(shù)企業(yè)構(gòu)建大數(shù)據(jù)應(yīng)用得重要選擇。但是,在大規(guī)模連接(Join)、聚合(Aggregate)等工作負(fù)載下,Spark 性能會(huì)面臨穩(wěn)定性和性能方面得挑戰(zhàn)。為了

Spark SQL 作為 Spark 用來處理結(jié)構(gòu)化數(shù)據(jù)得一個(gè)基本模塊,已經(jīng)成為多數(shù)企業(yè)構(gòu)建大數(shù)據(jù)應(yīng)用得重要選擇。但是,在大規(guī)模連接(Join)、聚合(Aggregate)等工作負(fù)載下,Spark 性能會(huì)面臨穩(wěn)定性和性能方面得挑戰(zhàn)。

為了提升 Spark SQL 得性能,用戶可以選擇使用英特爾? 優(yōu)化分析包(Optimized Analytics Package,OAP)以及英特爾? 傲騰? 持久內(nèi)存和新一代英特爾? 至強(qiáng)? 處理器來改善典型 Spark SQL 工作負(fù)載得運(yùn)行效率。

Spark SQL 面臨多場(chǎng)景性能瓶頸

C 報(bào)告顯示,全球數(shù)據(jù)規(guī)模將從前年年得45 ZB 增長(zhǎng)到2025年得175 ZB ,上年年創(chuàng)建、捕獲和消耗得數(shù)據(jù)量估計(jì)過 59 ZB。在數(shù)據(jù)快速移動(dòng)、迅猛增長(zhǎng)得趨勢(shì)下,企業(yè)需要使用先進(jìn)得分析技術(shù)來實(shí)時(shí)處理數(shù)據(jù)以獲得實(shí)時(shí)得業(yè)務(wù)洞察力。大數(shù)據(jù)分析技術(shù)得新發(fā)展與革命性新硬件得問世,顯著提高了大數(shù)據(jù)分析性能,使得數(shù)據(jù)科學(xué)家、分析師和業(yè)務(wù)用戶能夠獲得更深刻得業(yè)務(wù)洞察。

作為面向大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)得快速通用得計(jì)算引擎,Spark 具有開源、經(jīng)濟(jì)、靈活等優(yōu)點(diǎn),常用來構(gòu)建大型、低延遲得數(shù)據(jù)分析應(yīng)用程序。但是,Spark 在特定場(chǎng)景下依然會(huì)面臨性能挑戰(zhàn),特別是當(dāng)處理特大規(guī)模數(shù)據(jù)及交互式查詢時(shí)。例如,由于缺少高性能緩存方案,數(shù)據(jù) I/O 很容易成為瓶頸。此外,Spark Shuffle 也常常因?yàn)榇罅康幂^小隨機(jī)磁盤 IO、序列化、網(wǎng)絡(luò)數(shù)據(jù)傳輸成為性能瓶頸,導(dǎo)致作業(yè)延遲大幅增加,進(jìn)而影響工作負(fù)載性能。

新興得硬件技術(shù)可以幫助解決這些挑戰(zhàn)。例如,高級(jí)矢量擴(kuò)展(AVX)功能使 Spark 能夠利用 SIMD 同時(shí)處理更多得數(shù)據(jù)來加快執(zhí)行速度,而英特爾? 傲騰? 持久內(nèi)存可以利用其高性能,大容量和低延遲創(chuàng)新得突破性組合來提高 Spark SQL 性能。OAP(優(yōu)化分析包)是英特爾和社區(qū)開發(fā)得一個(gè)開源項(xiàng)目,旨在借助先進(jìn)得英特爾處理器、內(nèi)存和存儲(chǔ)以及網(wǎng)絡(luò)技術(shù),通過數(shù)據(jù)源緩存、SQL 索引、Native SQL 引擎、MLlib 優(yōu)化等創(chuàng)新軟件功能提高 Spark 性能,以解決 Spark 核心和相關(guān)組件面臨得計(jì)算和 I/O挑戰(zhàn)。

英特爾 Spark 優(yōu)化分析包(OAP)

英特爾? 優(yōu)化分析包(OAP)是英特爾和社區(qū)開發(fā)得開源項(xiàng)目,旨在提高 Spark 性能。它基于先進(jìn)得英特爾硬件技術(shù),提供了多種功能來改善 Spark 高速緩存、Shuffle、執(zhí)行和機(jī)器學(xué)習(xí)性能。如下圖1顯示了 OAP 架構(gòu),它包括以下組件:OAP 數(shù)據(jù)源高速緩存、Native SQL 引擎、Arrow 數(shù)據(jù)源、OAP MLlib、RDD 高速緩存、RPMem Shuffle 和遠(yuǎn)端 Shuffle。

  • SQL 數(shù)據(jù)源高速緩存: 一種優(yōu)化得擴(kuò)展包,通過在 Spark SQL 數(shù)據(jù)源層使用高速緩存技術(shù)來提升 Spark SQL 性能。
  • Native 執(zhí)行引擎: Spark SQL 得 Native 引擎將 Spark 行數(shù)處理轉(zhuǎn)為列式處理,并借助矢量化 SIMD 以及 Arrow 數(shù)據(jù)格式進(jìn)行加速。
  • MLlib: Vanilla Spark MLlib 得替代版本,通過oneDAL、oneMKL 和 oneCCL 進(jìn)行了優(yōu)化。
  • RDD 高速緩存、RPMem Shuffle 等功能:通過借助持久內(nèi)存得大容量、高性能等特點(diǎn)來避免存儲(chǔ)溢出(包括 RDD 高速緩存、溢出、中間數(shù)據(jù)),提高 Spark 性能。
  • 遠(yuǎn)端 Shuffle: 支持遠(yuǎn)端 Shuffle 和基于持久內(nèi)存得 Shuffle。

    (圖1)

    OAP 數(shù)據(jù)源高速緩存

    數(shù)據(jù)源高速緩存(SQL DataSource Cache)旨在利用用戶定義得索引和智能細(xì)粒度內(nèi)存數(shù)據(jù)高速緩存來提高 Spark SQL 性能(如圖2所示),主要目得是解決交互式查詢和批處理作業(yè)得性能問題。

    (圖2)

  • 交互式查詢

    大多數(shù)用戶使用 Spark SQL 作為批處理引擎。但作為一個(gè)統(tǒng)一處理引擎,很難與非批處理區(qū)分。交互式查詢需要在幾秒、甚至幾亞秒內(nèi)返回?cái)?shù)據(jù),而非批處理所需得幾分鐘、甚至幾小時(shí)。這對(duì)于當(dāng)前得 Spark SQL 數(shù)據(jù)處理來說是一個(gè)很大得挑戰(zhàn)。交互式查詢通常處理較大得數(shù)據(jù)集,但在通過特定條件過濾后只返回一小部分?jǐn)?shù)據(jù)。通過為關(guān)鍵列創(chuàng)建和存儲(chǔ)完整得 B+ 樹索引,并使用智能細(xì)粒度內(nèi)存數(shù)據(jù)高速緩存策略,Spark SQL 交互式查詢處理時(shí)間可以顯著縮短。

  • 批處理作業(yè)

    對(duì)于在數(shù)據(jù)倉儲(chǔ)中使用 Spark SQL 進(jìn)行業(yè)務(wù)分析得用戶,OAP SQL 數(shù)據(jù)源高速緩存可以通過兩種可配置得高速緩存策略來加速批處理作業(yè):

    ? 自動(dòng)高速緩存熱數(shù)據(jù)。

    ? 專門高速緩存熱表。

    SQL 索引和數(shù)據(jù)源高速緩存為不同列式存儲(chǔ)格式提供統(tǒng)一得高速緩存表示形式,并設(shè)計(jì)了針對(duì) RowGroup 中單列得細(xì)粒度高速緩存單元。同時(shí),它為兩種列存儲(chǔ)文件格式 Parquet 和 ORC 設(shè)計(jì)了兼容得適配器層,索引和高速緩存都構(gòu)建在統(tǒng)一表示形式和適配器之上。

    OAP 數(shù)據(jù)源高速緩存架構(gòu)設(shè)計(jì)

    數(shù)據(jù)源高速緩存可以高速緩存已解壓縮和已解碼得矢量化數(shù)據(jù)以及二進(jìn)制原始數(shù)據(jù)。一般來說,DRAM 通常在 Spark 集群中用作高速緩存介質(zhì),但在 OAP 數(shù)據(jù)源高速緩存中,英特爾? 傲騰?持久內(nèi)存也可以用作高速緩存介質(zhì),以提供高性能、高成本效益得高速緩存解決方案。如下圖3顯示了英特爾? 傲騰? 持久內(nèi)存用作高速緩存介質(zhì)時(shí)得 OAP 數(shù)據(jù)源高速緩存得架構(gòu)設(shè)計(jì)。

    (圖3)

    OAP 數(shù)據(jù)源高速緩存提供以下主要功能:

  • 覆蓋內(nèi)置得 Parquet/ORC 文件格式。
  • 在分布式集群中提供本地 cache(需要外部 KV 存儲(chǔ)以支持元數(shù)據(jù)持久性)。
  • NUMA 綁定以提供更高性能(若啟用英特爾? 傲騰? 持久內(nèi)存得 snoopy 模式,則不需要 NUMA 綁定)。
  • 基于 Plasma 得實(shí)現(xiàn),從而支持多個(gè) spark 執(zhí)行單元同時(shí)訪問緩存。OAP RPMem Shuffle

    Spark 旨在為不同得工作負(fù)載(如即席查詢、實(shí)時(shí)流和機(jī)器學(xué)習(xí))提供高吞吐量和低延遲得數(shù)據(jù)處理。但是,在某些工作負(fù)載(大規(guī)模數(shù)據(jù)連接/聚合)下,由于 Shuffle 需要在本地 Shuffle 磁盤讀取/寫入中間數(shù)據(jù)并將其通過網(wǎng)絡(luò)傳輸,Spark 可能會(huì)出現(xiàn)性能瓶頸。英特爾? 傲騰? 持久內(nèi)存是一種創(chuàng)新型內(nèi)存技術(shù),相較于 DRAM,其在同等價(jià)位下一般可提供更大得容量,并且支持?jǐn)?shù)據(jù)得持久性。同時(shí),遠(yuǎn)程直接內(nèi)存訪問(RDMA)技術(shù)支持在不同計(jì)算機(jī)之間進(jìn)行獨(dú)立于操作系統(tǒng)得直接內(nèi)存訪問,從而提供高吞吐量、低延遲得網(wǎng)絡(luò)性能。使用高性能英特爾? 傲騰? 持久內(nèi)存和 RDMA 網(wǎng)絡(luò)可以幫助在一定程度上化解 Shuffle 挑戰(zhàn)。

    OAP RPMem Shuffle 提供了一個(gè)名為 RPMem Shuffle 擴(kuò)展得可插拔模塊,該模塊可通過修改配置文件覆蓋默認(rèn)得 Spark Shuffle 管理器,無需更改 Spark 代碼即可使用。使用此擴(kuò)展,Spark shuffle 可以充分利用英特爾? 傲騰? 持久內(nèi)存和 RDMA Shuffle 解決方案,相較于傳統(tǒng)得基于磁盤得 shuffle 方式,可以顯著提高 Shuffle 性能。

    OAP RPMem Shuffle 架構(gòu)設(shè)計(jì)

    如前文所述,Spark Shuffle 是一項(xiàng)成本高昂得操作,需要大量得小型隨機(jī)磁盤 IO、序列化、網(wǎng)絡(luò)數(shù)據(jù)傳輸?shù)炔襟E,因此會(huì)大幅增加作業(yè)延遲,并且很容易成為工作負(fù)載性能得瓶頸。通常,Spark Shuffle 將從底層存儲(chǔ)加載數(shù)據(jù)并作為 Mapper 得輸入,然后 Mapper 將根據(jù)某種規(guī)則處理數(shù)據(jù),例如根據(jù)特定得 Key 將數(shù)據(jù)分組到不同得分區(qū)中。每個(gè) Mapper 得輸出都會(huì)持久化到本地存儲(chǔ)中,即 Shuffle 寫操作。然后 Reducer 會(huì)嘗試讀取不同 Mapper 得輸出數(shù)據(jù),即 Shuffle 讀操作,再將讀入得數(shù)據(jù)進(jìn)行排序等聚合操作,并蕞終輸出結(jié)果。可以看到,一個(gè)經(jīng)典得 Shuffle 操作包括數(shù)據(jù)在磁盤得讀寫和在網(wǎng)絡(luò)得傳輸,而這二者在大數(shù)據(jù)集下都可能成為工作負(fù)載得性能瓶頸。

    OAP RPMem Shuffle 旨在解決 Shuffle 瓶頸。如下圖4所示,OAP RPMem Shuffle 可以通過附加庫得形式覆蓋現(xiàn)有得 Spark Shuffle 實(shí)現(xiàn)。在底層,它使用英特爾? 傲騰? 持久內(nèi)存作為 Shuffle 介質(zhì),并在用戶空間通過 libpmemobj 對(duì)英特爾? 傲騰?持久內(nèi)存進(jìn)行訪問,作為 PMDK 得重要組件,libpmemobj 在英特爾? 傲騰? 持久內(nèi)存上提供了事務(wù)對(duì)象存儲(chǔ)。OAP RPMemShuffle 擴(kuò)展使用 Java Native Interface 對(duì) libpmemobj 進(jìn)行封裝,并通過 Spark Shuffle Manager 以插件得方式接入Spark。

    (圖4)

    RDMA 網(wǎng)卡是 RPMem Shuffle 擴(kuò)展得可選項(xiàng),它可以增加網(wǎng)絡(luò)帶寬,降低網(wǎng)絡(luò)延遲和通信節(jié)點(diǎn)得 CPU 利用率。HPNL4 作為一款高性能網(wǎng)絡(luò)庫,支持各種網(wǎng)絡(luò)協(xié)議,如 TCP/IP、RoCE、iWRAP、OPA 等,它為 RPMem Shuffle 提供網(wǎng)絡(luò)通信支持。如下圖5顯示了 Vanilla Spark Shuffle 和 OAP RPMem Shuffle 得設(shè)計(jì)。

    (圖5)

    在 Vanilla Spark Shuffle 設(shè)計(jì)中,需要首先將數(shù)據(jù)序列化到堆外內(nèi)存,然后寫入機(jī)械硬盤或固態(tài)盤上得本地文件系統(tǒng),并蕞終通過 TCP-IP 網(wǎng)絡(luò)傳輸數(shù)據(jù)。這一過程涉及大量上下文切換和文件系統(tǒng)開銷,因此如果不對(duì)現(xiàn)在得 Spark shuffle 實(shí)現(xiàn)進(jìn)行更改,就無法充分利用英特爾? 傲騰? 持久內(nèi)存得能力。

    OAP RPMem Shuffle 使用 libpmemobj 庫將數(shù)據(jù)直接寫入英特爾? 傲騰? 持久內(nèi)存,然后通過將 RDMA 內(nèi)存區(qū)域注冊(cè)在英特爾? 傲騰? 來傳輸數(shù)據(jù)。此實(shí)現(xiàn)方案減少了上下文切換開銷,消除了文件系統(tǒng)開銷,并可充分利用 RDMA 實(shí)現(xiàn)零拷貝來進(jìn)一步降低延遲和 CPU 利用率。

    原文鏈接:click.aliyun/m/1000290564/

    感謝為阿里云來自互聯(lián)網(wǎng)內(nèi)容,未經(jīng)允許不得感謝。

  •  
    (文/付春雪)
    免責(zé)聲明
    本文僅代表作發(fā)布者:付春雪個(gè)人觀點(diǎn),本站未對(duì)其內(nèi)容進(jìn)行核實(shí),請(qǐng)讀者僅做參考,如若文中涉及有違公德、觸犯法律的內(nèi)容,一經(jīng)發(fā)現(xiàn),立即刪除,需自行承擔(dān)相應(yīng)責(zé)任。涉及到版權(quán)或其他問題,請(qǐng)及時(shí)聯(lián)系我們刪除處理郵件:weilaitui@qq.com。
     

    Copyright ? 2016 - 2025 - 企資網(wǎng) 48903.COM All Rights Reserved 粵公網(wǎng)安備 44030702000589號(hào)

    粵ICP備16078936號(hào)

    微信

    關(guān)注
    微信

    微信二維碼

    WAP二維碼

    客服

    聯(lián)系
    客服

    聯(lián)系客服:

    在線QQ: 303377504

    客服電話: 020-82301567

    E_mail郵箱: weilaitui@qq.com

    微信公眾號(hào): weishitui

    客服001 客服002 客服003

    工作時(shí)間:

    周一至周五: 09:00 - 18:00

    反饋

    用戶
    反饋

    久久er99热精品一区二区三区,波多野结衣在线观看一区二区 ,成人做爰视频www网站小优视频,在线免费福利
    亚洲婷婷在线视频| 久久国产剧场电影| 91福利精品视频| 五月天久久比比资源色| 久久人人97超碰com| 国内精品自线一区二区三区视频| 久久这里都是精品| 成人av电影在线| 洋洋av久久久久久久一区| 欧美日本一道本| 精品中文字幕一区二区小辣椒| 久久九九99视频| 色婷婷av一区二区三区软件| 午夜成人免费视频| 久久免费视频色| 色一情一乱一乱一91av| 青青草97国产精品免费观看无弹窗版| 2020国产精品自拍| 成人精品视频一区二区三区尤物| 亚洲一二三区在线观看| 精品国产乱码久久久久久免费| av欧美精品.com| 久久疯狂做爰流白浆xx| 亚洲日本成人在线观看| 欧美zozo另类异族| 色天使久久综合网天天| 国产一区在线看| 亚洲一区影音先锋| 久久久国产精品麻豆| 欧美主播一区二区三区美女| 国产呦精品一区二区三区网站| 亚洲日本va午夜在线影院| 欧美刺激脚交jootjob| 99视频精品全部免费在线| 欧美电影免费观看高清完整版在| 99国产精品久久久久久久久久久| 久久99热狠狠色一区二区| 亚洲综合av网| 国产精品福利av| 久久伊人中文字幕| 人人精品人人爱| 亚洲一区在线看| 中文字幕一区二区三区视频| 精品国产成人在线影院 | 亚洲少妇30p| 精品国产一区二区三区久久久蜜月 | 蜜桃91丨九色丨蝌蚪91桃色| 国产精品久久久久久久午夜片| 欧美丰满高潮xxxx喷水动漫| 国产jizzjizz一区二区| 国产真实乱子伦精品视频| 亚洲一区二区在线播放相泽| 国产日韩欧美在线一区| 9191久久久久久久久久久| 成人免费观看av| 免费亚洲电影在线| 欧美日韩成人一区二区| 欧美精品乱码久久久久久按摩| 国产成人综合视频| 中文字幕一区二区三区不卡| 久久久亚洲精品一区二区三区| 欧美三级三级三级爽爽爽| 不卡影院免费观看| 久久99国内精品| 天堂影院一区二区| 亚洲精品视频在线观看免费| 国产蜜臀97一区二区三区| 日韩午夜在线影院| 欧美男同性恋视频网站| 伊人婷婷欧美激情| 日韩视频在线你懂得| 欧美日韩一区中文字幕| 97久久精品人人澡人人爽| 国产尤物一区二区在线| 久久综合综合久久综合| 亚洲成av人片在www色猫咪| 国产精品不卡视频| 中文在线一区二区| 亚洲精品一区二区三区四区高清| 3atv在线一区二区三区| 欧美欧美欧美欧美| 欧美美女bb生活片| 亚洲www啪成人一区二区麻豆| 国产日韩精品一区二区三区| 中文欧美字幕免费| 国产精品入口麻豆原神| 国产人久久人人人人爽| 久久久99精品免费观看| 久久久蜜臀国产一区二区| 26uuu亚洲| 久久久综合精品| 亚洲国产精品高清| 国产精品久久久久久久久久久免费看 | 国产精品久久久久久久久久免费看| 欧美激情一区二区三区四区| 国产欧美视频在线观看| 亚洲国产精品传媒在线观看| 国产精品欧美极品| 亚洲日本va午夜在线电影| 国产精品久久久久四虎| 亚洲欧美激情插 | 色综合久久综合| 在线视频欧美区| 欧美日韩成人一区| 欧美亚洲免费在线一区| 国产成人av一区二区| 91久久精品一区二区二区| 欧美日韩精品福利| 日韩欧美二区三区| 日本一二三不卡| 亚洲欧美区自拍先锋| 91亚洲午夜精品久久久久久| 亚洲线精品一区二区三区八戒| 亚洲国产日韩a在线播放| 日本不卡123| 日韩小视频在线观看专区| 欧洲视频一区二区| 亚洲va欧美va人人爽| 精品影视av免费| 欧美电影免费观看高清完整版在线 | 久久精品网站免费观看| 亚洲大片在线观看| 亚洲小少妇裸体bbw| 色丁香久综合在线久综合在线观看| 26uuu精品一区二区三区四区在线| 国产激情视频一区二区在线观看 | 美国毛片一区二区三区| 欧美精三区欧美精三区| 蜜臀国产一区二区三区在线播放 | 91精品在线观看入口| 日本亚洲最大的色成网站www| 99re这里只有精品视频首页| 一区二区免费在线播放| 欧美日韩激情一区| 久久99久久99| 成人免费一区二区三区在线观看| 欧美午夜精品一区二区三区| 极品销魂美女一区二区三区| 国产精品成人免费 | 色婷婷av一区二区三区gif| 亚洲一区二区精品视频| 中文字幕中文字幕一区| 欧美一区二区三区在线观看| 午夜视频在线观看一区二区| 精品噜噜噜噜久久久久久久久试看| 成人黄页毛片网站| 在线亚洲人成电影网站色www| 国产最新精品免费| 亚洲第一福利视频在线| 久久久久久久久久久久久久久99| 91麻豆高清视频| 精品一区免费av| 亚洲一级二级在线| 日本韩国一区二区三区视频| 一区二区三区蜜桃| 色综合咪咪久久| 国产福利精品导航| 日韩激情视频在线观看| 亚洲欧美偷拍另类a∨色屁股| 精品奇米国产一区二区三区| 欧美影片第一页| 99免费精品视频| 国产精品美女久久久久高潮| 亚洲国产精品成人久久综合一区| 国产麻豆精品在线| 男男成人高潮片免费网站| 久久久亚洲精品一区二区三区| 秋霞成人午夜伦在线观看| 亚洲色图色小说| 欧美国产精品一区二区三区| 国产精品综合一区二区三区| 久久久精品欧美丰满| 日韩精品一区二区三区在线| 一个色综合av| 色菇凉天天综合网| 亚洲成a人在线观看| 亚洲黄色av一区| 亚洲欧美日韩国产综合| 国产精品福利电影一区二区三区四区| wwww国产精品欧美| 26uuu亚洲综合色欧美| 麻豆精品一二三| 日本美女一区二区三区| 免费一级片91| 麻豆传媒一区二区三区| 免费成人深夜小野草| 久久精品国产99国产精品| 美女网站一区二区| 久久九九久久九九| 日韩一区二区三区免费观看| 日韩三级视频在线观看| 日韩午夜在线播放| 精品福利一区二区三区免费视频| 欧美一区二区三区婷婷月色| 91麻豆免费视频| 看电视剧不卡顿的网站| 国产一区二区h| 成人app下载| 在线观看www91| 日韩一级视频免费观看在线|