您的位置：首頁(yè)>24小時(shí) >

抖音集團(tuán)面向多樣應(yīng)用場(chǎng)景的數(shù)據(jù)準(zhǔn)備實(shí)踐

來(lái)源：DataFunTalk 2023-07-11 13:21:51

導(dǎo)讀本次分享主題為抖音集團(tuán)面向多樣應(yīng)用場(chǎng)景的數(shù)據(jù)準(zhǔn)備實(shí)踐。主要分為以下幾個(gè)部分：

(資料圖片)

全文目錄：

1. 抖音集團(tuán)的數(shù)據(jù)應(yīng)用

2. 數(shù)據(jù)準(zhǔn)備介紹

3. 抖音集團(tuán)的數(shù)據(jù)準(zhǔn)備實(shí)踐

4 . 火山引擎的數(shù)據(jù)準(zhǔn)備

分享嘉賓｜陳昌源字節(jié)跳動(dòng) 數(shù)據(jù)準(zhǔn)備技術(shù)負(fù)責(zé)人

編輯整理｜小寧滴滴

出品社區(qū)｜DataFun

抖音集團(tuán)的數(shù)據(jù)應(yīng)用

1.抖音集團(tuán)的數(shù)據(jù)規(guī)模

抖音集團(tuán)作為一個(gè)數(shù)據(jù)驅(qū)動(dòng)的公司，小到產(chǎn)品的研發(fā)與迭代，大到公司的決策和運(yùn)營(yíng)，都緊密圍繞數(shù)據(jù)進(jìn)行?？梢哉f(shuō)，數(shù)據(jù)是公司的燃料，數(shù)據(jù)應(yīng)用則是公司的引擎。公司在用的數(shù)據(jù)總量，已經(jīng)達(dá)到了EB級(jí)別，這對(duì)數(shù)據(jù)存儲(chǔ)和處理的基建要求都非常高。日常數(shù)據(jù)處理中，早晚高峰的數(shù)據(jù)流量，達(dá)到了1億TPS，日均處理數(shù)據(jù)作業(yè)量百萬(wàn)級(jí)以上。數(shù)據(jù)處理的效率直接影響到公司的運(yùn)營(yíng)效率。從圖中可以看出，集團(tuán)的很多應(yīng)用都是通過(guò)數(shù)據(jù)分析來(lái)驅(qū)動(dòng)數(shù)據(jù)運(yùn)營(yíng)和迭代的。

2.抖音集團(tuán)的數(shù)據(jù)應(yīng)用架構(gòu)

抖音集團(tuán)的數(shù)據(jù)應(yīng)用架構(gòu)，橫向上主要分為三層：底層是平臺(tái)層，包括了數(shù)倉(cāng)和計(jì)算引擎；上層是入口層，主要做訪問(wèn)控制；比較豐富的是中間的應(yīng)用和中臺(tái)層，這一層分為數(shù)據(jù)應(yīng)用和中臺(tái)開發(fā)。右邊的中臺(tái)開發(fā)主要包括數(shù)據(jù)開發(fā)、數(shù)據(jù)治理、數(shù)據(jù)資產(chǎn)管理等一些基礎(chǔ)能力，主要面向數(shù)據(jù)開發(fā)者。左邊的數(shù)據(jù)應(yīng)用，是面向業(yè)務(wù)的數(shù)據(jù)賦能利器，包括行為分析、實(shí)驗(yàn)分析、客戶分析、智能洞察等等。支撐這些數(shù)據(jù)應(yīng)用的是數(shù)據(jù)底座，也就是本文重點(diǎn)要講的數(shù)據(jù)準(zhǔn)備。

數(shù)據(jù)準(zhǔn)備介紹

1.數(shù)據(jù)準(zhǔn)備的作用

數(shù)據(jù)準(zhǔn)備是什么？能夠在數(shù)據(jù)應(yīng)用中起到什么作用？從數(shù)據(jù)流的順序來(lái)看，數(shù)據(jù)在被業(yè)務(wù)正常使用前，經(jīng)歷了以下過(guò)程：從數(shù)據(jù)源到數(shù)據(jù)建模，再到數(shù)據(jù)同步，最終形成數(shù)據(jù)集。數(shù)據(jù)從業(yè)務(wù)數(shù)據(jù)變成成型數(shù)據(jù)集的過(guò)程中，就是數(shù)據(jù)準(zhǔn)備在發(fā)揮作用。所以，數(shù)據(jù)準(zhǔn)備是幫助數(shù)據(jù)應(yīng)用完成數(shù)據(jù)生產(chǎn)的工具鏈。在此過(guò)程中，數(shù)據(jù)接入與數(shù)據(jù)建模，是非常核心的兩個(gè)模塊。接入能力奠定了數(shù)據(jù)準(zhǔn)備的廣度，建模能力決定了數(shù)據(jù)準(zhǔn)備的深度。在圖中可以直觀看到，這兩個(gè)模塊的主要作用：數(shù)據(jù)接入側(cè)主要負(fù)責(zé)各種各樣數(shù)據(jù)源的接入、集成；數(shù)據(jù)建模側(cè)主要提供數(shù)據(jù)加工、分析、挖掘的能力。

2.數(shù)據(jù)準(zhǔn)備的組成

下面進(jìn)一步剖析數(shù)據(jù)準(zhǔn)備的組成。

數(shù)據(jù)準(zhǔn)備可以劃分為四個(gè)子系統(tǒng)：建模子系統(tǒng)、執(zhí)行子系統(tǒng)、增強(qiáng)準(zhǔn)備和系統(tǒng)管理。

建模子系統(tǒng) 承載的主體功能是邏輯的實(shí)現(xiàn)，對(duì)數(shù)據(jù)源、數(shù)據(jù)模型的實(shí)體進(jìn)行抽象，以所見即所得的方式給客戶/用戶帶來(lái)數(shù)據(jù)上的操作能力。用戶可以連接自己想要的業(yè)務(wù)數(shù)據(jù)，通過(guò)低代碼的方式，完成數(shù)據(jù)處理流程，最終形成業(yè)務(wù)意義明確的數(shù)據(jù)集。

執(zhí)行子系統(tǒng) 是將建模子系統(tǒng)生成的邏輯模型轉(zhuǎn)化成任務(wù)的核心系統(tǒng)。做數(shù)據(jù)產(chǎn)品的同學(xué)都會(huì)知道，任務(wù)是整個(gè)數(shù)據(jù)系統(tǒng)中的核心實(shí)體，讓任務(wù)高效、高穩(wěn)定運(yùn)轉(zhuǎn)，是執(zhí)行子系統(tǒng)的核心目標(biāo)。執(zhí)行子系統(tǒng)包括了任務(wù)生成、任務(wù)執(zhí)行、任務(wù)管理與監(jiān)控幾個(gè)模塊。

為了保障數(shù)據(jù)任務(wù)的高效流轉(zhuǎn)和穩(wěn)定落地，有了增強(qiáng)準(zhǔn)備這一子系統(tǒng)。增強(qiáng)準(zhǔn)備子系統(tǒng)是整個(gè)數(shù)據(jù)準(zhǔn)備系統(tǒng)的智能化體現(xiàn)，包括類型推導(dǎo)、關(guān)系推斷、清洗建議和性能智能調(diào)優(yōu)，都是為了讓復(fù)雜多樣的數(shù)據(jù)穩(wěn)定、高效落地。

其他職能系統(tǒng)，包括權(quán)限管控、資源治理等，都屬于管理子系統(tǒng)。

下面針對(duì)數(shù)據(jù)準(zhǔn)備整個(gè)系統(tǒng)中的兩個(gè)核心子系統(tǒng)展開來(lái)講。

建模子系統(tǒng) 輸出的模型，恰好是執(zhí)行子系統(tǒng)的輸入。用戶結(jié)合對(duì)業(yè)務(wù)數(shù)據(jù)的認(rèn)知，會(huì)把數(shù)據(jù)源、數(shù)據(jù)處理、算子作為原材料，輸入到建模子系統(tǒng)中，構(gòu)造出的邏輯模型，呈現(xiàn)了用戶對(duì)數(shù)據(jù)業(yè)務(wù)的結(jié)構(gòu)理解，作為執(zhí)行子系統(tǒng)的輸入。

執(zhí)行子系統(tǒng) 中的任務(wù)作業(yè)，是核心實(shí)體。按照用戶所需要的邏輯關(guān)系進(jìn)行運(yùn)算的同時(shí)，為了保障穩(wěn)定性和性能，引入了引擎的調(diào)配參數(shù)。運(yùn)行管理和監(jiān)控模塊，則是從全局角度，來(lái)保障任務(wù)的吞吐。

通過(guò)兩個(gè)子系統(tǒng)的結(jié)合，滿足用戶業(yè)務(wù)需要，同時(shí)能夠?yàn)閿?shù)據(jù)準(zhǔn)備系統(tǒng)提供全托管能力：用戶可以在無(wú)人值守的情況下，保障整個(gè)系統(tǒng)任務(wù)的穩(wěn)定運(yùn)行。

抖音集團(tuán)的數(shù)據(jù)準(zhǔn)備實(shí)踐

在了解了數(shù)據(jù)準(zhǔn)備的內(nèi)在組成之后，下面介紹下數(shù)據(jù)準(zhǔn)備在抖音集團(tuán)內(nèi)部是如何發(fā)揮作用的。

從前面的介紹可以看出，數(shù)據(jù)準(zhǔn)備包含多種能力，可以歸納為四類：接入、建模、數(shù)據(jù)集、輸出。這四種能力是構(gòu)成數(shù)據(jù)準(zhǔn)備的核心，同時(shí)，數(shù)據(jù)準(zhǔn)備也可以使用其中的部分能力來(lái)滿足不同業(yè)務(wù)場(chǎng)景的需求。因此，提出了數(shù)字魔方的概念，是指數(shù)據(jù)準(zhǔn)備可以通過(guò)模塊化組合的方式，來(lái)滿足多樣的應(yīng)用場(chǎng)景。從魔方中可以看出，x軸是從功能維度描述功能模塊，y軸是從架構(gòu)維度描述系統(tǒng)分層，y軸的邏輯層和執(zhí)行層，剛好對(duì)應(yīng)上面提到的邏輯子系統(tǒng)和執(zhí)行子系統(tǒng)的分工。z軸是從功能的進(jìn)階程度，來(lái)描述模塊提供功能的分級(jí)。

下面分場(chǎng)景來(lái)介紹數(shù)據(jù)魔方是如何工作的。

1.BI場(chǎng)景，全員都能探索數(shù)據(jù)

第一個(gè)場(chǎng)景是BI場(chǎng)景。在一個(gè)數(shù)據(jù)驅(qū)動(dòng)的公司，BI是必不可少的、全員可使用的應(yīng)用。每個(gè)角色都可以通過(guò)分析數(shù)據(jù)來(lái)量化、輔助工作。在數(shù)據(jù)準(zhǔn)備中，為了滿足BI的場(chǎng)景，主要貢獻(xiàn)了接入+建模+數(shù)據(jù)集的模塊能力。用戶將不同的業(yè)務(wù)數(shù)據(jù)接入到數(shù)據(jù)準(zhǔn)備系統(tǒng)后，通過(guò)一定的數(shù)據(jù)處理，轉(zhuǎn)化成具有明確業(yè)務(wù)意義的數(shù)據(jù)集，從而為BI系統(tǒng)貢獻(xiàn)了豐富的數(shù)據(jù)集市。從右面的示例看出，用戶對(duì)接入的多種數(shù)據(jù)源進(jìn)行業(yè)務(wù)關(guān)聯(lián)，最終生成了具有明確業(yè)務(wù)意義的數(shù)據(jù)集，來(lái)做后面的報(bào)表分析。

在BI分析的場(chǎng)景中，數(shù)據(jù)準(zhǔn)備所面臨的最大挑戰(zhàn)，是在全員進(jìn)行數(shù)據(jù)處理、探索的情況下，如何在有限資源條件下保障大量任務(wù)的高吞吐和穩(wěn)定性。這里主要通過(guò)五個(gè)措施來(lái)實(shí)現(xiàn)。

（1）任務(wù)管控，隔離風(fēng)險(xiǎn)

第一點(diǎn)是通過(guò)異常管控，隔離風(fēng)險(xiǎn)。我們都知道，數(shù)據(jù)波動(dòng)是難以人為控制的，在任務(wù)出現(xiàn)數(shù)據(jù)異常等造成資源使用過(guò)高的異常情況時(shí)，如何將個(gè)體任務(wù)與系統(tǒng)任務(wù)進(jìn)行風(fēng)險(xiǎn)隔離，對(duì)系統(tǒng)穩(wěn)定性是極為重要的。首先識(shí)別出異常的個(gè)體任務(wù)，將其與系統(tǒng)的其他任務(wù)進(jìn)行安全隔離，保障系統(tǒng)的整體穩(wěn)定。

（2）動(dòng)態(tài)調(diào)參，節(jié)省資源

第二點(diǎn)是引入了動(dòng)態(tài)調(diào)參的機(jī)制，通過(guò)分析任務(wù)的歷史信息，搜集到任務(wù)在不同時(shí)候所需要的參數(shù)，自適應(yīng)調(diào)整任務(wù)的狀態(tài)，從而使整個(gè)系統(tǒng)的資源得到有效的節(jié)省。

（3）多路分發(fā)，提升性能

第三點(diǎn)是通過(guò)任務(wù)多路分發(fā)，根據(jù)任務(wù)的數(shù)據(jù)量，任務(wù)的不同特征，分配不同的鏈路，最大限度提升整個(gè)系統(tǒng)的運(yùn)行性能。讓小任務(wù)占用較少的資源，大任務(wù)充分利用資源的運(yùn)行能力。使整個(gè)系統(tǒng)的吞吐達(dá)到比較好的水平。

（4）沉淀規(guī)則，專業(yè)診斷

第四點(diǎn)是在系統(tǒng)內(nèi)，沉淀豐富的診斷規(guī)則。為什么診斷規(guī)則重要呢？因?yàn)槿蝿?wù)是用戶自定義的，且數(shù)據(jù)難以控制，如何識(shí)別任務(wù)特征，并且在任務(wù)發(fā)生異常時(shí)，診斷出異常原因，是很多數(shù)據(jù)系統(tǒng)面臨的挑戰(zhàn)。在我們的數(shù)據(jù)準(zhǔn)備系統(tǒng)中，通過(guò)沉淀系統(tǒng)內(nèi)大量任務(wù)的運(yùn)行情況，抽象出規(guī)則，使規(guī)則引擎成為數(shù)據(jù)準(zhǔn)備的核心能力。通過(guò)逐步學(xué)習(xí)任務(wù)的特征，來(lái)保障任務(wù)執(zhí)行的穩(wěn)定，并且在任務(wù)異常時(shí)準(zhǔn)確識(shí)別出原因，反饋給用戶。

（5）監(jiān)控大盤，及時(shí)告警

最后一點(diǎn)是監(jiān)控大盤。監(jiān)控大盤為整個(gè)數(shù)據(jù)準(zhǔn)備系統(tǒng)提供全天候的實(shí)時(shí)任務(wù)監(jiān)控和告警推送，以保障任務(wù)的穩(wěn)定運(yùn)行，對(duì)可能出現(xiàn)問(wèn)題的任務(wù)，通過(guò)風(fēng)險(xiǎn)前置，滿足業(yè)務(wù)數(shù)據(jù)的SLA。

以上幾個(gè)措施，可以最大程度保障在資源有限的環(huán)境下，任務(wù)吞吐達(dá)到比較高的水平，系統(tǒng)達(dá)到比較高的穩(wěn)定性。

2.CDP場(chǎng)景，打通數(shù)據(jù)孤島挖掘客戶

另一大數(shù)據(jù)應(yīng)用場(chǎng)景是CDP場(chǎng)景。CDP是客戶數(shù)據(jù)平臺(tái)，以分析和挖掘客戶信息為主要功能。在此場(chǎng)景下，數(shù)據(jù)準(zhǔn)備所提供的能力主要是接入+輸出。用戶為了挖掘有用的信息，會(huì)從各種各樣的數(shù)據(jù)源收集數(shù)據(jù)，并對(duì)數(shù)據(jù)進(jìn)行融合打通，其中包括了行為數(shù)據(jù)、屬性數(shù)據(jù)和各種業(yè)務(wù)的明細(xì)數(shù)據(jù)。數(shù)據(jù)準(zhǔn)備系統(tǒng)，通過(guò)提供有效的數(shù)據(jù)融合能力，來(lái)解決數(shù)據(jù)孤島的問(wèn)題，讓挖掘客戶更加便捷。圖中列出了常用的幾種數(shù)據(jù)源的接入能力，包括：數(shù)據(jù)庫(kù)、API、流式數(shù)據(jù)、文本數(shù)據(jù)、更多應(yīng)用數(shù)據(jù)等。

在CDP應(yīng)用場(chǎng)景下，數(shù)據(jù)準(zhǔn)備面臨的挑戰(zhàn)是什么呢？因?yàn)榭蛻粜畔?duì)每家企業(yè)都是最核心的數(shù)據(jù)資產(chǎn)，因此客戶數(shù)據(jù)平臺(tái)，在公司內(nèi)進(jìn)行私有化部署有著非常強(qiáng)的訴求。如何既能同時(shí)支持多家企業(yè)部署，又能高效解決不同企業(yè)對(duì)接不同數(shù)據(jù)源的問(wèn)題，是數(shù)據(jù)準(zhǔn)備面臨的挑戰(zhàn)。這里，主要將接入的數(shù)據(jù)源分為兩種：數(shù)據(jù)庫(kù)類數(shù)據(jù)源和開放類數(shù)據(jù)源。

數(shù)據(jù)庫(kù)類數(shù)據(jù)源是企業(yè)的私域數(shù)據(jù)，維護(hù)在企業(yè)內(nèi)部，主要通過(guò)插件式接入。如圖，客戶區(qū)的數(shù)據(jù)源是多種多樣且不可預(yù)知的；私部區(qū)是部署在客戶企業(yè)域內(nèi)的數(shù)據(jù)平臺(tái)，數(shù)據(jù)準(zhǔn)備提供了插件式的接入架構(gòu)，使得新數(shù)據(jù)源的接入通過(guò)快捷插拔式即可完成，大大提升數(shù)據(jù)源接入效率。

開放類數(shù)據(jù)源只維護(hù)云端采集服務(wù)，采集后通過(guò)動(dòng)態(tài)下發(fā)的方式，把數(shù)據(jù)或配置信息下發(fā)到私部企業(yè)域中，讓用戶無(wú)需額外調(diào)整，即可完成來(lái)自公開數(shù)據(jù)源和用戶配置的應(yīng)用數(shù)據(jù)源等多種數(shù)據(jù)源的接入。

這樣，在多企業(yè)、多數(shù)據(jù)源的情況下，極大降低了系統(tǒng)升級(jí)迭代的成本，以及部署運(yùn)維的成本。既為企業(yè)帶來(lái)了使用上的便利，也為平臺(tái)提供方節(jié)省了成本。

3.自定義場(chǎng)景，構(gòu)建自己的數(shù)據(jù)應(yīng)用

BI和CDP這兩種比較成型的應(yīng)用場(chǎng)景中，用戶的數(shù)據(jù)處理是依托固有的數(shù)據(jù)模型來(lái)進(jìn)行的。當(dāng)用戶有更靈活的數(shù)據(jù)呈現(xiàn)需求時(shí)，需要自定義場(chǎng)景。在這個(gè)場(chǎng)景中，數(shù)據(jù)準(zhǔn)備系統(tǒng)主要提供了接入+數(shù)據(jù)集+輸出的能力，使得用戶能夠便捷地對(duì)接所需要的數(shù)據(jù)源，在數(shù)據(jù)應(yīng)用后臺(tái)，通過(guò)程序交互的方式，完成數(shù)據(jù)接入到數(shù)據(jù)輸出的流程。并通過(guò)openAPI的方式，將處理完的數(shù)據(jù)應(yīng)用到自己的數(shù)據(jù)應(yīng)用中。數(shù)據(jù)準(zhǔn)備系統(tǒng)只提供穩(wěn)定的后臺(tái)數(shù)據(jù)鏈路保障，數(shù)據(jù)的呈現(xiàn)完全交給用戶進(jìn)行靈活自定義。如圖，右面上方的三個(gè)方框體現(xiàn)了數(shù)據(jù)準(zhǔn)備對(duì)數(shù)據(jù)流的處理過(guò)程，右面下方的效果呈現(xiàn)是一個(gè)應(yīng)用示例，用來(lái)說(shuō)明用戶通過(guò)靈活取數(shù)的方式，滿足各種數(shù)據(jù)呈現(xiàn)效果，實(shí)現(xiàn)數(shù)據(jù)運(yùn)營(yíng)的閉環(huán)。

以上講了三種數(shù)據(jù)準(zhǔn)備系統(tǒng)支持的核心應(yīng)用場(chǎng)景。此外，通過(guò)模塊化的能力可以支持更多更豐富的應(yīng)用場(chǎng)景，這些場(chǎng)景在未來(lái)會(huì)被逐步發(fā)掘出來(lái)。

通過(guò)圖中的數(shù)字魔方，可以直觀感受到，數(shù)據(jù)準(zhǔn)備既是一個(gè)各模塊緊密協(xié)作的整體，又是一個(gè)可以高度模塊化的組件集合。針對(duì)不同場(chǎng)景，擁有靈活的適配能力，使得數(shù)據(jù)準(zhǔn)備呈現(xiàn)出很強(qiáng)的生命力，這也是火山引擎中數(shù)據(jù)準(zhǔn)備的優(yōu)勢(shì)所在。

火山引擎的數(shù)據(jù)準(zhǔn)備

最后來(lái)看一下，在火山引擎的數(shù)據(jù)準(zhǔn)備里，如何給不同的應(yīng)用提供不同的能力。

火山引擎的數(shù)據(jù)應(yīng)用主要在SaaS層。如圖中紅色框出的部分。SaaS層是建立在IaaS層的云基礎(chǔ)和PaaS層的數(shù)據(jù)中臺(tái)之上。主要有五大應(yīng)用：A/B測(cè)試-DataTester、增長(zhǎng)營(yíng)銷平臺(tái)-GMP、增長(zhǎng)分析-DataFinder、客戶數(shù)據(jù)平臺(tái)-VeCDP、一站式數(shù)據(jù)分析與協(xié)作平臺(tái)-DataWind。其中，數(shù)據(jù)平臺(tái)-VeCDP、一站式數(shù)據(jù)分析與協(xié)作平臺(tái)-DataWind分布對(duì)應(yīng)上面講到的三個(gè)場(chǎng)景中的CDP場(chǎng)景和BI場(chǎng)景。這五大數(shù)據(jù)應(yīng)用，構(gòu)成了火山引擎的數(shù)據(jù)營(yíng)銷套件，全方位為企業(yè)客戶賦能，實(shí)現(xiàn)數(shù)據(jù)化運(yùn)營(yíng)，創(chuàng)造業(yè)務(wù)價(jià)值。

而數(shù)據(jù)準(zhǔn)備，是為這五大數(shù)據(jù)應(yīng)用提供基礎(chǔ)數(shù)據(jù)能力的組件，目前還沒有以獨(dú)立的產(chǎn)品對(duì)外透出。當(dāng)客戶購(gòu)買營(yíng)銷套件中的某個(gè)應(yīng)用時(shí)，數(shù)據(jù)準(zhǔn)備會(huì)提供對(duì)應(yīng)的模塊化能力，來(lái)打通數(shù)據(jù)從客戶側(cè)到火山應(yīng)用側(cè)的通路。當(dāng)客戶購(gòu)買整個(gè)套件，或套件中的多個(gè)應(yīng)用時(shí)，底層的數(shù)據(jù)準(zhǔn)備能夠打通不同數(shù)據(jù)應(yīng)用的數(shù)據(jù)，使已經(jīng)形成的數(shù)據(jù)資產(chǎn)得以在不同應(yīng)用中復(fù)用，實(shí)現(xiàn)一份數(shù)據(jù)多樣分析。

總結(jié)一下，數(shù)據(jù)準(zhǔn)備通過(guò)多源數(shù)據(jù)融合打通了數(shù)據(jù)孤島；通過(guò)低代碼的數(shù)據(jù)建模，帶給用戶所見即所得的數(shù)據(jù)操作體驗(yàn)；而豐富的數(shù)據(jù)集市，為多樣化的數(shù)據(jù)分析場(chǎng)景提供了完美助力；完整的數(shù)據(jù)鏈路能力，使火山引擎打通了任督二脈。

以上是本次分享的內(nèi)容，感謝大家的時(shí)間。

火山引擎是云市場(chǎng)的新秀，與企業(yè)在共同成長(zhǎng)，感謝大家對(duì)火山引擎的關(guān)注。

Q&A

Q1：任務(wù)診斷部分，有哪些診斷手段和規(guī)則？如何平衡診斷操作本身的資源消耗？

A ：如何平衡診斷與任務(wù)：診斷分兩部分，一部分是離線診斷，一部分是在線診斷。

離線診斷主要是任務(wù)在發(fā)生異常的時(shí)候，把信息快速反饋給業(yè)務(wù)系統(tǒng)，主要應(yīng)用場(chǎng)景是把診斷的異常信息提示給客戶，讓客戶進(jìn)行整改。是在系統(tǒng)無(wú)法自恢復(fù)的情況下給出的提示。

在線診斷，是結(jié)合當(dāng)前任務(wù)執(zhí)行中的異常數(shù)據(jù)，根據(jù)固定的pattern，映射到需要調(diào)優(yōu)的參數(shù)。系統(tǒng)發(fā)現(xiàn)有任務(wù)異常并且可以進(jìn)行自恢復(fù)時(shí)候，通過(guò)診斷信息調(diào)整參數(shù)，進(jìn)行任務(wù)重跑。

Q2 ：增強(qiáng)準(zhǔn)備模塊中的類型推斷、關(guān)系推導(dǎo)可以展開介紹下嗎？比如多表場(chǎng)景下的join，join的類型是否可以在模塊中推斷出來(lái)？

A ：數(shù)據(jù)來(lái)自不同數(shù)據(jù)源，不同類型數(shù)據(jù)源有各自的字段類型體系。不同數(shù)據(jù)源接入到數(shù)據(jù)準(zhǔn)備系統(tǒng)后，給用戶最終呈現(xiàn)的類型體系，是系統(tǒng)的類型體系。第一步類型體系的推斷，是基于不同數(shù)據(jù)源到系統(tǒng)類型體系對(duì)接中明確的mapping關(guān)系。第二步是做概率性推斷，主要是基于數(shù)據(jù)探查能力，在抽樣獲取數(shù)據(jù)源部分?jǐn)?shù)據(jù)之后，識(shí)別數(shù)據(jù)字段中的值，根據(jù)字段類型特征，以一定概率推薦這個(gè)字段應(yīng)該取什么樣的數(shù)據(jù)類型。第一步中的mapping關(guān)系，結(jié)合第二步中基于抽樣值的類型推斷，就可以給數(shù)據(jù)模型提供較為準(zhǔn)確的類型推斷。

Q3 ：數(shù)據(jù)準(zhǔn)備是火山引擎DataWind里面的可視化建模嗎？有沒有可視化建模的能力？可視化建模方式在抖音集團(tuán)內(nèi)部使用情況怎樣？有多少用戶量通過(guò)可視化這種拖拽的方式構(gòu)建數(shù)據(jù)集呢？

A ：是的。可視化建模是DataWind中的子產(chǎn)品，是有產(chǎn)品透出的，是數(shù)據(jù)準(zhǔn)備能力的一部分。數(shù)據(jù)準(zhǔn)備除了有可視化建模這種通過(guò)拖拽構(gòu)建數(shù)據(jù)集的方式之外，核心能力還有數(shù)據(jù)接入、數(shù)據(jù)集、數(shù)據(jù)輸出。很多能力服務(wù)于火山引擎營(yíng)銷套件里的多個(gè)數(shù)據(jù)應(yīng)用產(chǎn)品。

第二個(gè)關(guān)于數(shù)據(jù)準(zhǔn)備的能力在抖音集團(tuán)內(nèi)部的使用情況。使用量比較大，數(shù)據(jù)準(zhǔn)備能力不僅包括了已經(jīng)在產(chǎn)品透出的可視化建模，還包括了數(shù)據(jù)接入、數(shù)據(jù)集、數(shù)據(jù)任務(wù)等。

以上就是本次分享的內(nèi)容，謝謝大家。

▌2023數(shù)據(jù)智能創(chuàng)新與實(shí)踐大會(huì)

數(shù)據(jù)架構(gòu)/數(shù)據(jù)效能/智能應(yīng)用/算法創(chuàng)新……

4大體系，專業(yè)解構(gòu)數(shù)據(jù)智能

16個(gè)主題論壇，覆蓋當(dāng)下熱點(diǎn)與趨勢(shì)

70+演講，兼具創(chuàng)新與最佳實(shí)踐

1000+專業(yè)觀眾，內(nèi)行人的技術(shù)盛會(huì)

點(diǎn)擊下方鏈接了解詳情：

關(guān)鍵詞：

傳感物聯(lián)網(wǎng)

中國(guó)生物首個(gè)自主研發(fā)創(chuàng)新型抗體偶聯(lián)藥物臨床試驗(yàn)申請(qǐng)獲受理

據(jù)中國(guó)生物消息，7月7日，國(guó)藥集團(tuán)中國(guó)生物上海生物制品研究所自主研發(fā)
港股異動(dòng) | 京東方精電(00710)漲超5% 機(jī)構(gòu)認(rèn)為車載顯示引領(lǐng)座艙智能化行業(yè)提質(zhì)擴(kuò)容在即

智通財(cái)經(jīng)APP獲悉京東方精電00710早盤持續(xù)走高漲超5截止發(fā)稿漲524報(bào)1204
首份上市券商半年報(bào)預(yù)喜！財(cái)通證券預(yù)計(jì)中期凈利同比增加55%至70%

7月10日晚間，今年首家券商半年報(bào)業(yè)績(jī)預(yù)告出爐。財(cái)通證券披露，本期業(yè)
10號(hào)直播帶貨日榜：東方甄選升至抖音榜首，貓妹妹快手銷量第一

【直播帶貨日榜】是鞭牛士推出的多個(gè)平臺(tái)達(dá)人每日直播帶貨榜單。根據(jù)第
夏季三伏天養(yǎng)生6大禁忌需注意

【三伏天養(yǎng)生6大禁忌】7月11日正式入伏，三伏天通常出現(xiàn)在小暑與處暑之

日韩一级大片,干日本美女,夜夜爽一区二区三区视频,国产精品久久久久久吹潮,91久久精品日日躁夜夜欧美,久亚州在线播放,香蕉视频成年人

抖音集團(tuán)面向多樣應(yīng)用場(chǎng)景的數(shù)據(jù)準(zhǔn)備實(shí)踐

傳感物聯(lián)網(wǎng)