隨著現(xiàn)代數(shù)據(jù)技術(shù)體系的發(fā)展,數(shù)據(jù)驅(qū)動已經(jīng)成為企業(yè)管理不可或缺的一部分,數(shù)據(jù)遍布在企業(yè)內(nèi)部的每一個角落。每個企業(yè)積累的海量的大數(shù)據(jù),但真正發(fā)揮效能的數(shù)據(jù)微乎其微,形成了大量的“沉睡”數(shù)據(jù)。而企業(yè)內(nèi)部的數(shù)據(jù)用戶,從數(shù)據(jù)分析師到市場營銷人員再到銷售人員,每個員工現(xiàn)在都在使用數(shù)驅(qū)動業(yè)務(wù),形成新的數(shù)據(jù)用戶社區(qū)(Data Community)。
一方面,海量的數(shù)據(jù)在沉睡,另一方面,大量用戶需求涌現(xiàn),如今不足的數(shù)據(jù)計算資源和 BI 團隊人力資源對這些不斷增長的期望不堪重負。
新時代來臨,結(jié)合Dev-Ops, New DataStack, DataFebric等諸多理念,全球企業(yè)開始采用最新的DataOps框架解決新時代的“數(shù)據(jù)蜘蛛網(wǎng)”問題。
白鯨開源 WhaleStudio 套件中的 WhaleScheduler 作為一款企業(yè)統(tǒng)一的云原生可視化大數(shù)據(jù)工作流調(diào)度平臺,旨在幫助企業(yè)解決內(nèi)部多數(shù)據(jù)源、多數(shù)據(jù)系統(tǒng)復(fù)雜的數(shù)據(jù)集成,持續(xù)開發(fā)、持續(xù)部署、數(shù)據(jù)捕獲、數(shù)據(jù)打通等一系列問題。
WhaleScheduler 具備可靠性、可擴展性、易用性、靈活性、可視化和安全性等特性,擁有完善的調(diào)度能力、數(shù)據(jù)處理能力、集群管理能力、數(shù)據(jù)可視化能力、監(jiān)控和報警能力,以及安全管理能力,能夠在復(fù)雜的生產(chǎn)環(huán)境中針對行業(yè)客戶增加企業(yè)級產(chǎn)品功能并加強系統(tǒng)安全與穩(wěn)定性,支持數(shù)據(jù)庫、云、大數(shù)據(jù)、AI組件等數(shù)十種系統(tǒng)的任務(wù)調(diào)度,助力企業(yè)數(shù)據(jù)消費者、數(shù)據(jù)探索者、數(shù)據(jù)分析家、數(shù)據(jù)科學(xué)家,以及數(shù)據(jù)客戶/供應(yīng)商提高調(diào)度效率,降低生產(chǎn)成本。
接入WhaleGPT AI對話助手,賦能企業(yè)私有化模型訓(xùn)練 為了降低數(shù)據(jù)調(diào)度系統(tǒng)的使用難度,使數(shù)據(jù)分析師等業(yè)務(wù)部門的人員無需代碼背景也可以無門檻的進行數(shù)據(jù)開發(fā)和操作調(diào)度作業(yè),WhaleScheduler 2.4.5 接入了 WhaleStudio 新增重要模塊——WhaleGPT 的 AI 助手,可以輔助業(yè)務(wù)人員直接完成數(shù)據(jù)業(yè)務(wù)腳本開發(fā),讓他們更關(guān)注業(yè)務(wù)本身,而不是代碼。
WhaleStudio 是白鯨開源科技根據(jù)全球領(lǐng)先的 DataOps 理念打造的新一代數(shù)據(jù)集成調(diào)度工具,最新版本的 WhaleStudio 中除了 WhaleScheduler 與 WhaleTunnel 兩大核心組件之外,又新增了 WhaleGPT 大模型服務(wù)模塊,加強了 WhaleStudio 的模型訓(xùn)練能力,提供給用戶完整的 DataOps 解決方案。
WhaleGPT AI 對話助手目前支持:
查詢功能操作幫助,通過詢問功能名稱可以返回該功能的上手指南,部分功能提供跳轉(zhuǎn)鏈接至指定操作界面;
通過對話查詢工作流,直接在對話中詢問 WhaleGPT,返回對應(yīng)的工作流并提供跳轉(zhuǎn)鏈接;
通過對話提出需求讓 GPT 生成 SQL 代碼,在對話中將自己的需求描述出來,如寫查詢某某數(shù)據(jù)的 SQL,返回該需求的 SQL 代碼。
例如,WhaleGPT 可以在眾多復(fù)雜的使用手冊和規(guī)則中,找到你所需要的功能和說明。
WhaleGPT 還可以輔助編程、Txt2SQL,提高數(shù)據(jù)程序員的開發(fā)效率。
WhaleGPT 自帶的大模型能力讓企業(yè)可以快速訓(xùn)練私有化模型,普通程序員用半天時間就具備訓(xùn)練私有化大模型的能力,讓大模型幫助客戶更了解自己的業(yè)務(wù),加強數(shù)據(jù)安全,跨越大模型與現(xiàn)有系統(tǒng)數(shù)據(jù)的鴻溝。
擴展數(shù)據(jù)類型支持能力 隨著越來越多的數(shù)據(jù)庫出現(xiàn),數(shù)據(jù)分散、數(shù)據(jù)不一致、數(shù)據(jù)安全性等問題越來越突出,數(shù)據(jù)兼容性的問題(數(shù)據(jù)格式、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)類型不兼容等)也變得更加復(fù)雜。
WhaleScheduler 有更多的數(shù)據(jù)源支持可以提供更全面、準確的數(shù)據(jù),從而提高數(shù)據(jù)分析和決策的質(zhì)量。同時,對于某些特定業(yè)務(wù)需要不同類型的數(shù)據(jù)源來支持的需求,WhaleScheduler 也能輕松應(yīng)對。
在新版本中,我們新增了對多種國產(chǎn)數(shù)據(jù)源的支持,以滿足客戶對信創(chuàng)環(huán)境的更高需求:
IoTDB、飛輪數(shù)據(jù)庫、TDengine、Mirrorship、Openlookeng、瀚高數(shù)據(jù)庫、人大金倉數(shù)據(jù)庫(V8)、ClickHouse、PolarDB。
提高云原生支持水平 同時,WhaleScheduler 全面支持云原生,為了幫助企業(yè)更好地適應(yīng)大數(shù)據(jù)和云原生大時代下的數(shù)據(jù)處理與治理,我們對更多云廠商的相關(guān)數(shù)據(jù)庫進行了支持:
PolarDB 分布式版 (V2.2)、PolarDB PostgresOL版 (V11)、GaussDB、openGauss、PostgreSQL、TDSQL。
增強數(shù)據(jù)安全性 01 信創(chuàng)環(huán)境適配升級 信創(chuàng)(信息技術(shù)應(yīng)用創(chuàng)新)是數(shù)據(jù)安全、網(wǎng)絡(luò)安全的基礎(chǔ),也是“新基建”的重要內(nèi)容,推動國家的核心技術(shù)必須實現(xiàn)自主可控。信創(chuàng)是目前國內(nèi)的一項戰(zhàn)略,也是當今形勢下國內(nèi)經(jīng)濟發(fā)展的新動能。
為解決本質(zhì)安全的問題,助力企業(yè)自主可控地完成經(jīng)濟數(shù)字化轉(zhuǎn)型、提升產(chǎn)業(yè)鏈發(fā)展,WhaleScheduler 2.4.5 版本對多個國產(chǎn)系統(tǒng)環(huán)境進行了適配,保障企業(yè)數(shù)據(jù)安全,包括:
openEuler、、鯤鵬、統(tǒng)信、OpenCloudOS、TencentOS Server2、TencentOS Server3。
02 提高安全性 WhaleScheduler 自誕生以來就將安全問題作為產(chǎn)品管理的關(guān)鍵指標,為了提高產(chǎn)品安全性,WhaleScheduler 2.4.5 優(yōu)化多項安全措施:
支持使用 SSL 證書訪問數(shù)據(jù)源、支持自動刷新 HDFS 服務(wù)認證、支持 zk 的 Kerberos 認證、Hive 數(shù)據(jù)源支持 keytab 配置、配置文件密碼加密(jaspyt 加密)。
功能全新升級優(yōu)化 為了優(yōu)化產(chǎn)品的使用習慣,WhaleScheduler 2.4.5 對首頁、DAG、錯誤提示框等進行了優(yōu)化,方便客戶更加無邊界地試用產(chǎn)品。
01 功能優(yōu)化 在功能上,WhaleScheduler 2.4.5 進行的部分重要優(yōu)化包括:
工作流邏輯任務(wù)新增 Dynamic 動態(tài)任務(wù)組件:在工作流邏輯組件中新增動態(tài)任務(wù)組件,使用動態(tài)任務(wù)組件后工作流可以在運行中根據(jù)每次輸入?yún)?shù)變量的變化動態(tài)的生成調(diào)度實例。這對于需要針對不同的數(shù)據(jù)通過同樣的腳本進行處理的用戶來說,不再需要重復(fù)設(shè)置多個工作流,也不需要事先估算需要運行的實例數(shù)量,如機器學(xué)習模型多參數(shù)調(diào)參訓(xùn)練的場景。針對同類多樣的數(shù)據(jù)調(diào)度,動態(tài)任務(wù)組件可以大批量的同時執(zhí)行,大大提高了數(shù)據(jù)處理的效率。
基線告警:某些任務(wù)的數(shù)據(jù)需要在指定時間點之前完成,由于前置任務(wù)拖延,導(dǎo)致最后的任務(wù)不能在規(guī)定的時間點完成,需要提前預(yù)警并人工介入處理,因此需要提前預(yù)判任務(wù)是否有延誤風險以提供處理的時間空間。關(guān)鍵調(diào)度任務(wù)可以通過設(shè)置基線進行監(jiān)控,當存在未能承諾時間內(nèi)完成的風險時及時給負責人進行告警提醒,以保障業(yè)務(wù)的正常運轉(zhuǎn)。
支持自定義任務(wù)組件:當前工作流內(nèi)不支持的任務(wù)類型,用戶可以通過提供該組件jar包并在配置文件中設(shè)置需要配置的任務(wù)參數(shù)項,即可在工作流內(nèi)新增該任務(wù)類型組件進行調(diào)度作業(yè)使用了。
影響分析支持展示工作流實例、任務(wù)實例的血緣,并支持運行操作:工作流實例、任務(wù)實例維度的調(diào)度血緣展示,同時可以在影響分析中直接對工作流和任務(wù)執(zhí)行運行相關(guān)的操作。任務(wù)依賴是調(diào)度作業(yè)處理中的核心場景。尤其是企業(yè)規(guī)模較大業(yè)務(wù)涉及面更廣時,其數(shù)據(jù)處理流程日益復(fù)雜。在調(diào)度作業(yè)中往往面臨著龐大的調(diào)度依賴,一旦當其中某一個節(jié)點出現(xiàn)數(shù)據(jù)錯誤,排查問題變得十分困難,需要一個一個的檢查依賴項并向上溯源。實例級的影響分析正是為了解決這一問題誕生的,使調(diào)度作業(yè)的運維工作變得更為簡單和高效。在工作流/任務(wù)的運行實例的影響分析中,可以清晰地看到上有依賴的實例,并支持繼續(xù)向上或拓展溯源。一旦找到了問題源頭,經(jīng)過處理后,可以在影響分析中直接執(zhí)行相關(guān)的人工干預(yù)操作。
IDE 支持通過資源中心引入 SQL 腳本:除了腳本文件和 jar 之外,用戶還可以可以直接在任務(wù)腳本里導(dǎo)入本地/git 上的 SQL 腳本。在任務(wù)中無需重復(fù)編寫任務(wù)腳本,可以將已經(jīng)開發(fā)好的任務(wù)腳本上傳至資源中心,或者通過資源中心引用 git 倉庫中的腳本代碼,或在資源中心中直接開發(fā)或共享的腳本文件,直接導(dǎo)入任務(wù)腳本中。
跨項目批量運維工作流:項目運維人員通常需要同時運維多個項目作業(yè),反復(fù)地切換項目查看工作流和任務(wù)運行實例進行維護,影響使用體驗。新增了跨項目的功能后,用戶可以在統(tǒng)一視角,查看和處理自己權(quán)限范圍內(nèi)的所有調(diào)度業(yè)務(wù)了,簡化了用戶操作的同時提高了運維效率。
02 權(quán)限功能改造 根據(jù)此前客戶反饋權(quán)限功能的限制導(dǎo)致的不便,WhaleScheduler 2.4.5 進行了權(quán)限功能的改造,以便客戶進行權(quán)限管理。
新版本中,客戶可以按照項目來隔離角色權(quán)限,分為項目管理員、項目運維、項目開發(fā)、項目訪客角色,結(jié)合資源管理給與不同人員不同權(quán)限。
03 增強導(dǎo)入、導(dǎo)出功能 此外,新版本還增強了導(dǎo)入、導(dǎo)出功能。如果不采用自動化的 CI/CD 流程,WhaleScheduler 支持跨環(huán)境打包部署,主要用于工作的流的遷移工作,從環(huán)境 A 中導(dǎo)出(導(dǎo)入)到環(huán)境 B 中,通過該功能進行快速打包或數(shù)據(jù)備份。
WhaleScheduler 此次版本升級將提高對用戶的支持能力,更好地賦能企業(yè)云化的數(shù)據(jù)處理和調(diào)度、數(shù)據(jù)快速獲取及企業(yè)整體云化數(shù)據(jù)資產(chǎn)的管理問題,協(xié)助完成企業(yè)數(shù)字化升級的整體目標。