用大模型,火山引擎要把數(shù)據(jù)飛輪「轉(zhuǎn)」起來
機(jī)器之心報(bào)道
作者:姜菁玲
在大模型對(duì)千行百業(yè)的改造進(jìn)程中,火山引擎率先交出了一份數(shù)據(jù)行業(yè)的個(gè)性化答案。
9 月 19 日,在上海舉辦的 “數(shù)據(jù)飛輪?VTech 數(shù)據(jù)驅(qū)動(dòng)科技峰會(huì)” 上,火山引擎宣布數(shù)智平臺(tái) VeDI 應(yīng)用大模型(Large Language Models)能力。
產(chǎn)品升級(jí)后,能夠?qū)崿F(xiàn)用自然語言 “找數(shù)”、輔助數(shù)倉模型研發(fā)、優(yōu)化代碼,同時(shí)還能完成可視化圖表的生成,對(duì)話時(shí)實(shí)現(xiàn)歸因分析等功能。即使沒有代碼能力的普通運(yùn)營(yíng)人員也能快速找數(shù)和分析。目前,VeDI 相關(guān)數(shù)據(jù)產(chǎn)品已啟動(dòng)邀測(cè)。
升級(jí)后的數(shù)據(jù)產(chǎn)品大大拉低了使用數(shù)據(jù)的門檻。以往,一個(gè)普通運(yùn)營(yíng)希望找數(shù),往往需要求助研發(fā)人員,由研發(fā)人員編寫代碼幫助取數(shù),分析一個(gè)數(shù)據(jù)需要結(jié)合眾多專業(yè)知識(shí)。而現(xiàn)在,借助升級(jí)后的數(shù)據(jù)產(chǎn)品,運(yùn)營(yíng)人員可以隨時(shí)用自然語言輸入自己的需求,實(shí)時(shí)拿到自己想要的數(shù)據(jù)。
這將進(jìn)一步激發(fā)數(shù)據(jù)的價(jià)值。在企業(yè)內(nèi)部,更低的使用門檻能夠數(shù)據(jù)消費(fèi)鏈條上的更多人能夠開始接觸數(shù)據(jù)、使用數(shù)據(jù),以往被現(xiàn)實(shí)門檻壓抑的數(shù)據(jù)需求將會(huì)被滿足,業(yè)務(wù)基于數(shù)據(jù)的洞察將會(huì)更加及時(shí)、決策將更加科學(xué)、更多基于數(shù)據(jù)的業(yè)務(wù)想象將被釋放。
對(duì)于正在數(shù)字化進(jìn)程中的企業(yè)來說,數(shù)據(jù)價(jià)值將在更高頻率的流轉(zhuǎn)中被釋放,數(shù)據(jù)飛輪將被進(jìn)一步加速。
大模型融入數(shù)據(jù)全鏈路,進(jìn)一步降低數(shù)據(jù)生產(chǎn)、使用門檻
相比于小模型,大模型擁有強(qiáng)大的泛化推理能力、外部工具調(diào)取能力以及代碼生成能力。這些能力對(duì)于數(shù)據(jù)產(chǎn)品而言,有著重大的影響。
更強(qiáng)的泛化推理能力意味著更高的智能性,但同時(shí),也需要結(jié)合很多工具的調(diào)各項(xiàng)能力,比如數(shù)學(xué)及分析能力等作為補(bǔ)充。而大模型時(shí)代開啟的自然語言交互模式,也為數(shù)據(jù)產(chǎn)品的使用方式帶來了新的想象空間。
今年 3 月開始,字節(jié)內(nèi)部開始將大模型與數(shù)據(jù)產(chǎn)品進(jìn)行結(jié)合,在快速迭代的小范圍測(cè)試中,很快羅旋團(tuán)隊(duì)發(fā)現(xiàn),在數(shù)據(jù)產(chǎn)品的主要場(chǎng)景中,大模型帶來的提升和改變都是明顯的。隨后,團(tuán)隊(duì)開始在數(shù)據(jù)產(chǎn)品的場(chǎng)景中大范圍嘗試,不斷量化場(chǎng)景的優(yōu)先級(jí),并推動(dòng)大模型在產(chǎn)品中落地。
在大模型對(duì)數(shù)據(jù)行業(yè)的改造過程中,場(chǎng)景的選擇是最關(guān)鍵的步驟之一,一個(gè)合適的使用場(chǎng)景不僅需要在目前的技術(shù)或者可預(yù)期的技術(shù)上成立,還需要保證加持大模型后用戶或業(yè)務(wù)方能夠有更好的使用體驗(yàn),同時(shí)帶來更多的數(shù)據(jù)消費(fèi)價(jià)值,能夠進(jìn)一步帶動(dòng)數(shù)據(jù)生產(chǎn)。
羅旋分享稱,比如,如果在一些場(chǎng)景中原有解決方案整體只需要花費(fèi) 12 秒,使用了大模型之后,由于大模型延遲問題,用自然語言可能要到 5 秒以上,那這個(gè)場(chǎng)景就不能滿足業(yè)務(wù)對(duì)于時(shí)效性的體驗(yàn)需求,就是不成立的。
“但是,比如在短代碼生成環(huán)節(jié),加入自然語言后,場(chǎng)景效率提升便十分明顯。未來,隨著大模型的性能不斷提升,在數(shù)據(jù)全鏈路的各個(gè)環(huán)節(jié),大模型能帶來的智能化改變將更值得期待。”
在此次的 “數(shù)據(jù)飛輪?VTech 數(shù)據(jù)驅(qū)動(dòng)科技峰會(huì)” 上,火山引擎所宣布的關(guān)于數(shù)智平臺(tái) VeDI 的產(chǎn)品升級(jí)主要包括了 DataLeap 以及 DataWind 兩個(gè)部分。其中,DataLeap 中的 “找數(shù)助手” 能夠支持以問答方式進(jìn)行找數(shù),“開發(fā)助手” 能夠支持用自然語言生成、優(yōu)化 SQL 代碼;DataWind 分析助手則能夠支持自然語言完成數(shù)據(jù)可視化查詢與分析。覆蓋了找數(shù)、取數(shù)以及分析全鏈路,為數(shù)據(jù)生產(chǎn)與消費(fèi)全流程降低了技術(shù)門檻。
DataLeap 找數(shù)助手
“找數(shù)” 通常是數(shù)據(jù)消費(fèi)全鏈條的第一步,找到正確的數(shù)據(jù)資產(chǎn),才能實(shí)現(xiàn)數(shù)據(jù)的消費(fèi)。但是,在傳統(tǒng)流程中的 “找數(shù)” 并不是一個(gè)簡(jiǎn)單的工作,需要強(qiáng)依賴業(yè)務(wù)專業(yè)知識(shí)的輸入,通常人們只能通過關(guān)鍵詞的檢索,再進(jìn)行人為篩選或者尋求專業(yè)數(shù)據(jù)開發(fā)人員才能確認(rèn)。
使用 DataLeap 找數(shù)助手 “找數(shù)”
“找數(shù)助手” 功能,通過與大語言模型(LLM)結(jié)合,大大降低了 “找數(shù)” 的門檻。利用 “找數(shù)助手”,沒有代碼能力的人員也能夠通過自然語言進(jìn)行 “擬人化” 查詢,比如一位電商運(yùn)營(yíng)可以直接提問:“最近 7 天好物直播間的經(jīng)營(yíng)狀況,要用哪些表?”。DataLeap 找數(shù)助手會(huì)根據(jù)業(yè)務(wù)的知識(shí)庫,推薦與經(jīng)營(yíng)狀況相關(guān)的表,并解釋每張表對(duì)應(yīng)的數(shù)據(jù)維度。
目前,“找數(shù)助手” 能夠?qū)崿F(xiàn)包括 Hive 表、數(shù)據(jù)集、儀表盤、數(shù)據(jù)指標(biāo)、維度等多種數(shù)據(jù)類型及相關(guān)業(yè)務(wù)知識(shí)的問答式檢索,實(shí)現(xiàn)擬人化查詢。
另外,除了 “找數(shù)” 變得更加簡(jiǎn)單,結(jié)合了大模型能力的 “找數(shù)助手” 還能讓 “找數(shù)” 的準(zhǔn)確率進(jìn)一步提高。過去傳統(tǒng)技術(shù)方案下,數(shù)據(jù)資產(chǎn)檢索依賴于數(shù)據(jù)結(jié)構(gòu)化管理,非結(jié)構(gòu)化的業(yè)務(wù)數(shù)據(jù)則可能關(guān)聯(lián)缺失,用關(guān)鍵詞進(jìn)行檢索時(shí),產(chǎn)生的鏈路割裂問題,可能會(huì)大大降低基于業(yè)務(wù)場(chǎng)景的數(shù)據(jù)查找和消費(fèi)效率。此外,檢索提供的是基于關(guān)鍵詞的候選答案集合,需要人為再次篩選確認(rèn),不是直接的答案,導(dǎo)致用戶很難有良好體驗(yàn)。
而現(xiàn)在,在與用戶對(duì)話式的過程中,大語言模型 (LLM) 可以理解用戶真實(shí)意圖,讓搜索過程更聚焦,節(jié)約了人為判斷的成本,“找數(shù)” 本身變得更快,同時(shí),伴隨模型語義理解分析能力的逐步提升,對(duì)話式檢索相比單純地用關(guān)鍵詞檢索的方式,其全鏈路的檢索效率也更高。
DataLeap 開發(fā)助手
在數(shù)據(jù)生產(chǎn)加工環(huán)節(jié),“開發(fā)助手” 能夠支持使用自然語言,自動(dòng)生成 SQL 代碼;針對(duì)已有的代碼可以自動(dòng)實(shí)現(xiàn) Bug 修復(fù),代碼優(yōu)化、解釋與注釋等,此外還可以通過對(duì)話方式實(shí)現(xiàn)文檔搜索、函數(shù)使用、代碼示例等 SQL 使用類的問題咨詢。
自動(dòng)開發(fā) SQL 代碼
開發(fā)助手底層采用大語言模型 (LLM),經(jīng)過海量的代碼和語料訓(xùn)練,可以根據(jù)用戶的自然語言輸入,自動(dòng)關(guān)聯(lián)包括表 Schema 在內(nèi)的元數(shù)據(jù)信息,生成高質(zhì)量的數(shù)據(jù)加工代碼,并具備代碼的理解、改寫以及問答能力。
自動(dòng)修復(fù)已有代碼
開發(fā)助手打破了語言障礙,極大程度降低了數(shù)據(jù)開發(fā)的門檻。“原來(加工)數(shù)據(jù)這件事情你可能要會(huì)一門編程語言,比如 SQL 或者 Python,這是一個(gè)相對(duì)強(qiáng)的技能要求。但是,現(xiàn)在你可以不再需要編程語言,可以使用自然語言。那么,這意味著做這件事的人的要求,也進(jìn)一步降低。”
對(duì)于有數(shù)據(jù)消費(fèi)訴求的分析師和運(yùn)營(yíng)人員,不懂 SQL 也可以做一些基礎(chǔ) ETL。運(yùn)營(yíng)人員可以讓 DataLeap 自動(dòng)生成對(duì)應(yīng)經(jīng)營(yíng)狀況的數(shù)據(jù)需求代碼,比如分城市的訂單銷售,或分時(shí)段的直播間流量等。運(yùn)營(yíng)人員還能追問代碼的含義,比如 “這張表在運(yùn)行期間,有什么優(yōu)化方案嗎?”,也可以對(duì)話:“幫我檢查、修復(fù)這串代碼”。還能夠一鍵解析生成的代碼,調(diào)用 SQL 工具做表的檢查,點(diǎn)擊確認(rèn) AI 自動(dòng)修復(fù),進(jìn)一步優(yōu)化數(shù)據(jù)資產(chǎn)。
更重要的是,對(duì)于專業(yè)研發(fā)人員來說,DataLeap 開發(fā)助手可以幫助他們做一些基礎(chǔ)性的工作,處理來自數(shù)據(jù)分析師、依賴數(shù)據(jù)的業(yè)務(wù)運(yùn)營(yíng)人員的一些繁雜但基礎(chǔ)的需求,工程師只需要在最后校正和核對(duì)所生成代碼的準(zhǔn)確性。于是,研發(fā)人員能夠?qū)⒕Ψ旁诟袆?chuàng)造力的工作上,更聚焦復(fù)雜場(chǎng)景的需求,利用開發(fā)助手優(yōu)化代碼,提高研發(fā)生產(chǎn)效率與代碼質(zhì)量。
DataWind 分析助手
在實(shí)現(xiàn)找數(shù)和取數(shù)之后,來到了數(shù)據(jù)分析環(huán)節(jié)。結(jié)合了大模型能力的 DataWind 分析助手,能夠幫助非分析崗位的人員,通過自然語言對(duì)話,可完成數(shù)據(jù)可視化查詢與分析等一系列業(yè)務(wù)探索,降低此環(huán)節(jié)的門檻。
首先是 “數(shù)據(jù)集” 的創(chuàng)建。有了數(shù)據(jù)資產(chǎn),運(yùn)營(yíng)人員通過 DataWind 拖拉拽方式做數(shù)據(jù)集的創(chuàng)建,然后使用自然語言的方式去定義不同字段的邏輯,比如直接查 “大咖直播時(shí)段” 的數(shù)據(jù)。
字段生成
查好后,運(yùn)營(yíng)人員就能可視化分析探索。過去 BI 工具,普遍采用拖拉拽的操作方式,雖然在儀表盤制作上已經(jīng)降低了門檻,但在分析洞察領(lǐng)域,依舊需要大量專業(yè)知識(shí)的輸入,才能更好地理解數(shù)據(jù),這是一道 “門檻”。
可視化探索
但通過大模型更強(qiáng)泛化推理能力的加持,DataWind 已經(jīng)能夠進(jìn)行基礎(chǔ)的假設(shè)和驗(yàn)證,提出分析思路。DataWind 提供的 AI 自動(dòng)分析功能,能夠支持其根據(jù)圖表進(jìn)一步探索背后的原因。比如說在生成的 “直播間分時(shí)段流量圖”、“直播間銷售額地區(qū) Top” 等可視化圖表中,AI 能自動(dòng)分析,運(yùn)營(yíng)人員只需基于分析結(jié)果,通過對(duì)話形式進(jìn)一步歸因。
同時(shí),DataWind 還聯(lián)通飛書等辦公協(xié)同工具,使用者通過 IM 消息訂閱、自然對(duì)話,進(jìn)行更多延展分析,實(shí)現(xiàn)隨時(shí)隨地的靈活分析,滿足從數(shù)據(jù)集、可視化洞察、消息訂閱等全鏈路上的自助智能,聯(lián)通辦公集成,讓數(shù)據(jù)分析無縫融入日常。
協(xié)同 IM 消息訂閱進(jìn)行延展分析
分析助手將分析洞察的門檻進(jìn)一步降低,從看 “數(shù)據(jù)圖” 到通過自然語言對(duì)話直接了解結(jié)果,數(shù)據(jù)分析思考周期大幅縮短,解決過去分析洞察上需要大量專業(yè)知識(shí)的痛點(diǎn),縮短數(shù)據(jù)分析周期。
現(xiàn)階段 DataWind 分析助手的應(yīng)用場(chǎng)景已經(jīng)十分豐富,除了在核心的分析場(chǎng)景可以實(shí)現(xiàn)對(duì)話式探索之外,分析助手還將能力延展到了表達(dá)式生成等過去需要更多技術(shù)門檻的場(chǎng)景中。
大模型加速數(shù)據(jù)飛輪,幫助企業(yè)更好地實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)
字節(jié)跳動(dòng)擁有深厚的數(shù)據(jù)驅(qū)動(dòng)基因。自成立以來,字節(jié)跳動(dòng)內(nèi)部幾乎所有場(chǎng)景都會(huì)落到 A/B 測(cè)試,通過數(shù)據(jù)反饋驅(qū)動(dòng)業(yè)務(wù)的策略進(jìn)行調(diào)整,比如抖音視頻畫質(zhì)的優(yōu)化效果好不好、推薦算法策略優(yōu)化準(zhǔn)不準(zhǔn)、甚至今日頭條的名字,也經(jīng)過 A/B 測(cè)試。
在字節(jié)內(nèi)部,數(shù)據(jù)消費(fèi)的范圍很廣。組織上,從高層到中層,以及一線員工基本實(shí)現(xiàn)全員看數(shù),通過數(shù)據(jù)來評(píng)估公司的經(jīng)營(yíng)狀況、收支狀況、業(yè)務(wù)進(jìn)展、產(chǎn)品策略。在具體場(chǎng)景上,比如在直播電商中的實(shí)時(shí)營(yíng)銷中,運(yùn)營(yíng)根據(jù)實(shí)時(shí)數(shù)據(jù)進(jìn)行對(duì)應(yīng)的營(yíng)銷策略設(shè)計(jì)和推送 push。
字節(jié)通過數(shù)據(jù)消費(fèi)實(shí)現(xiàn)了決策科學(xué)、行動(dòng)敏捷,帶來業(yè)務(wù)價(jià)值提升;也通過頻繁的數(shù)據(jù)消費(fèi)和業(yè)務(wù)收益,有的放矢低成本建設(shè)高質(zhì)量的數(shù)據(jù)資產(chǎn),更好支撐業(yè)務(wù)應(yīng)用。
今年 4 月,火山引擎基于字節(jié)跳動(dòng)十余年數(shù)據(jù)驅(qū)動(dòng)的實(shí)踐經(jīng)驗(yàn),曾對(duì)外發(fā)布企業(yè)數(shù)智化升級(jí)新范式 “數(shù)據(jù)飛輪”,用 “數(shù)據(jù)飛輪” 來概括企業(yè)數(shù)據(jù)流充分融入業(yè)務(wù)流后,能夠?qū)崿F(xiàn)數(shù)據(jù)資產(chǎn)和業(yè)務(wù)應(yīng)用提升的飛輪效應(yīng)。
在整個(gè)數(shù)字化的大趨勢(shì)下,千行百業(yè)的企業(yè)業(yè)務(wù)都在與數(shù)字化更加緊密,數(shù)據(jù)對(duì)于企業(yè)而言越來越重要。作為新型生產(chǎn)要素,數(shù)據(jù)正支撐企業(yè)的數(shù)智化轉(zhuǎn)型。但是客觀上看,雖然不少企業(yè)數(shù)字化建設(shè)較多,卻無法較好釋放數(shù)據(jù)價(jià)值。
“一家企業(yè)可能花費(fèi)高昂的價(jià)格部署了數(shù)據(jù)產(chǎn)品,但是可能內(nèi)部真正使用的人卻寥寥無幾,數(shù)據(jù)難以流動(dòng)就很難發(fā)揮價(jià)值。” 羅旋在數(shù)據(jù)產(chǎn)品市場(chǎng)觀察到,許多正在進(jìn)行數(shù)字化建設(shè)的企業(yè),存在著數(shù)據(jù)建設(shè)與管理成本高、數(shù)據(jù)產(chǎn)品使用門檻高、數(shù)據(jù)資產(chǎn)價(jià)值低的問題。
而從整個(gè)數(shù)字化進(jìn)程來看,要達(dá)到 “數(shù)據(jù)驅(qū)動(dòng)”,是一件難而正確的事。以字節(jié)為例,羅旋透露稱,目前,字節(jié)跳動(dòng)內(nèi)部 80% 的員工可以直接使用數(shù)據(jù)產(chǎn)品,可管理、運(yùn)營(yíng)的數(shù)據(jù)資產(chǎn)覆蓋 80% 的日常分析場(chǎng)景。從字節(jié)經(jīng)驗(yàn)來看,這意味著,企業(yè)內(nèi)部數(shù)據(jù)產(chǎn)品的使用率以及可管理運(yùn)營(yíng)的數(shù)據(jù)資產(chǎn)在場(chǎng)景中的覆蓋率都需要提升到較高的水平,才能在公司形成良好的 “數(shù)據(jù)飛輪”。
在這個(gè)過程中,大模型加持下的數(shù)據(jù)產(chǎn)品或許是幫助企業(yè)實(shí)現(xiàn)目標(biāo)的重要推動(dòng)力量。經(jīng)過大模型能力升級(jí)后的數(shù)智平臺(tái) VeDI 進(jìn)一步降低了找數(shù)、取數(shù)以及數(shù)據(jù)分析等數(shù)據(jù)生產(chǎn)和消費(fèi)的全環(huán)節(jié)。在同樣的需求水平下,使用升級(jí)后的 VeDI,公司中有能力使用數(shù)據(jù)產(chǎn)品的人從專業(yè)的數(shù)據(jù)分析師擴(kuò)張到了所有有數(shù)據(jù)需求的人,可能是運(yùn)營(yíng)、老板、產(chǎn)品經(jīng)理等等角色,數(shù)據(jù)消費(fèi)變得普惠。
“只有降低門檻,把數(shù)據(jù)用起來了,才知道數(shù)據(jù)在流轉(zhuǎn)中到底會(huì)產(chǎn)生什么樣的價(jià)值”,對(duì)于剛剛邁入數(shù)字化進(jìn)程的公司而言,數(shù)據(jù)的價(jià)值是一座遠(yuǎn)遠(yuǎn)沒有被開掘的寶藏,更低門檻的數(shù)據(jù)產(chǎn)品可能是一把開啟的鑰匙。
在大模型加持下,企業(yè)內(nèi)部的 “數(shù)據(jù)飛輪” 將加速旋轉(zhuǎn)。公司業(yè)務(wù)擁有了更強(qiáng)大的引擎,業(yè)務(wù)人員能夠從 “秒出數(shù)據(jù)” 中快速得到數(shù)據(jù)反饋,從而對(duì)業(yè)務(wù)進(jìn)行更快優(yōu)化,在數(shù)據(jù)加速流轉(zhuǎn)過程中,更多高質(zhì)量數(shù)據(jù)資產(chǎn)的不斷沉淀帶給業(yè)務(wù)更多的洞察,最終讓業(yè)務(wù)決策實(shí)現(xiàn)更科學(xué)、更敏捷。
- 1空調(diào)毯(什么是空調(diào)毯?有哪些使用方法?)
- 2索尼電視客服24小時(shí)電話(如何快速聯(lián)系并解決問題)
- 3方太燃?xì)庠?4小時(shí)客服熱線(如何快速聯(lián)系并解決問題)
- 4富新防盜門開鎖(富新防盜門開鎖服務(wù):保護(hù)您家庭安全的首選)
- 5沈陽吸油煙機(jī)維修(如何找到專業(yè)的維修服務(wù))
- 6電視怎么顯示圖像怎么回事啊(電視顯示圖像原理揭秘)
- 7usb轉(zhuǎn)ttl壞了怎么修(USB轉(zhuǎn)TTL壞修法探究)
- 8匯川變頻器報(bào)警故障代碼大全(如何快速解決報(bào)警問題)
- 9天然氣公司投訴電話95158(如何正確使用并有效投訴)
- 10天津有線電視客服電話96596(如何快速找到并聯(lián)系客服)。
-
臺(tái)風(fēng)“蝴蝶”明日或?qū)⒌顷懀A南大部將有大到暴雨
2025-06-12
-
寧德紅日燃?xì)庠罹S修(如何自行解決常見問題)
2025-06-07
-
ws08m360ti故障(WS08M360Ti故障分析及解決辦法)
2025-06-07
-
萬和燃?xì)庠钕ɑ鹁S修(如何自行處理常見故障)
2025-06-07


