近日,天池FT-Data Ranker競賽落下帷幕,天翼云智能邊緣事業(yè)部AI團隊(后稱天翼云AI團隊)憑借在大語言模型(LLM)訓練數(shù)據(jù)增強方面的卓越研究,榮獲大語言模型微調數(shù)據(jù)競賽——7B模型賽道冠軍。
FT-Data Ranker競賽是一場面向大語言模型研究、以數(shù)據(jù)為中心的競賽,吸引了包括來自北京大學、Hantec等知名高校、研究機構、企業(yè)的近400支優(yōu)秀隊伍參賽。天翼云在激烈的角逐中脫穎而出,展現(xiàn)出強大的技術創(chuàng)新能力。
數(shù)據(jù)在大語言模型(LLM)的能力打造中發(fā)揮著至關重要的作用,更好地構建和處理數(shù)據(jù)集成為大語言模型領域研究的重點。本次競賽的核心在于獨立、精確地評估和提升數(shù)據(jù)集質量,加速形成基準驅動的數(shù)據(jù)開發(fā)流程,增強大語言模型數(shù)據(jù)處理能力,提高該領域對數(shù)據(jù)質量和數(shù)據(jù)優(yōu)化的理解能力。本次競賽特別關注微調(Fine-tuning)階段的數(shù)據(jù),要求參賽者對原始數(shù)據(jù)集進行清洗、過濾和增強,利用新數(shù)據(jù)集對特定模型進行微調,并在測試集上進行性能排名。
面向競賽通用選擇任務,天翼云AI團隊自主構建了數(shù)據(jù)處理流程,使用多個文檔去重、字符串過濾算子對低質的大規(guī)模原始語料進行處理,從而獲得高質量的模型訓練數(shù)據(jù);同時,面向文本摘要任務,天翼云AI團隊創(chuàng)新地采用范式遷移(Paradigm Transfer)和模型能力蒸餾(Distillation)的方法,在設定模型隨機性為0的前提下,利用生成式模型將原始語料中的問答進行數(shù)據(jù)處理和遷移,作為摘要數(shù)據(jù),間接擴充訓練數(shù)據(jù)?;谝陨戏椒ê筒呗?#xff0c;團隊在原始語料基礎上構建了一個內容豐富、多樣化的任務訓練集,幫助模型更好地學習和理解競賽任務。該方案的創(chuàng)新性和實用性得到了評委的高度認可。
本次競賽團隊采用的大語言模型訓練數(shù)據(jù)增強技術,已在天翼云團隊模型研發(fā)和生產(chǎn)業(yè)務中廣泛應用。例如,在天翼云政務大模型“慧澤”的研發(fā)中,通過廣泛采用訓練數(shù)據(jù)增強策略和算法來提升模型的各項能力,使得“慧澤“具備了政務知識全面、意圖理解能力強、應用廣泛以及安全可靠等優(yōu)勢,可高效賦能政策咨詢、政務導辦、12345坐席輔助、智能辦公等場景,助力提升城市治理水平。
未來,天翼云將繼續(xù)推進人工智能相關技術創(chuàng)新以及實踐應用,以更加全面、智能的產(chǎn)品與服務,賦能千行百業(yè)數(shù)字化轉型。