4月17日,在“天工”大模型一周年之際,昆侖萬維重磅宣布,“天工3.0”基座大模型與“天工SkyMusic”音樂大模型正式開啟公測!一年前的今天,第一版天工大模型正式對外發(fā)布上線,一年來昆侖萬維不斷迭代模型,迭代應(yīng)用產(chǎn)品,模型和應(yīng)用都越做越好,以此回報(bào)廣大用戶的支持。
“天工3.0”擁有4000億參數(shù),超越了3140億參數(shù)的Grok-1!疤旃3.0”在語義理解、邏輯推理、通用性、泛化性、不確定性知識(shí)、學(xué)習(xí)能力等領(lǐng)域擁有突破性的性能提升,數(shù)學(xué)/推理/代碼/文創(chuàng)能力提升超過30%。
天工3.0模型參數(shù)超越Grok-1強(qiáng)大的模型技術(shù)實(shí)力賦予“天工3.0”超強(qiáng)的性能表現(xiàn)。在MMBench等多項(xiàng)權(quán)威多模態(tài)測評(píng)結(jié)果中,“天工3.0”超越GPT-4V。
天工3.0多模態(tài)性能超越GPT-4V同時(shí),“天工3.0”旗下的“天工SkyMusic”音樂大模型也在今日面向全社會(huì)開放公測。
天工SkyMusic綜合性能超越Suno V3,取得音樂大模型SOTA。天工SkyMusic:成為全球AI音樂SOTA模型
此前,大模型已經(jīng)在文本、圖像等多個(gè)技術(shù)領(lǐng)域取得突破,帶來產(chǎn)業(yè)全面變革。然而,在AI音樂生成領(lǐng)域,全球遲遲等不到一款產(chǎn)品,開啟“音樂ChatGPT時(shí)刻”。
這是因?yàn)橐恢币詠恚珹I音樂行業(yè)大量研究都集中在符號(hào)音樂生成技術(shù)路線上,并且大多只能實(shí)現(xiàn)無人聲背景音樂(Background Music,BGM)的生成,音樂的質(zhì)量、效果、審美都遠(yuǎn)遠(yuǎn)達(dá)不到可用水平,產(chǎn)業(yè)遲遲未能爆發(fā)。
“天工SkyMusic”自研AI音樂大模型技術(shù)架構(gòu)與行業(yè)主流路徑不同,“天工SkyMusic”采用自研大模型音樂音頻生成技術(shù)路線。這一路線直接通過大模型技術(shù)實(shí)現(xiàn)樂器、人聲、旋律、音量、音符的一體化端到端音樂生成,技術(shù)難度極大,全球只有包括昆侖萬維在內(nèi)的極少數(shù)頂尖玩家參與。
在與海外頂尖的AI音樂大模型Suno V3的橫向測評(píng)中,“天工SkyMusic”在人聲&BGM音質(zhì)、人聲自然度、發(fā)音可懂度等領(lǐng)域顯著領(lǐng)先對手,并以6.65分的綜合得分超越Suno V3,成為全球AI音樂SOTA模型。
此外,“天工SkyMusic”還擁有獨(dú)創(chuàng)的參考音樂生成與方言歌曲生成能力。
參考音樂生成:用戶可上傳自有參考音樂,或選擇“天工SkyMusic”資料庫中現(xiàn)有的參考音樂,從而生成風(fēng)格、唱腔類似的歌曲,進(jìn)一步降低音樂大模型的使用門檻,讓不熟悉樂理知識(shí)的用戶也能輕松玩轉(zhuǎn)。
方言歌曲生成:“天工SkyMusic”生成的音樂不僅在人聲自然度、發(fā)聲可懂度等領(lǐng)域表現(xiàn)優(yōu)秀,更能夠支持粵語、成都話、北京話等眾多方言,讓用戶能夠更自由地實(shí)現(xiàn)音樂表達(dá),傳播方言文化。
同時(shí),“天工SkyMusic”是首個(gè)公開可用的AI音樂生成模型。
當(dāng)前,在文本大模型領(lǐng)域,OpenAI吸引了全球的注意力;但是在AI搜索、AI音樂生成等細(xì)分領(lǐng)域,中國玩家們正在奮勇前行,不斷通過自研技術(shù)取得細(xì)分領(lǐng)域頂尖的SOTA表現(xiàn),共同建設(shè)中國大模型產(chǎn)業(yè),打造自主可控的大模型產(chǎn)業(yè)生態(tài)。
天工3.0:采用4000億級(jí)參數(shù)MoE混合專家模型架構(gòu)
在上一代“天工2.0”MoE大模型的領(lǐng)先基礎(chǔ)上,“天工3.0”實(shí)現(xiàn)了全面的性能升級(jí),采用了4000億級(jí)參數(shù)MoE混合專家模型架構(gòu)。
“天工3.0”的邏輯推理能力、語義理解能力、應(yīng)對復(fù)雜需求能力、內(nèi)容創(chuàng)作能力全面升級(jí),并新增了多輪搜索與綜合工具調(diào)用、圖表繪制、研究模式、增強(qiáng)模式、改圖擴(kuò)圖等多項(xiàng)AI能力,為用戶帶來全新AI體驗(yàn)。
多輪搜索與綜合工具調(diào)用:“天工3.0”針對模型獨(dú)立規(guī)劃、調(diào)用、組合外部工具及整合信息的能力進(jìn)行了專項(xiàng)訓(xùn)練,使其能夠獨(dú)立生成并調(diào)用代碼,完成包括產(chǎn)業(yè)研究、產(chǎn)品橫評(píng)、信息分析、圖片生成、圖表繪制等多種復(fù)雜用戶需求。
同時(shí),“天工3.0”能夠通過強(qiáng)大的語義理解能力將用戶任務(wù)拆解成細(xì)分環(huán)節(jié),實(shí)時(shí)判斷是否需要聯(lián)網(wǎng)或調(diào)用工具,進(jìn)行單輪或多輪的聯(lián)網(wǎng)搜索、工具調(diào)用,完成包括多輪搜索、熱點(diǎn)信息分析、圖片生成等復(fù)雜用戶需求。
Query:查詢最新中國歷史電影票房排行,圖表展示。圖表繪制:“天工3.0”全面提高了邏輯推理能力與用戶自然語言Query的理解能力,使其能夠更精準(zhǔn)地判斷用戶需求,獨(dú)立生成并調(diào)用代碼,結(jié)合文本需求實(shí)時(shí)進(jìn)行內(nèi)容分析及圖表構(gòu)建,為用戶帶來更直觀、高效的對比結(jié)果。
Query:北京、上海、重慶哪個(gè)好玩?多輪搜索、綜合工具調(diào)用、圖表繪制等都是“天工3.0”所獨(dú)有的大模型綜合能力,其從底層打通了“天工3.0”的AI搜索、AI對話、AI代碼生成、AI圖片識(shí)別、AI圖像生成等底層能力,通過語義識(shí)別能力直接觸發(fā),為用戶帶來更加便捷、高效的AI體驗(yàn),成為真正的AI生產(chǎn)力工具。
此外,“天工3.0”中還增加了研究模式、增強(qiáng)模式、改圖擴(kuò)圖等多項(xiàng)AI能力。
研究模式:在研究模式中,“天工3.0”能夠圍繞用戶的某個(gè)簡單指令進(jìn)行相關(guān)問題的延伸,自動(dòng)生成研究大綱、圖譜、實(shí)踐總結(jié)、思維導(dǎo)圖,幫助用戶快速清晰地把握核心內(nèi)容,完成用戶復(fù)雜的研究需求。
增強(qiáng)模式:在增強(qiáng)模式中,“天工3.0”能夠針對用戶的復(fù)雜Query進(jìn)行拆解、細(xì)化、并進(jìn)行追問、信息理解與補(bǔ)全,使其在自然語義理解方面性能更強(qiáng),面對不確定性知識(shí)時(shí)表現(xiàn)更好,能夠更精準(zhǔn)、高效地滿足用戶需求。
Query:2024年春節(jié)檔電影;“天工3.0”理解并追問用戶需求。改圖擴(kuò)圖:“天工3.0”多模態(tài)性能取得全面突破,超越GPT-4V。在強(qiáng)大的技術(shù)底座支持下,“天工3.0”的AI繪圖能力新增了圖片尺寸擴(kuò)展、圖片定向調(diào)整、墊圖生圖、墊圖進(jìn)化、墊圖擴(kuò)圖等全新功能。
“天工3.0”的AI改圖、修圖、擴(kuò)圖等功能