川觀智庫(kù)研究員 徐也晴
隨著人工智能的快速發(fā)展,全球合成數(shù)據(jù)市場(chǎng)呈現(xiàn)爆發(fā)式增長(zhǎng)態(tài)勢(shì)。近日,國(guó)際咨詢(xún)機(jī)構(gòu)弗若斯特沙利文發(fā)布《2025年中國(guó)合成數(shù)據(jù)解決方案發(fā)展洞察》報(bào)告,預(yù)測(cè)2030年全球市場(chǎng)規(guī)模將突破200億元人民幣,且中國(guó)市場(chǎng)增速最快。
合成數(shù)據(jù)并非憑空捏造信息,而是通過(guò)算法、仿真或其他方法人工生成的數(shù)據(jù)。報(bào)告提到,與依賴(lài)真實(shí)數(shù)據(jù)采集的傳統(tǒng)方式相比,合成數(shù)據(jù)具有可擴(kuò)展性、可控性等特點(diǎn),且成本低、安全性高。
面對(duì)真實(shí)數(shù)據(jù)采集成本高、隱私風(fēng)險(xiǎn)大、極端場(chǎng)景稀缺等瓶頸,合成數(shù)據(jù)不僅能提供規(guī)?;臄?shù)據(jù)生產(chǎn),也能通過(guò)真實(shí)性校驗(yàn)與經(jīng)驗(yàn)流閉環(huán),確保與真實(shí)世界保持一致,從而能夠批量覆蓋長(zhǎng)尾與極端環(huán)境,同時(shí)兼顧高效迭代,助力垂直行業(yè)領(lǐng)域突破數(shù)據(jù)瓶頸,加快智能化發(fā)展。僅從成本上來(lái)看,通過(guò)數(shù)據(jù)標(biāo)注服務(wù)獲得一張帶注釋的真實(shí)圖像可能要花費(fèi)6美元,而通過(guò)合成方式生成一張同等價(jià)值的帶注釋圖像僅需約0.06美元,意味著成本降低約100倍。
當(dāng)前,工業(yè)級(jí)AI訓(xùn)練嚴(yán)重依賴(lài)標(biāo)注成本高昂的真實(shí)數(shù)據(jù),且難以覆蓋關(guān)鍵邊緣案例。因此報(bào)告認(rèn)為,未來(lái)的數(shù)據(jù)范式正朝著“1%人類(lèi)數(shù)據(jù)+99%高效合成”的混合模式演進(jìn)。北京銀河通用機(jī)器人有限公司創(chuàng)始人兼首席技術(shù)官王鶴此前也提到,具身智能所依靠的數(shù)據(jù),99%可借助高質(zhì)量的合成數(shù)據(jù)完成,只有在合成數(shù)據(jù)無(wú)法處理的情況下,才需要有針對(duì)性地采集使用1%的真實(shí)數(shù)據(jù)。
王鶴表示,目前,頭部人形機(jī)器人廠商量產(chǎn)的機(jī)器人僅為千臺(tái)級(jí)別,難以達(dá)到萬(wàn)臺(tái)規(guī)模。在現(xiàn)實(shí)中,讓所有機(jī)器人都投入不同場(chǎng)景自主工作,以供真人采集上億條數(shù)據(jù),并不具有現(xiàn)實(shí)可行性。報(bào)告也提到,相比視覺(jué)或語(yǔ)言AI,具身智能需要處理更復(fù)雜的物理與動(dòng)作信息。且不同構(gòu)型的機(jī)器人(單臂、雙臂、人形)在參數(shù)和動(dòng)作方式上差異明顯,使得通用數(shù)據(jù)集難以直接復(fù)用。
因此,借助合成數(shù)據(jù)擴(kuò)展規(guī)模、提升質(zhì)量、豐富多樣性,是具身智能發(fā)展的必經(jīng)之路。其關(guān)鍵在于提升數(shù)據(jù)的真實(shí)性、新鮮度、規(guī)模、多樣性與覆蓋度,以確保模型既能在真實(shí)物理規(guī)律下穩(wěn)健表現(xiàn),又能在復(fù)雜多變的長(zhǎng)尾場(chǎng)景中保持泛化能力。
值得注意的是,如果缺乏與真實(shí)場(chǎng)景的對(duì)照與校正,合成的數(shù)據(jù)和真實(shí)需求容易發(fā)生脫節(jié)。中國(guó)信息通信研究院在《人工智能高質(zhì)量數(shù)據(jù)集建設(shè)指南》中提到,合成數(shù)據(jù)技術(shù)可能合成存在帶有歧視和偏見(jiàn)的數(shù)據(jù)、合成邏輯不合理的數(shù)據(jù)、對(duì)于長(zhǎng)尾事件合成與真實(shí)分布相差較大的數(shù)據(jù)等。因此,合成數(shù)據(jù)需要與真實(shí)采集數(shù)據(jù)相結(jié)合,并通過(guò)人類(lèi)專(zhuān)家、真實(shí)反饋和持續(xù)驗(yàn)證,不斷校正和更新仿真環(huán)境及合成樣本。
【未經(jīng)授權(quán),嚴(yán)禁轉(zhuǎn)載!聯(lián)系電話028-86968276】
