當前,我國數字經濟進入快速發展新階段,數據作為新型生產要素,已成為推動經濟社會高質量發展的核心驅動力。截至9月底,我國已建成高質量數據集總量超500PB(拍字節,計算機存儲容量單位);7個數據標注基地引進和培育標注企業362家,標注從業人員達8.5萬人,帶動數據標注相關產值163億元。
高質量數據集,簡單來說,就是高價值、高密度、標準化的數據。高質量數據集是數智創新的關鍵資源。500PB的數據規模,相當于數百萬個大型圖書館的藏書信息。然而,其戰略價值遠不止于“海量”,關鍵在于“高質量”。高質量數據集建設的重要性日益凸顯,大力推進數據集高質量建設,才能更好賦能行業高質量發展。
用高質量數據集訓練出更先進的人工智能大模型。數據是大模型能力進步的重要要素。數據之于大模型,猶如石油之于汽車。原油需經復雜過程煉化成汽油才能供汽車使用,同理,海量原始數據也需經過“煉化”形成高質量數據集,才能助力大模型的精準躍升。高質量數據集是決定大模型質量的關鍵因素。當前大模型技術發展迅猛,在算法趨同、算力普惠的競爭環境中,用好高質量數據集,才能提升大模型的聰明程度、智商水平和差異化優勢。
用高質量數據集加速推進產業智能化。數據作為新型生產要素,是數字化、網絡化、智能化的基礎。當前,高質量數據集已成為推動“人工智能+”行動的有力支撐。在“人工智能+醫療”領域,高質量的醫學影像與病例數據,正訓練出能輔助早期診斷的人工智能醫生;在“人工智能+智能制造”領域,高質量的設備運行與工藝參數數據集,帶來生產效率與產品質量的雙重飛躍;在“人工智能+農業”領域,有的種植企業通過數據賦能施肥環節,綜合提升產量5.5%,有的養殖企業實現海洋牧場海洋生物資源總量增加5.3倍。從農業到工業,高質量數據集正加快釋放出千姿百態的乘數效應,產業數智化轉型讓各行各業迎來了“點數成金”的機會。
用高質量數據集促進科研范式變革。科學數據是國家科技創新發展的重要基礎性戰略資源,是信息時代傳播速度最快、影響面最寬、開發利用潛力最大的科技資源。當代科學技術發展呈現出明顯的大科學、定量化研究特點,科技創新越來越依賴大量、系統、高可信度的科學數據。2004年起,我國先后在基礎科學、農業、林業、海洋、氣象、地震、地球系統科學、人口與健康8個領域支持建成了國家科技資源共享服務平臺,初步形成了一批資源優勢明顯的科學數據中心。海量科學數據對生命科學、天文學、空間科學、地球科學、物理學等多個學科領域的科研活動都能帶來深刻影響,要瞄準科學研究、科學創新,充分發揮高質量科學數據集的重要作用,促進科學研究方法發生重要變革,幫助科學家發現新規律、推動原始創新。
當前,新一輪科技革命和產業變革深入發展,凝心聚力推進數據集高質量建設,激發數據要素創新潛能,努力搶占數字經濟未來發展制高點,將為新質生產力培育、推動我國經濟高質量發展帶來更多驚喜。(向秋)
- 2017-01-20隴周刊(2017年 第3期)
- 2017-01-26隴周刊(2017年 第4期)
- 2017-02-10 隴周刊(2017年 第5期)
- 2017-02-17 隴周刊(2017年 第6期)
西北角
中國甘肅網微信
微博甘肅
學習強國
今日頭條號










