chatGPT訓練數據獲取 證監會科技監管局局長姚前:重點發展基于AIGC技術合成數據產業 構建大模型訓練數
本報記者 吳曉璐
一經問世便在人工智能應用領域掀起了一陣新的浪潮并引起了全球轟動,僅僅兩個月內其注冊用戶就突破1億。
“的主要魅力在于chatGPT訓練數據獲取,它利用從互聯網獲取的海量訓練數據開展深度學習和強化學習chatGPT訓練數據獲取,可以給用戶帶來全新的‘人機對話’體驗。海量訓練數據可謂是維系進化的核心要素之一。”中國證監會科技監管局局長姚前在《中國金融》雜志撰文表示。
姚前表示,有研究預測,按照目前的發展速度,到2026年類大模型的訓練將耗盡互聯網上的可用文本數據,屆時將沒有新的訓練數據可供使用。因此,算力瓶頸之外,訓練數據將成為大模型產業化的最大掣肘之一。從更深層次考慮,大模型在訓練數據方面還存在各種治理問題,比如數據采集標注費時費力成本高、數據質量較難保障、數據多樣化不足難以覆蓋長尾和邊緣案例、特定數據在獲取與使用分享等方面存在隱私保護、數據偏見等問題。由此可見,人工智能產業的高質量發展離不開高質量的訓練數據,訓練數據的安全合規使用是大模型人工智能長期健康發展的基礎。
姚前認為,數字經濟高質量發展的關鍵是數據,抓住高質量數據這一“牛鼻子”,就能有效應對以數據為核心的科技創新和產業變革。當前AIGC(AI ,人工智能自動生成內容)和充分展現了高質量訓練數據在產業價值創造中疊加倍增作用,大模型訓練數據及其輸出結果將會是未來社會和生產中的一種重要的數據資產,其有序流轉并合規使用也是發展數字經濟的應有之義。通過合理的機制理順市場中各參與方的數據權益關系和分配格局chatGPT訓練數據獲取,并加強訓練數據的依法合規監管,是促進大模型人工智能產業健康發展的關鍵。
為此,姚前提出三點建議:
一是重點發展基于AIGC技術的合成數據產業。以更高效率、更低成本、更高質量為數據要素市場“增量擴容”,助力打造面向人工智能未來發展的數據優勢。在強化數據要素優質供給方面,應統籌兼顧自立自強和對外開放。可考慮對、等特定數據源建立過濾后的境內鏡像站點,供國內數據處理者使用。
二是構建大模型訓練數據的監管體系。國家相關部門應對大模型訓練數據的處理和使用標準進行統一規范;建立數據托管機制,對數據托管方進行約束,要求數據托管方按照監管機構的規定對數據來源、處理結果以及使用去向等進行監測,從而使得模型的輸入、輸出結果符合監管要求。
三是探索基于可信機構或基于可信技術的數據托管方式。數據托管機構可以由相關機構組建數據托管行業聯盟,以共建共享的方式建設;亦可利用區塊鏈技術,基于聯盟鏈或有管理的公鏈,完善源端數據治理機制,實現數據的鏈上托管、確權、交易、流轉與權益分配。
(編輯 張偉)
免責聲明:本文系轉載,版權歸原作者所有;旨在傳遞信息,不代表本站的觀點和立場和對其真實性負責。如需轉載,請聯系原作者。如果來源標注有誤或侵犯了您的合法權益或者其他問題不想在本站發布,來信即刪。
聲明:本站所有文章資源內容,如無特殊說明或標注,均為采集網絡資源。如若本站內容侵犯了原著者的合法權益,可聯系本站刪除。