3月1日,全國網絡安全標準化技術委員會(TC260)發布了《生成式人工智能服務安全基本要求》(TC260-003),旨在確立生成式人工智能服務的安全標準。這些要求涵蓋語料安全、模型安全、安全措施,并詳細說明了安全評估的流程。文件的目標是指導服務提供者進行安全評估,提升安全管理水平,并為主管部門提供評估服務安全水平的參考。要點概覽如下:
一、語料安全要求:服務提供者在采集和使用語料時,必須確保來源的安全性和合法性,并在采集前后進行安全評估,限制違法信息的比例不超過5%。語料來源應多樣化且可追溯,包括開源語料、自采語料、商業語料及用戶輸入信息的合法授權。服務提供者還需通過技術手段和人工抽檢確保語料內容的合規性,妥善管理知識產權,并在處理個人信息時遵守法律規定。此外,標注人員應接受安全培訓,以確保標注內容的準確性和安全性。
二、模型安全要求:服務提供者使用第三方基礎模型時,必須確保模型已獲得主管部門備案。在模型訓練過程中,內容安全性應作為主要評價指標,同時建立監測機制,及時處理安全問題,并通過技術手段優化模型。此外,應提高模型對用戶輸入意圖的響應能力,確保內容的科學性和準確性,以及內容格式的合理性和有效性。
三、安全措施要求:服務提供者應確保其服務在適用性、安全性、透明度等方面符合規定要求。這包括確保服務適用于正確的人群和場合,提供必要的保護措施,公開服務信息,提供關閉個人信息用于訓練的選項,滿足國家規定和標準要求,評估供應鏈安全,提供多種投訴舉報途徑,防止違法信息的生成,設置監看人員,制定模型更新升級的安全管理策略,隔離訓練和推理環境,防范惡意攻擊,定期進行安全審計,以及建立備份和恢復策略。
四、其他要求:為確保網絡安全和內容合規性,應建立全面且代表性的關鍵詞庫和測試題庫,并定期更新。關鍵詞庫應覆蓋各種安全風險,而測試題庫應用于內容過濾和安全評估。
五、安全評估要求:評估可以自行進行或委托給第三方,應包含所有相關條款的評估結果。評估報告需包含證明材料,并由三名負責人簽字。語料和生成內容的安全評估應通過抽檢確保合格率達標,而問題拒答評估則確保模型正確拒答不當內容。
總結:文件的發布為生成式人工智能服務提供了一套全面的安全指南,涉及語料收集、模型使用、安全措施和評估流程,以確保服務的安全性和合規性,促進服務提供者提升安全水平,保護用戶權益,并支持可持續發展。