“每購買一個面包就會有一只柯基失去它的屁股?!?
在這個段子背后,是面包與柯基屁股的相似性引發的視覺混淆。
相似的事物尚且容易引發人眼的視覺混淆,具有相似特征的數據則會引發人工智能的誤解,使AI程序抓取的數據出現偏差,從而使AI程序作出錯誤的判斷。
利用機器學習的這一特征,攻擊者直接將偽裝的數據和信息“注入”人工智能程序,從而污染機器學習模型,誤導AI做出錯誤判斷,這一威脅網絡安全的行為就被稱為“數據投毒”。
一直以來,人工智能都依賴大量的數據進行模型訓練,但這帶來了過度收集個人數據、臟數據清洗難度大、數據匱乏領域依然存在“數據孤島”等問題。近日,美國網絡安全和新興技術局(以下簡稱“CSET”)發布研究報告《小數據人工智能的巨大潛力》,指出長期被忽略的小數據人工智能潛力不可估量。
在當下人工智能產業迅速發展的情況下,大數據行業正在發生哪些變化?人工智能行業的數據合規又將走向何方?
從大數據回歸小數據
自2006年,“AI教父”杰弗里?辛頓以及他的學生魯斯蘭?薩拉赫丁諾夫提出深度學習理念后,基于深度學習技術的人工智能浪潮席卷全球。機器通過學習樣本數據的內在規律與層次,從而獲得預測能力。
隨著深度學習算法從學術界走向工業應用,大數據資源的使用也越來越普遍。無論是早期如語音識別、人臉識別等應用數據生產,還是互聯網電商體系下的行為數據生產,都是基于大規模數據分析結果,以此推動了整個數據產業的發展。
在人工智能領域,小數據方法并不是新鮮詞。與依托于海量數據總結規律的學習方法不同,小數據方法是基于人類的先驗知識,在僅有少量數據的情況下利用小樣本數據集進行訓練的人工智能方法,大致分為遷移學習、主動學習、強化學習、貝葉斯方法、數據生成等。
一方面,在數據量較少或沒有標記數據可用的情況下,不得不基于小樣本數據加以人工的先驗知識或者預訓練模型來訓練新模型。
對于學術界而言,早期的模型訓練運用數據量都不多,基于人類先驗知識的遷移學習和強化學習就是小數據方法的初始應用。同盾科技合伙人兼人工智能研究院院長李曉林給記者舉了一個例子:“我曾經參加過一個實驗,對美國周邊某種瀕危海象的圖片特征進行深度學習,以此來為動物保護協會識別、去重、入庫和統計這種海象的數量。全球這種海象的數量一共2000多頭,個體表面差別很小,在這種情況下只能采用小數據方法訓練模型?!?
另一方面,隨著深度學習算法的發展,數據價值不斷被挖掘,同時,像開頭所述的“數據投毒”等網絡攻擊使得數據治理的工作量加大,對機器處理復雜數據的能力也提出了更高的要求。
“隨著人工智能從感知走向認知,逐漸進入到商業本質,信息處理的維度使得人工智能進入到深水區?!碧煸茢祿﨏EO雷濤告訴記者,“我們開始接觸到信息化系統因為流程處理所沉淀的小數據,這些交易、流程中的數據價值密度更高,比圖像視覺等傳統信號體系復雜得多,因此需要認知層的人工智能基礎設施來挖掘其中的含義?!?
雷濤認為,在真正擁有推理和解決問題的強人工智能到來之前,在問題泛化表達能力出現之前,小數據可以用于進行數據本身的優化。在機器模型建立的環節,需要大量的人借助先驗知識的小數據和材料數據做交互,比如數據衍生、數據升維、數據降維,都是一些基于答案的數據或是基于業務的顯性特征,利用算力和數據之間做交互,來完成模型更有效的學習。
基于小樣本數據的分析偏差也是顯而易見的,李曉林告訴記者,避免小數據方法出現失誤,勢必需要豐富的人類先驗知識作為支撐,進行遷移學習。
“當下對小數據方法的重視并不意味著就摒棄了基于大數據的模型訓練?!倍匆娍萍糃EO姚明表示,目前小數據模型主要用于和大數據模型的交叉核驗,在二者相結合的情況下完善模型。
數據合規背景下的可信AI探索
隨著數據要素流通市場建設,在激活數據價值的同時,如何保護數據安全成為大眾關注的焦點。
11月1日,《個人信息保護法》(下稱“個保法”)正式生效,對個人信息處理者收集、加工、使用、傳輸個人信息都提出了進一步要求。
個保法要求,任何組織、個人不得非法收集、使用、加工、傳輸他人個人信息,不得非法買賣、提供或者公開他人個人信息;個人信息處理者利用個人信息進行自動化決策,不得對個人在交易價格等交易條件上實行不合理的差別待遇;在公共場所安裝圖像采集、個人身份識別設備,應當設置顯著提示標識。
個人數據收集的受限使得小數據方法發揮出特有的優勢。
CSET報告指出,小數據方法能夠減少收集個人數據的行為,通過人工生成新數據或使用模擬訓練算法,第一不依賴于個體生成的數據,第二,經由模擬訓練合成的數據也可以實現個人信息的脫敏。
對于數據匱乏的領域或因共享意愿不足導致的“數據孤島”而言,可以通過小數據方法來處理數據缺失,用少量的數據點創建更多數據點,憑借關聯領域的先驗知識遷移學習,或者通過構建模擬或編碼結構的假設,來開拓新領域的探索與預測。
“首先我們不能回避的是,人工智能的優勢就是面向個體的計算?!崩诐J為,人工智能運用于個體數據的計算無可避免,問題在于合規、適度的使用。
由此,全球產學研界展開了對可信人工智能的研究與探討。
據中國信通院統計,2020年可信人工智能研究論文的數量相比2017年增加近5倍,各國人工智能產業巨頭也通過研發可信工具、制定可信的人工智能原則探索可信AI實踐。
在2021年世界人工智能大會上,螞蟻集團首席AI科學家漆遠總結了可信人工智能領域的四個關鍵詞:魯棒性、隱私保護、可解釋性、公平性。
其中,可解釋性就包括模型可解釋、樣本可解釋、結果可解釋,將深度學習和人類知識結合起來,引進專家機制彌補傳統純深度學習的風險。漆遠指出,“因果分析可以使機器學習更穩定,小數據下不用見多識廣,因為基于人類經驗的因果關系非常穩定?!?
在產業界探索可信AI的過程中,使數據“可用不可見”、“可用并可控”、“可控可計量”的隱私計算技術迎來風口。
“在獲得個人信息使用的授權后,數據在加工過程中存在被復制、泄露,甚至被轉售的風險,隱私計算從技術上保護了數據的安全。金融行業作為數據聚集地,是隱私計算技術最早的應用領域,目前政務、醫療、工業互聯網等領域在數據協同過程中,都已經開始使用隱私計算技術?!币γ鞲嬖V記者。
雷濤指出,隱私計算的核心是解決數據的確權問題,將數據的所有權和使用權做到剝離,使得我們不用去搬移數據、訪問數據的前提下也可以獲取到數據價值的轉移。
在數據要素流轉的過程中,據李曉林介紹,隱私計算也被運用于政務數據開放與數據交易的場景之下?!霸诟鞯氐恼諗祿魍ㄟ^程中,不愿、不敢、不能共享的問題造成了數據孤島的出現,打造基于隱私計算的共享智能平臺可以幫助打通數據壁壘,實現數據的深度挖掘與價值釋放?!?
但中國工商銀行發布的金融業首份隱私計算白皮書指出,現階段我國并未出臺匿名化技術標準或相關指引性文件,金融業可探討專門出臺隱私計算技術使用指引,以指導各方合規應用相關技術。
人工智能立法正在進行時
目前海內外對于人工智能的立法工作正在進行中。
就在12月5日,聯合國成員國大會剛剛通過首個關于人工智能倫理的全球標準《人工智能倫理問題建議書》(下稱“《建議書》”),旨在實現人工智能給社會帶來的積極效果,同時也預防潛在風險。
具體來說,《建議書》呼吁個體應該有權訪問甚至刪除其個人數據記錄。它還包括改善數據保護和個體對自身數據的了解和控制權的行動,并將提高世界各地的監管機構的執行能力?!督ㄗh書》明確禁止使用人工智能系統進行社會評分和大規模
監控,并鼓勵聯合國各會員國考慮增設獨立的人工智能倫理官員或其他相關機制,以監督審計和持續監測。
今年6月,歐盟數據保護委員會和歐盟數據保護監督局針對歐盟今年4月發布的人工智能法規草案發表聯合意見,進一步呼吁在公共場所禁止使用人工智能自動識別個人特征,包括人臉識別、步態、指紋、DNA、聲音等生物或行為信號。
我國“個保法”第二十六條要求在公共場所安裝圖像采集、個人身份識別設備,應當為維護公共安全所必需,遵守國家有關規定,并設置顯著的提示標識。所收集的個人圖像、身份識別信息只能用于維護公共安全的目的,不得用于其他目的;取得個人單獨同意的除外。
在上海人大剛剛通過的上海市數據條例中,更進一步地細化了人工智能技術的使用。
上海將限制個人信息采集的區域拓展至居住小區、商務樓宇等非公共場所,并要求不得以圖像采集、個人身份識別技術作為出入上述場所或區域的唯一驗證方式。另外,通過自動化決策方式向個人進行信息推送、商業營銷的,應當同時提供不針對其個人特征的選項,或向個人提供便捷的拒絕方式。通過自動化決策方式作出對個人權益有重大影響的決定,個人有權要求處理者予以說明,并有權拒絕處理者僅通過自動化決策的方式作出決定。
記者多方了解到,目前我國多地對于人工智能的地方立法正在探索中,目前天津、南京、杭州、深圳等地已相繼出臺管理條例規范人臉識別,未來人工智能相關管理條例將主要聚焦人工智能體規范和算法規范兩大方面。