生成式人工智能技術應用法律風險及合規要點看,是本文主要內容。通過下文您將對人工智能技術合規應用有更深的了解,其中2022年推出的互聯網信息服務算法備案是企業要及時參與。
2022年底以來,隨著ChatGPT-3.5、Stable Diffusion、Midjourney等強人工智能的破圈,圍繞著各類人工智能應用項目迅速發展。但同時,人工智能應用項目也帶來了傳播虛假信息、隱私泄露、知識產權侵權等潛在風險問題,對此全球多國也紛紛出手,出臺了各自的監管政策,以期規范人工智能健康發展。
2023年3月30日,意大利個人數據保護局(DPA)以違反GDPR為由,宣布暫時禁止使用ChatGPT。
2023年5月11日,歐洲議會內部市場委員會和公民自由委員會以84票贊成,7票反對和12票棄權通過《歐盟人工智能法案》(EU Artificial Intelligence Act,“歐盟AI法案”)提案的談判授權草案[1]。歐洲議會發布的聲明稱,一旦獲得批準,該法案將成為全世界首部有關人工智能的法規。法律通過后,違反規定的公司最高可被處以4000萬歐元或其全球年營業額7%的罰款。
歐盟AI法案針對不同類型的人工智能系統制定了相應的監管措施,區分了不可接受的風險、高風險、有限風險和低或輕微風險四種風險類型,并針對不同類型施加了不同的監管措施以及相應類型的人工智能系統的提供者義務。對于不可接受的風險(包括可能扭曲用戶行為、導致用戶傷害的系統,預測性警務系統,無針對抓取面部數據建立面部識別數據庫的系統等),歐盟AI法案明確禁止其投放市場,或在歐盟境內使用。因此也有議員對該法案持批評的態度。德國議員阿克塞爾·沃斯表示,這項法案是“朝著正確方向邁出的一步”,但是以對人工智能的恐懼來限制其發展,可能會扼殺新技術涌現的機會。
中國國家網信辦于2023年4月11日推出《生成式人工智能服務管理辦法(征求意見稿)》(下稱“征求意見稿”),旨在促進生成式AI健康發展和規范應用,其中明確規定“研發、利用生成式人工智能產品,面向中華人民共和國境內公眾提供服務的”均適用該辦法。該條規定明確了該辦法的適用范圍和對象,確立了“長臂管轄”規則,將境外主體向境內提供服務情形也納入適用范圍。
與歐盟AI法案不同的是,征求意見稿將監管范圍限定在生成式人工智能,并未禁止某一類型技術的應用,相反的,征求意見稿第三條、第四條明確提出支持和鼓勵技術發展,表明中國保護社會倫理道德秩序和輿論導向,引領新興技術的價值取向的監管目標。該征求意見稿所展現的監管方式與此前出臺的《互聯網信息服務算法推薦管理規定》(“《算法規定》”)、《互聯網信息服務深度合成管理規定》(“《深度合成規定》”)有異曲同工之妙,共同建立了以內容安全和社會影響為監管目標的監管機制,同時,為技術研發和應用預留了政策空間。
我們擬從該征求意見稿所折射的監管目標和監管尺度出發,總結生成式人工智能技術在中國境內應用面臨的主要法律風險和監管合規要點。
一、內容違法違規風險
1. 對生成內容的基本要求。征求意見稿第四條列舉了提供生成式人工智能產品或服務時應遵守的法律法規要求和道德準則。實質上是對服務提供者施以內容審查義務。該條是對生成內容合規性的原則性規定,是對《網絡安全法》《算法規定》《深度合成規定》等法律法規中關于內容合規要求在生成式人工智能技術背景下的匯總和重申。
2. 生成內容應真實準確。征求意見稿第四條第四款規定“利用生成式人工智能生成的內容應當真實準確,采取措施防止生成虛假信息”。然而,我們理解,以目前生成式人工智能的技術水平,還尚達不到確保生成內容100%真實準確的程度,類似生成“林黛玉倒拔垂楊柳”的事例仍屢見不鮮。但從監管的側重點出發,我們認為該款規定應旨在要求服務提供者應當“采取措施”,在技術可以實現的范圍內盡量避免虛假信息的產生。
生成式人工智能的快速發展與深度神經網絡的結構升級有密切聯系,而實驗證明,深度神經網絡的學習能力和模型大小呈正相關,伴隨著模型參數量的增加,相對應深度神經網絡的能力一般會取得大幅提升[2]??梢哉J為用于訓練模型參數的數量和質量,直接影響生成式人工智能所生成內容的質量。
同時,實踐中生成式人工智能服務提供者可能通過向第三方采購取得訓練數據,對此,我們建議應當審查第三方知識產權協議、要求其提供數據合法性來源證明,盡到服務提供者的注意義務,并建立防控措施、窮盡可能的手段避免虛假信息的產生,以減輕內容違法違規的風險。
3. 違規內容應及時處置。征求意見稿第十三條、第十五條規定了提供者應建立侵權內容處理機制,對侵權和違規內容應當采取措施,停止生成,防止危害持續。并且,還應在3個月內通過模型優化訓練等方式防止再次生成。在實踐中,識別違規內容產生的原因,并再次通過模型優化訓練消除違規內容可能存在較高技術難度,并且能否在3個月內完成也有待實踐的檢驗,因此這一要求在實踐中落地可能面臨較大挑戰。
因此,生成式人工智能服務提供者對模型訓練數據的清洗和篩選尤為重要。我們建議服務提供者應高度重視在使用訓練數據之前,通過字段設置等技術結合人工審查手段,去除數據中的違法違規內容和錯誤內容。通過對訓練數據中侵權信息、違法信息、虛假信息、錯誤信息的篩選和處理,最大程度保證訓練出來的模型的準確性。此外,在訓練過程中,應進行調試和優化,并注意及時、定期檢查和糾正錯誤或虛假的信息。
二、數據安全風險
美國時間3月25日,OpenAI官方確認有1.2%的ChatGPT Plus的用戶數據可能被泄露,而包括意大利在內的有關國家的監管機構已對大語言模型及其數據安全問題開啟調查行動。目前數據安全是生成式人工智能領域亟須解決的突出問題。
對此,征求意見稿第五條首先強調了生成式人工智能服務提供者應當承擔的個人信息處理者的法定責任,并在第六條規定了安全評估和算法備案的前提性和必要性。其中明確要求生成式人工智能服務提供者應當根據《算法規定》《具有輿論屬性或社會動員能力的互聯網信息服務安全評估規定》(“《安全評估規定》”)進行算法備案和申報安全評估。根據算法備案要求,在算法備案前,生成式人工智能服務提供者應當設置算法安全機構,建立完善的公司內部規章制度,主要包括算法安全自評估制度、算法安全監測制度、算法安全事件應急處置制度、算法違法違規處置制度、用戶真實身份核驗以及注冊信息留存措施。
根據《安全評估規定》,生成式人工智能服務提供者應當制定相關安全措施,包括用戶操作日志、發布內容的留存措施,對違法有害信息的防范處置和記錄保存措施,個人信息保護和防范違法信息傳播的技術措施,建立投訴舉報渠道,建立協助網信部門、公安機關、國安機關等監管的工作機制等。
除了上述算法備案和安全評估所需的內控制度和措施之外,征求意見稿第七條規定算法訓練數據包含個人信息的,應當征得個人信息主體同意或者符合法律、行政法規規定的其他情形。第十一條要求提供者在提供服務過程中,對用戶的輸入信息和使用記錄承擔保護義務。不得非法留存能夠推斷出用戶身份的輸入信息,不得根據用戶輸入信息和使用情況進行畫像,不得向他人提供用戶輸入信息。
因此,生成式人工智能服務提供者應當遵守《個人信息保護法》《網絡安全法》《數據安全法》等法律法規中針對個人信息保護的相關規定,通過技術及人工手段落實個人信息保護義務,例如:
1. 采用匿名化、脫敏等技術手段對算法訓練數據中的個人隱私信息進行及時處理,避免個人信息泄露或被濫用。
2. 若用戶輸入的信息包含能夠推斷用戶身份的信息,不得非法留存,并應進行定期刪除。
3. 建立人工審查機制,及時監督、發現和糾正個人信息留存、泄露和濫用問題。
4. 服務提供者還應在產品或官網、主頁等位置公開處理投訴的機制和方式,落實用戶投訴接收處理機制,并及時處理個人關于更正、刪除、屏蔽個人信息的請求。
三、知識產權侵權風險
生成式人工智能模型的技術原理是通過對現有數據的學習,學習到數據的分布規律和特點,然后基于這些規律和特點來生成新的數據或完成任務。其中最廣為人知的生成式模型是生成對抗網絡(GAN)。GAN模型由兩個神經網絡組成,分別為“生成器” 和 “判別器”。生成器根據數據分布樣本生成具有相似分布的樣本,而判別器則根據生成器生成出來的樣本以及真實數據對兩者進行判斷分辨。在對抗中,生成器會嘗試生成能混淆判別器的樣本,而判別器會不斷學習,以識別真實樣本和生成器生成的樣本。這樣的對抗過程將導致生成器的輸出越來越接近真實數據的分布,生成器最終可以產生逼真的新數據。GAN的變種如條件GAN(CGAN)等技術可以更加精細地控制生成樣本的特征。
該技術原理決定了生成式人工智能的創作也需要創作素材來“喂養”。通常這些創作素材是以數據形式表現的各種數字化作品。從內容生成的過程上看,生成式人工智能服務提供者可能面臨的較為突出的法律風險,主要集中在訓練數據的輸入端。生成式人工智能服務提供者利用爬蟲技術等各種方式取得未經授權獲取版權作品和侵權信息的,可能涉及著作權侵權、不正當競爭、侵犯商業秘密等知識產權侵權風險。
目前生成式人工智能生成的內容主要是文本、圖片、聲音、視頻、代碼。其中,在生成文字的任務中,基于大型語言模型的生成式人工智能輸出的結果往往不是訓練文本的原文復述,所以知識產權侵權風險相對較低。但是,在生成圖片、聲音、視頻、代碼的領域,存在較為突出的侵權風險。
對此,征求意見稿第七條明確規定,用于生成式人工智能產品的預訓練、優化訓練數據應當不含有侵犯知識產權的內容。并且提供者應當對生成式人工智能產品的預訓練數據、優化訓練數據來源的合法性負責。
該條規定對生成式人工智能服務提供者提出了明確的要求,即在算法訓練階段,應當對算法訓練數據來源的合法性和侵權風險進行審查,從數據源頭上切斷知識產權侵權風險。例如在一些生成圖片人工智能模型的生成產品中,可能出現與訓練圖像較為近似的圖像結果,生成式人工智能服務提供者需要在模型設置、訓練資料的選取,以及訓練、調試和優化過程中注意此類生成結果侵權的風險。
我們注意到,通過爬蟲爬取的互聯網各類公開數據用于模型訓練是否屬于合理使用目前在國內外均極具爭議。征求意見稿第七條的要求如何落地也有待實踐檢驗。另外,人工智能生成的結果是否具有著作權,應當由誰享有著作權,目前在學術界和實務界也爭論頗多。在中國著作權法的框架下,主要爭議觀點集中于“屬于人工智能的設計者”還是“屬于人工智能的使用者”。這關系到技術創新發展與政策支持、法律規制的匹配和銜接問題,我們后續對此爭議問題也將另行撰文展開論述。
綜上所述,關于生成式人工智能技術應用法律風險及合規要點(互聯網信息服務算法備案)的文章,如果您需要辦理互聯網信息服務算法備案或者想更多咨詢問題,請聯系大通天成在線客服。也可以撥打我們的電話13391522356。