AI惹上刑事調(diào)查 如何給聊天機(jī)器人設(shè)護(hù)欄引發(fā)熱議
今年4月底,美國(guó)佛羅里達(dá)州總檢察長(zhǎng)詹姆斯·烏斯邁爾宣布,州級(jí)檢察官辦公室已對(duì)人工智能(AI)公司OpenAI及其聊天機(jī)器人ChatGPT啟動(dòng)刑事調(diào)查,焦點(diǎn)在于ChatGPT是否在去年4月佛羅里達(dá)州立大學(xué)一起慘烈的校園槍擊案中充當(dāng)了“幫兇”。對(duì)此,OpenAI稱,公司正與當(dāng)局合作,ChatGPT不應(yīng)對(duì)這起可怕的罪行負(fù)責(zé)。
英國(guó)《自然》網(wǎng)站在近日的報(bào)道中指出,盡管OpenAI目前尚未受到任何指控,但這項(xiàng)調(diào)查直指AI公司面前的一道核心難題:為什么打造一個(gè)契合人類法律、道德和價(jià)值觀的聊天機(jī)器人竟如此艱難?
澳大利亞麥格理大學(xué)大語(yǔ)言模型聯(lián)盟研究員烏斯曼·納西姆認(rèn)為,不管佛羅里達(dá)州的調(diào)查是否會(huì)給OpenAI招致法律后果,但會(huì)促使各家公司證明自身安全措施是否有效。與此同時(shí),科學(xué)家也在全力以赴,試圖將人類價(jià)值觀“編碼”進(jìn)AI模型,即實(shí)現(xiàn)人機(jī)價(jià)值對(duì)齊,以助其既有用又安全。
安全措施尚顯薄弱
近年來,人們對(duì)大語(yǔ)言模型聊天機(jī)器人輸出危險(xiǎn)乃至非法建議的憂慮與日俱增,從慫恿自殺、炮制非法內(nèi)容到財(cái)經(jīng)欺詐,不一而足??裳巯?,AI系統(tǒng)的安全防線依然脆弱。
納西姆透露,當(dāng)前聊天機(jī)器人的安全標(biāo)準(zhǔn)基本由各公司自行定奪,外部監(jiān)督少之又少。許多公司坦承問題所在,也表態(tài)已采取安全措施阻止輸出可能誘發(fā)危險(xiǎn)行為的建議,但一些研究人員呼吁應(yīng)引入獨(dú)立的安全檢測(cè)。
目前,一些公司采取的一項(xiàng)防護(hù)手段是內(nèi)容過濾器,其能讓AI工具拒絕回應(yīng)含有特定敏感詞的請(qǐng)求。不過,澳大利亞新南威爾士大學(xué)AI研究員托比·沃爾什指出,用戶完全可以繞過這個(gè)坎。他們只需重新組織提問方式,把不良意圖包裝成假設(shè)或虛構(gòu)情境,AI工具便很難從看似無害的請(qǐng)求里甄別出危險(xiǎn)的端倪。
納西姆補(bǔ)充說,包括內(nèi)容過濾、行為訓(xùn)練和政策規(guī)則在內(nèi)的許多安全措施,說到底還是一種外部控制,而非系統(tǒng)對(duì)道德或意圖真真切切地領(lǐng)悟。這些手段并非全然無用,但也并不完美,執(zhí)著的用戶仍能找到破綻鉆空子。
安全與實(shí)用不易兼得
聊天機(jī)器人為啥總不能規(guī)規(guī)矩矩守法?部分癥結(jié)在于,那些驅(qū)動(dòng)最熱門聊天機(jī)器人的大語(yǔ)言模型,其學(xué)習(xí)方式是“依樣畫葫蘆”,而非遵循一套明晰的規(guī)則。
這些大語(yǔ)言模型在海量互聯(lián)網(wǎng)文本上接受訓(xùn)練。當(dāng)用戶提問或給出提示詞時(shí),模型便會(huì)預(yù)測(cè)最有可能依次出現(xiàn)的詞匯序列。沃爾什認(rèn)為,這種設(shè)計(jì)讓這些大語(yǔ)言模型幾乎什么都能回應(yīng),成為“萬(wàn)事通”,但反過來,要想給那些不該說的話設(shè)下牢靠的護(hù)欄,也就變得倍加困難。
納西姆強(qiáng)調(diào),大語(yǔ)言模型給出的答案,只是一種模式拼湊,它們并不真正理解話語(yǔ)的含義或后果。
沃爾什回顧道,科研人員曾試圖教AI系統(tǒng)遵循規(guī)則。上世紀(jì)五六十年代風(fēng)靡一時(shí)的符號(hào)AI,便是教計(jì)算機(jī)恪守規(guī)則。但澳大利亞阿德萊德大學(xué)AI研究員西蒙·盧西直言,這套辦法應(yīng)付不了大規(guī)模的現(xiàn)實(shí)世界問題,因?yàn)殚_發(fā)者根本無法編寫足夠多的規(guī)則來囊括所有情形。
沃爾什建議,想讓現(xiàn)有大語(yǔ)言模型更安全,可借助基于人類反饋的強(qiáng)化學(xué)習(xí)。具體而言,人類評(píng)估模型的輸出,并手把手引導(dǎo)它形成更可取的回答,但這套做法極耗資源,成本高昂。
另一種思路,是從訓(xùn)練AI模型最初的數(shù)據(jù)集里剔除有害信息,可研究表明,這招未必總奏效。沃爾什說,對(duì)科技公司而言,人工梳理如此龐大的數(shù)據(jù)集,花費(fèi)同樣驚人。他還強(qiáng)調(diào),在安全與實(shí)用之間,必須拿捏好分寸。如果給系統(tǒng)戴上過緊的枷鎖,它也就失去了用武之地。
底層算法亟待重新考量
納西姆表示,投身“人機(jī)對(duì)齊”研究的科學(xué)家,正放眼比內(nèi)容檢測(cè)器更寬廣的視野,致力于開發(fā)能精準(zhǔn)識(shí)別整段對(duì)話中有害意圖的系統(tǒng),而不只是孤立地標(biāo)記某個(gè)問題。
盧西透露,一些科學(xué)家還在打造“神經(jīng)符號(hào)AI”。它將老派符號(hào)AI與神經(jīng)網(wǎng)絡(luò)方法融于一身,這類模型在計(jì)算機(jī)編程和數(shù)學(xué)領(lǐng)域已嶄露頭角,一旦輸出不靈光,大語(yǔ)言模型就能立即獲得反饋并據(jù)此改進(jìn)。可在倫理和法律領(lǐng)域,這種立竿見影的反饋并不容易實(shí)現(xiàn),因?yàn)樗鼇淼锰疫^程中可能已經(jīng)造成了傷害。
盧西還指出,眼下多家公司正嘗試砸巨資去獲取并管理更多數(shù)據(jù)來優(yōu)化系統(tǒng),也雇傭更多人提供更優(yōu)質(zhì)的反饋。但他強(qiáng)調(diào),AI研究者需要重新審視大語(yǔ)言模型的底層算法,才能構(gòu)建起真正能夠體悟人類倫理與法律的AI系統(tǒng)。
本報(bào)記者:劉霞 來源:科技日?qǐng)?bào)








































京公網(wǎng)安備 11010202009201號(hào)