AI惹上刑事調(diào)查如何給聊天機(jī)器人設(shè)護(hù)欄引發(fā)熱議

2026年05月13日 10:15　來源：科技日?qǐng)?bào)

大字體

小字體

分享到：

　　今年4月底，美國(guó)佛羅里達(dá)州總檢察長(zhǎng)詹姆斯·烏斯邁爾宣布，州級(jí)檢察官辦公室已對(duì)人工智能(AI)公司OpenAI及其聊天機(jī)器人ChatGPT啟動(dòng)刑事調(diào)查，焦點(diǎn)在于ChatGPT是否在去年4月佛羅里達(dá)州立大學(xué)一起慘烈的校園槍擊案中充當(dāng)了“幫兇”。對(duì)此，OpenAI稱，公司正與當(dāng)局合作，ChatGPT不應(yīng)對(duì)這起可怕的罪行負(fù)責(zé)。

　　英國(guó)《自然》網(wǎng)站在近日的報(bào)道中指出，盡管OpenAI目前尚未受到任何指控，但這項(xiàng)調(diào)查直指AI公司面前的一道核心難題：為什么打造一個(gè)契合人類法律、道德和價(jià)值觀的聊天機(jī)器人竟如此艱難？

　　澳大利亞麥格理大學(xué)大語(yǔ)言模型聯(lián)盟研究員烏斯曼·納西姆認(rèn)為，不管佛羅里達(dá)州的調(diào)查是否會(huì)給OpenAI招致法律后果，但會(huì)促使各家公司證明自身安全措施是否有效。與此同時(shí)，科學(xué)家也在全力以赴，試圖將人類價(jià)值觀“編碼”進(jìn)AI模型，即實(shí)現(xiàn)人機(jī)價(jià)值對(duì)齊，以助其既有用又安全。

　　安全措施尚顯薄弱

　　近年來，人們對(duì)大語(yǔ)言模型聊天機(jī)器人輸出危險(xiǎn)乃至非法建議的憂慮與日俱增，從慫恿自殺、炮制非法內(nèi)容到財(cái)經(jīng)欺詐，不一而足?？裳巯?，AI系統(tǒng)的安全防線依然脆弱。

　　納西姆透露，當(dāng)前聊天機(jī)器人的安全標(biāo)準(zhǔn)基本由各公司自行定奪，外部監(jiān)督少之又少。許多公司坦承問題所在，也表態(tài)已采取安全措施阻止輸出可能誘發(fā)危險(xiǎn)行為的建議，但一些研究人員呼吁應(yīng)引入獨(dú)立的安全檢測(cè)。

　　目前，一些公司采取的一項(xiàng)防護(hù)手段是內(nèi)容過濾器，其能讓AI工具拒絕回應(yīng)含有特定敏感詞的請(qǐng)求。不過，澳大利亞新南威爾士大學(xué)AI研究員托比·沃爾什指出，用戶完全可以繞過這個(gè)坎。他們只需重新組織提問方式，把不良意圖包裝成假設(shè)或虛構(gòu)情境，AI工具便很難從看似無害的請(qǐng)求里甄別出危險(xiǎn)的端倪。

　　納西姆補(bǔ)充說，包括內(nèi)容過濾、行為訓(xùn)練和政策規(guī)則在內(nèi)的許多安全措施，說到底還是一種外部控制，而非系統(tǒng)對(duì)道德或意圖真真切切地領(lǐng)悟。這些手段并非全然無用，但也并不完美，執(zhí)著的用戶仍能找到破綻鉆空子。

　　安全與實(shí)用不易兼得

　　聊天機(jī)器人為啥總不能規(guī)規(guī)矩矩守法？部分癥結(jié)在于，那些驅(qū)動(dòng)最熱門聊天機(jī)器人的大語(yǔ)言模型，其學(xué)習(xí)方式是“依樣畫葫蘆”，而非遵循一套明晰的規(guī)則。

　　這些大語(yǔ)言模型在海量互聯(lián)網(wǎng)文本上接受訓(xùn)練。當(dāng)用戶提問或給出提示詞時(shí)，模型便會(huì)預(yù)測(cè)最有可能依次出現(xiàn)的詞匯序列。沃爾什認(rèn)為，這種設(shè)計(jì)讓這些大語(yǔ)言模型幾乎什么都能回應(yīng)，成為“萬(wàn)事通”，但反過來，要想給那些不該說的話設(shè)下牢靠的護(hù)欄，也就變得倍加困難。

　　納西姆強(qiáng)調(diào)，大語(yǔ)言模型給出的答案，只是一種模式拼湊，它們并不真正理解話語(yǔ)的含義或后果。

　　沃爾什回顧道，科研人員曾試圖教AI系統(tǒng)遵循規(guī)則。上世紀(jì)五六十年代風(fēng)靡一時(shí)的符號(hào)AI，便是教計(jì)算機(jī)恪守規(guī)則。但澳大利亞阿德萊德大學(xué)AI研究員西蒙·盧西直言，這套辦法應(yīng)付不了大規(guī)模的現(xiàn)實(shí)世界問題，因?yàn)殚_發(fā)者根本無法編寫足夠多的規(guī)則來囊括所有情形。

　　沃爾什建議，想讓現(xiàn)有大語(yǔ)言模型更安全，可借助基于人類反饋的強(qiáng)化學(xué)習(xí)。具體而言，人類評(píng)估模型的輸出，并手把手引導(dǎo)它形成更可取的回答，但這套做法極耗資源，成本高昂。

　　另一種思路，是從訓(xùn)練AI模型最初的數(shù)據(jù)集里剔除有害信息，可研究表明，這招未必總奏效。沃爾什說，對(duì)科技公司而言，人工梳理如此龐大的數(shù)據(jù)集，花費(fèi)同樣驚人。他還強(qiáng)調(diào)，在安全與實(shí)用之間，必須拿捏好分寸。如果給系統(tǒng)戴上過緊的枷鎖，它也就失去了用武之地。

　　底層算法亟待重新考量

　　納西姆表示，投身“人機(jī)對(duì)齊”研究的科學(xué)家，正放眼比內(nèi)容檢測(cè)器更寬廣的視野，致力于開發(fā)能精準(zhǔn)識(shí)別整段對(duì)話中有害意圖的系統(tǒng)，而不只是孤立地標(biāo)記某個(gè)問題。

　　盧西透露，一些科學(xué)家還在打造“神經(jīng)符號(hào)AI”。它將老派符號(hào)AI與神經(jīng)網(wǎng)絡(luò)方法融于一身，這類模型在計(jì)算機(jī)編程和數(shù)學(xué)領(lǐng)域已嶄露頭角，一旦輸出不靈光，大語(yǔ)言模型就能立即獲得反饋并據(jù)此改進(jìn)。可在倫理和法律領(lǐng)域，這種立竿見影的反饋并不容易實(shí)現(xiàn)，因?yàn)樗鼇淼锰疫^程中可能已經(jīng)造成了傷害。

　　盧西還指出，眼下多家公司正嘗試砸巨資去獲取并管理更多數(shù)據(jù)來優(yōu)化系統(tǒng)，也雇傭更多人提供更優(yōu)質(zhì)的反饋。但他強(qiáng)調(diào)，AI研究者需要重新審視大語(yǔ)言模型的底層算法，才能構(gòu)建起真正能夠體悟人類倫理與法律的AI系統(tǒng)。

　　本報(bào)記者：劉霞來源：科技日?qǐng)?bào)

【編輯:王琴】

更多精彩內(nèi)容請(qǐng)進(jìn)入法治頻道

發(fā)表評(píng)論文明上網(wǎng)理性發(fā)言，請(qǐng)遵守新聞評(píng)論服務(wù)協(xié)議

法治新聞精選：

換一批

a级毛片视频免费观看,国产一极毛片,日韩黄色片在线观看,激情五月黄色,国产福利免费视频,精品在线看片,天天艹无码天天射

AI惹上刑事調(diào)查 如何給聊天機(jī)器人設(shè)護(hù)欄引發(fā)熱議

AI惹上刑事調(diào)查 如何給聊天機(jī)器人設(shè)護(hù)欄引發(fā)熱議

法治新聞精選：

AI惹上刑事調(diào)查如何給聊天機(jī)器人設(shè)護(hù)欄引發(fā)熱議

AI惹上刑事調(diào)查如何給聊天機(jī)器人設(shè)護(hù)欄引發(fā)熱議