瀟湘晨報(bào) 2024-10-19 16:16:36
近日,有消息稱字節(jié)跳動(dòng)發(fā)生大模型訓(xùn)練被實(shí)習(xí)生“投毒”事件。
據(jù)悉,該事件發(fā)生在字節(jié)跳動(dòng)商業(yè)化團(tuán)隊(duì),因?qū)嵙?xí)生田某某對(duì)團(tuán)隊(duì)資源分配不滿,利用HF(huggingface)的漏洞,通過(guò)共享模型注入破壞代碼,導(dǎo)致團(tuán)隊(duì)模型訓(xùn)練成果受損。消息稱此次遭到入侵的代碼已注入8000多張卡,損失或達(dá)千萬(wàn)美元。
10月19日下午,字節(jié)跳動(dòng)官方澄清回應(yīng)稱, 近期有媒體稱“字節(jié)跳動(dòng)大模型訓(xùn)練被實(shí)習(xí)生攻擊”,經(jīng)公司內(nèi)部核實(shí),確有商業(yè)化技術(shù)團(tuán)隊(duì)實(shí)習(xí)生發(fā)生嚴(yán)重違紀(jì)行為,該實(shí)習(xí)生已被辭退。
字節(jié)跳動(dòng)表示, 相關(guān)報(bào)道也存在部分夸大及失實(shí)信息,涉事實(shí)習(xí)生惡意干擾商業(yè)化技術(shù)團(tuán)隊(duì)研究項(xiàng)目的模型訓(xùn)練任務(wù),但并不影響商業(yè)化的正式項(xiàng)目及線上業(yè)務(wù),也不涉及字節(jié)跳動(dòng)大模型等其他業(yè)務(wù)。 另外, 網(wǎng)傳“涉及8000多卡、損失上千萬(wàn)美元”嚴(yán)重夸大。
經(jīng)核實(shí),涉事人一直在商業(yè)化技術(shù)團(tuán)隊(duì)實(shí)習(xí),并沒(méi)有AI Lab實(shí)習(xí)經(jīng)歷。其社交媒體個(gè)人簡(jiǎn)介及部分媒體報(bào)道有誤。 據(jù)悉, 該實(shí)習(xí)生已在8月被公司辭退。公司也將其行為同步給行業(yè)聯(lián)盟和所在學(xué)校,交由校方處理。
有消息人士告知,田某某系北大在讀學(xué)生。
此次事件暴露出字節(jié)跳動(dòng)技術(shù)訓(xùn)練中存在的安全管理問(wèn)題,包括權(quán)限隔離、共用代碼的審計(jì)等。一位行業(yè)人士對(duì)記者表示,進(jìn)行權(quán)限隔離與審計(jì)利于保護(hù)公司核心數(shù)據(jù)與知識(shí)產(chǎn)權(quán),防止數(shù)據(jù)泄漏,提高數(shù)據(jù)與系統(tǒng)的安全性。比如實(shí)時(shí)監(jiān)控權(quán)限使用情況,及時(shí)發(fā)現(xiàn)權(quán)限濫用和異常操作;定期審計(jì)權(quán)限,檢查團(tuán)隊(duì)成員的權(quán)限是否符合授權(quán)策略,是否存在權(quán)限濫用的情況等。但這件事也有難度,包括跨部門(mén)合作成本、經(jīng)常性維護(hù)與更新的資源投入等。
最新的字節(jié)跳動(dòng)大模型信息披露發(fā)生在今年10月15日,火山引擎在視頻云技術(shù)大會(huì)上發(fā)布了大模型訓(xùn)練視頻預(yù)處理方案,助力解決視頻大模型訓(xùn)練的成本、質(zhì)量和性能等方面的技術(shù)挑戰(zhàn)。目前,該技術(shù)方案已應(yīng)用于豆包視頻生成模型。
責(zé)編:沙兆華
一審:張笑
二審:陳永剛
三審:文鳳雛
來(lái)源:瀟湘晨報(bào)
我要問(wèn)