新疆信息港 > 資訊 >金融風(fēng)控場(chǎng)景的機(jī)器學(xué)習(xí)模型可解釋性淺析

金融風(fēng)控場(chǎng)景的機(jī)器學(xué)習(xí)模型可解釋性淺析

2022-05-18 09:25:45

來(lái)源：互聯(lián)網(wǎng)

閱讀：-

金融風(fēng)控場(chǎng)景的機(jī)器學(xué)習(xí)模型可解釋性淺析...

機(jī)器學(xué)習(xí)作為人工智能技術(shù)的重要分支，已經(jīng)廣泛應(yīng)用在包含金融風(fēng)控等多個(gè)場(chǎng)景中，成為大數(shù)據(jù)與人工智能時(shí)代的“基礎(chǔ)能力”。而隨著機(jī)器學(xué)習(xí)發(fā)展和應(yīng)用的深入，模型“可解釋性”的問(wèn)題也越來(lái)越被公眾關(guān)注。2021年出臺(tái)的《個(gè)人信息保護(hù)法》，要求自動(dòng)化決策應(yīng)當(dāng)保證決策的透明度和結(jié)果公平、公正，不得在交易條件上實(shí)行不合理的差別待遇；通過(guò)自動(dòng)化決策方式作出對(duì)個(gè)人權(quán)益有重大影響的決定，個(gè)人有權(quán)要求個(gè)人信息處理者予以說(shuō)明。本文基于對(duì)常見(jiàn)機(jī)器學(xué)習(xí)模型的介紹，以國(guó)內(nèi)外真實(shí)案例為基礎(chǔ)，嘗試探討金融風(fēng)控場(chǎng)景模型可解釋性問(wèn)題的成因及對(duì)策，并給出了一些解釋風(fēng)險(xiǎn)認(rèn)定的準(zhǔn)則。

一、機(jī)器學(xué)習(xí)模型的信任危機(jī)

我們是如何區(qū)分哈士奇和狼的？我們?nèi)祟?lèi)可以通過(guò)經(jīng)驗(yàn)來(lái)區(qū)分溫順的家犬和危險(xiǎn)的野生動(dòng)物。但是機(jī)器學(xué)習(xí)算法根據(jù)模型分類(lèi)器的數(shù)據(jù)和權(quán)重，這個(gè)結(jié)果的判斷是如何做出的則是個(gè)謎。

2016 年，加州大學(xué)歐文分校的研究表明，區(qū)分哈士奇犬和狼的高度準(zhǔn)確的算法并不是通過(guò)區(qū)別動(dòng)物本身的樣貌屬性，而是根據(jù)輔助數(shù)據(jù)做出決策的——特別是雪的存在。這一測(cè)試結(jié)果引出了一個(gè)重要的問(wèn)題：如果我們無(wú)法解釋機(jī)器學(xué)習(xí)算法的黑盒工作原理，我們?cè)趺聪嘈潘o出的結(jié)果？

機(jī)器學(xué)習(xí)的種類(lèi)繁多，但是一般我們會(huì)根據(jù)訓(xùn)練期間接受的監(jiān)督數(shù)量和監(jiān)督類(lèi)型進(jìn)行分類(lèi)，將機(jī)器學(xué)習(xí)分為以下兩種類(lèi)型：有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)。

在有監(jiān)督學(xué)習(xí)中，算法需要解決方案的訓(xùn)練數(shù)據(jù)來(lái)做標(biāo)簽或標(biāo)記，以此指導(dǎo)算法作出符合訓(xùn)練規(guī)律的決策。簡(jiǎn)單的有監(jiān)督線性模型中，我們可以通過(guò)檢查分類(lèi)器的結(jié)構(gòu)獲得線索，從而了解運(yùn)算邏輯。但隨著模型復(fù)雜性的增加，機(jī)器學(xué)習(xí)模型變成了“黑盒”，算法越復(fù)雜，結(jié)果就越難解釋。同時(shí)，我們也認(rèn)為數(shù)據(jù)標(biāo)簽越多，結(jié)果也越準(zhǔn)確。準(zhǔn)確性和可解釋性在有監(jiān)督算法的實(shí)際落地中產(chǎn)生了矛盾。

二、為什么金融風(fēng)控需要可解釋性？

當(dāng)機(jī)器學(xué)習(xí)的預(yù)測(cè)結(jié)果對(duì)用戶(hù)的隱私和安全產(chǎn)生影響，而機(jī)器學(xué)習(xí)的建模者或用戶(hù)會(huì)因此面臨法律或財(cái)務(wù)風(fēng)險(xiǎn)時(shí)，一個(gè)具有可解釋性和說(shuō)服力的風(fēng)控結(jié)論就變得至關(guān)重要。高盛的Apple Card就曾發(fā)生過(guò)一起機(jī)器學(xué)習(xí)模型訓(xùn)練結(jié)論存在爭(zhēng)議的負(fù)面事件，一位知名企業(yè)家指責(zé)高盛存在歧視，因?yàn)樗钠拮颖M管信用評(píng)分比他高，但仍被拒絕增加信用額度，高盛的信用卡業(yè)務(wù)因此受到了審查。這起投訴事件引發(fā)了紐約州金融服務(wù)部（DFS）進(jìn)行了一項(xiàng)關(guān)于算法的調(diào)查，調(diào)查信用額度的算法是否存在性別歧視等違法行為。由此可見(jiàn)，可解釋性是保護(hù)消費(fèi)者權(quán)益的必需品，也是保證金融機(jī)構(gòu)健康、安全、合規(guī)運(yùn)行的重要指標(biāo)。

三、金融風(fēng)控的痛點(diǎn)

雖然我們已經(jīng)了解到可解釋性在金融風(fēng)控中的重要性，但是想要將可解釋性的算法落地在金融風(fēng)控場(chǎng)景并不是一件易事。金融行業(yè)的大數(shù)據(jù)資源豐富，數(shù)據(jù)應(yīng)用由來(lái)已久，為滿(mǎn)足豐富的用戶(hù)需求和不斷提升的用戶(hù)體驗(yàn)，對(duì)金融業(yè)務(wù)創(chuàng)新模式的要求和對(duì)大數(shù)據(jù)處理能力的要求也水漲船高。

?數(shù)字化的欺詐風(fēng)險(xiǎn)升級(jí)

傳統(tǒng)銀行在數(shù)字化過(guò)程中，欺詐攻擊也隨著銀行數(shù)字化業(yè)務(wù)的升級(jí)一并進(jìn)化，個(gè)人欺詐攻擊向有組織的團(tuán)伙型欺詐攻擊轉(zhuǎn)變，規(guī)模更大，技術(shù)更加專(zhuān)業(yè)，所造成的欺詐損失也更多。

?風(fēng)控體系需要智能化與專(zhuān)家決策的有機(jī)結(jié)合

隨著數(shù)據(jù)的不斷積累，運(yùn)營(yíng)客戶(hù)的案例和數(shù)據(jù)的維度都更加豐富，在這種背景下傳統(tǒng)的專(zhuān)家決策模式在效率和精度上都存在問(wèn)題，所以需要以智能方案為核心、依據(jù)量化結(jié)論形成決策、并結(jié)合專(zhuān)家運(yùn)營(yíng)輸出可解釋的風(fēng)控意見(jiàn)。

?風(fēng)控決策時(shí)間要求極短

原有的金融風(fēng)控體系響應(yīng)時(shí)間長(zhǎng)，難以做到實(shí)時(shí)檢測(cè)。當(dāng)前更多的業(yè)務(wù)正在往線上轉(zhuǎn)移，留給技術(shù)后臺(tái)的處理時(shí)間可能只有一秒鐘，這就對(duì)大數(shù)據(jù)處理的技術(shù)架構(gòu)提出了極高的要求。而產(chǎn)生客訴后，留給風(fēng)控業(yè)務(wù)的審核時(shí)間也是少之又少。

四、無(wú)監(jiān)督模型在風(fēng)控領(lǐng)域的工作原理

一個(gè)常見(jiàn)的誤區(qū)是：無(wú)監(jiān)督機(jī)器學(xué)習(xí)（UML）由于其不需要標(biāo)記數(shù)據(jù)來(lái)發(fā)現(xiàn)新模式，更像是一種黑盒模型。

但是，事實(shí)相反。

無(wú)監(jiān)督學(xué)習(xí)模型可以風(fēng)控領(lǐng)域識(shí)別欺詐者時(shí)，提供良好的解釋性。無(wú)監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)的核心區(qū)別是訓(xùn)練數(shù)據(jù)只有自變量沒(méi)有因變量（就是沒(méi)有Y值）。常見(jiàn)的無(wú)監(jiān)督學(xué)習(xí)有聚類(lèi)算法、可視化和降維、關(guān)聯(lián)規(guī)則學(xué)習(xí)。

聚類(lèi)或基于關(guān)聯(lián)分析的無(wú)監(jiān)督學(xué)習(xí)在風(fēng)控場(chǎng)景可以得到極佳的應(yīng)用，因?yàn)樗軌蛱峁┏鎏厥饨灰谆蚱墼p活動(dòng)的具體原因代碼，主要是通過(guò)聚類(lèi)出不同維度的特征，如活動(dòng)、行為、時(shí)間和其他因素，結(jié)果常常以可疑的分組形式出現(xiàn)。這些特征可以在模型的圖表中直觀地聚集在一起，這些聚集行為展示了欺詐團(tuán)伙的可疑活動(dòng)、聯(lián)系方式和作案規(guī)律。這樣我們既可以獲得高準(zhǔn)確性的欺詐團(tuán)伙捕捉，又可以解釋機(jī)器學(xué)習(xí)的決策理由。

圖中展現(xiàn)了無(wú)監(jiān)督機(jī)器學(xué)習(xí)的特點(diǎn)，它將可疑用戶(hù)和事件聚集，因?yàn)閺娘L(fēng)控經(jīng)驗(yàn)上講：“好人分散，壞人扎堆”。為了集中獲得高的欺詐收益，欺詐者往往會(huì)躲避規(guī)則的同時(shí)又在規(guī)則的極限邊緣試探，從而形成了一些正常用戶(hù)不會(huì)出現(xiàn)的行為數(shù)據(jù)，這在不同聚類(lèi)子空間中會(huì)被定義為可疑團(tuán)伙。

五、無(wú)監(jiān)督機(jī)器學(xué)習(xí)的風(fēng)險(xiǎn)事件認(rèn)定

無(wú)監(jiān)督學(xué)習(xí)依靠其不依賴(lài)標(biāo)簽、捕捉特殊群組、具有可解釋性的這三大特點(diǎn)，它為何能夠在金融風(fēng)控領(lǐng)域成功落地并解決金融風(fēng)控中的核心痛點(diǎn)呢？

?第一，因?yàn)槠墼p者為逃避風(fēng)控規(guī)則，其手法變化快，僅依賴(lài)歷史數(shù)據(jù)和標(biāo)簽往往難以捕捉新型未知欺詐。

?第二，現(xiàn)代欺詐逐漸形成了鏈條化、組織化的專(zhuān)業(yè)形態(tài)，巨額欺詐損失的背后是團(tuán)伙型欺詐者的高效工作。

?第三，金融機(jī)構(gòu)追求客戶(hù)體驗(yàn)，而風(fēng)控業(yè)務(wù)人員又不希望規(guī)則造成大量客訴，具有可解釋性的模型至關(guān)重要。

基于這三點(diǎn)，無(wú)監(jiān)督學(xué)習(xí)的用武之地可見(jiàn)是風(fēng)控領(lǐng)域。

不過(guò)，無(wú)監(jiān)督學(xué)習(xí)在實(shí)際落地中的可用性和效果一直存疑，人們常問(wèn)：靠聚類(lèi)如何區(qū)分是欺詐團(tuán)伙還是行為良好的團(tuán)隊(duì)？其實(shí)，僅靠一些開(kāi)源的無(wú)監(jiān)督算法，比如K-means或DBSCAN，聚類(lèi)邏輯主要依靠運(yùn)算距離等方式，這樣的預(yù)測(cè)結(jié)果的確是不可用的。想要穩(wěn)穩(wěn)落地，一個(gè)可用的算法必須結(jié)合風(fēng)控經(jīng)驗(yàn)來(lái)打通邏輯，也就是在聚類(lèi)子空間中，“聚”出針對(duì)風(fēng)控場(chǎng)景的可疑群組，這既需要經(jīng)驗(yàn)支持，也有一定技術(shù)門(mén)檻。

那么，一個(gè)可用的無(wú)監(jiān)督學(xué)習(xí)算法是如何判定風(fēng)險(xiǎn)事件和欺詐用戶(hù)的？維擇科技在服務(wù)全球金融機(jī)構(gòu)的案例中，總結(jié)了許多可復(fù)用的聚類(lèi)子空間和規(guī)則。

案例一：

維擇科技依靠無(wú)監(jiān)督學(xué)習(xí)算法，發(fā)現(xiàn)了疑似黑中介代辦的欺詐申請(qǐng)團(tuán)伙，其中涉及18個(gè)申請(qǐng)人分別通過(guò)虛假信息包裝提交貸款申請(qǐng)。欺詐者運(yùn)用了一定的偽裝手法：該群組中申請(qǐng)人的個(gè)人信息（名稱(chēng)、證件號(hào)、手機(jī)號(hào)、家庭地址等）均不相同，大多數(shù)申請(qǐng)人的單位名稱(chēng)不同。申請(qǐng)時(shí)間相對(duì)分散在周內(nèi)的不同時(shí)間。在一般規(guī)則審查中，很難發(fā)現(xiàn)這些看似不相關(guān)的人是同一個(gè)犯罪團(tuán)伙。

無(wú)監(jiān)督算法從不同聚類(lèi)子空間中摘出了這些申請(qǐng)人的可疑共同點(diǎn)：

?18個(gè)申請(qǐng)賬戶(hù)中12個(gè)賬戶(hù)的家庭地址與征信信息中的家庭地址不一致，且11個(gè)賬戶(hù)的城市信息不一致；

?18個(gè)申請(qǐng)均通過(guò)手機(jī)瀏覽器完成，其中使用的蘋(píng)果手機(jī)IOS版本較低；

?每單申請(qǐng)過(guò)程中均出現(xiàn)登陸的GPS不唯一，且存在跨城市的現(xiàn)象；

?不同申請(qǐng)之間都有登錄同一城市的GPS信息，且登陸的均為蘋(píng)果手機(jī)。

案例二：

維擇科技在為某股份制銀行卡中心進(jìn)行信用卡反詐場(chǎng)景的檢測(cè)服務(wù)時(shí)，發(fā)現(xiàn)了疑似養(yǎng)卡提額的團(tuán)伙，他們緊扣住銀行信用評(píng)估系統(tǒng)和風(fēng)控系統(tǒng)的規(guī)則，投入成本并長(zhǎng)期保持信用卡活躍，制造出真人刷卡消費(fèi)的假象。

無(wú)監(jiān)督算法則能夠摘出這些持卡人的可疑共同點(diǎn)：

?特定借記卡給多個(gè)信用卡賬戶(hù)還款，還款金額集中；

?每個(gè)信用卡賬戶(hù)都在過(guò)固定多個(gè)商戶(hù)交易，且為同一家收單機(jī)構(gòu)，收單機(jī)構(gòu)所在地相同；

?每個(gè)卡的消費(fèi)總額是授信額度的數(shù)倍；

?每天1分鐘同一個(gè)商戶(hù)消費(fèi)多筆，且金額類(lèi)似；

?每天還款1筆，且金額集中。

這兩個(gè)案例中的特征合并在一起看，是高度可疑的，但在逐個(gè)篩查中極難被發(fā)現(xiàn)。

總而言之，并非所有機(jī)器學(xué)習(xí)模型都是黑盒，對(duì)于大多數(shù)應(yīng)用場(chǎng)景來(lái)說(shuō)，一定程度的可解釋性足以滿(mǎn)足法律和監(jiān)管的要求。對(duì)于金融場(chǎng)景的欺詐檢測(cè)，從業(yè)者則更推崇準(zhǔn)確性與可解釋性并存的算法。發(fā)現(xiàn)不同機(jī)器學(xué)習(xí)的用武之地，向所有人展示“這是狼，不是哈士奇”的理由。

作者：維擇科技李夢(mèng)曉

亚洲国产精品一区|午夜精品久久久久久久99热|草久在线观看高清|欧美精品V国产不卡在线观看

金融風(fēng)控場(chǎng)景的機(jī)器學(xué)習(xí)模型可解釋性淺析

金融風(fēng)控場(chǎng)景的機(jī)器學(xué)習(xí)模型可解釋性淺析...