麻省理工學院:一種設計適合某些任務的神經(jīng)網(wǎng)絡的方法
借助正確的構(gòu)建塊,機器學習模型可以更準確地執(zhí)行欺詐檢測或垃圾郵件過濾等任務。
神經(jīng)網(wǎng)絡是一種機器學習模型,正被用于幫助人類完成各種各樣的任務,從預測某人的信用評分是否足夠高,有資格獲得貸款,到診斷患者是否患有某種疾病。但研究人員對這些模型的工作原理仍然只有有限的了解。給定的模型是否適合某些任務仍然是一個懸而未決的問題。
麻省理工學院的研究人員已經(jīng)找到了一些答案。他們對神經(jīng)網(wǎng)絡進行了分析,并證明它們可以被設計成“”的,這意味著當網(wǎng)絡獲得大量標記的訓練數(shù)據(jù)時,它們可以限度地減少將借款人或患者錯誤分類到錯誤類別的可能性。為了實現(xiàn)性能,必須使用特定的架構(gòu)構(gòu)建這些網(wǎng)絡。
研究人員發(fā)現(xiàn),在某些情況下,使神經(jīng)網(wǎng)絡成為狀態(tài)的構(gòu)建塊并不是開發(fā)人員在實踐中使用的構(gòu)建塊。研究人員說,通過新分析得出的這些構(gòu)建塊是非常規(guī)的,以前從未被考慮過。
在本周發(fā)表在《美國科學院院刊》(Proceedings of the National Academy of Sciences)上的一篇論文中,他們描述了這些稱為激活函數(shù)的構(gòu)建塊,并展示了如何使用它們來設計在任何數(shù)據(jù)集上實現(xiàn)更好性能的神經(jīng)網(wǎng)絡。即使神經(jīng)網(wǎng)絡變得非常大,結(jié)果仍然成立。這項工作可以幫助開發(fā)人員選擇正確的激活函數(shù),使他們能夠構(gòu)建神經(jīng)網(wǎng)絡,在廣泛的應用領(lǐng)域更準確地對數(shù)據(jù)進行分類,作者,電氣工程和計算機科學系(EECS)教授Caroline Uhler解釋說。
“雖然這些是以前從未使用過的新激活功能,但它們是某人可以針對特定問題實際實現(xiàn)的簡單功能。這項工作確實顯示了擁有理論證明的重要性。如果你對這些模型有一個原則性的理解,這實際上可以引導你獲得你從未想過的新激活函數(shù),“Uhler說,他也是麻省理工學院和哈佛大學布羅德研究所埃里克和溫迪施密特中心的聯(lián)合主任,也是麻省理工學院信息和決策系統(tǒng)實驗室(LIDS)及其數(shù)據(jù)研究所的研究員, 系統(tǒng)與社會。
加入Uhler論文的是主要作者Adityanarayanan Radhakrishnan,EECS研究生和Eric和Wendy Schmidt中心研究員,以及Mikhail Belkin,加州大學圣地亞哥分校Halicio?lu數(shù)據(jù)科學研究所教授。
激活調(diào)查
神經(jīng)網(wǎng)絡是一種松散地基于人腦的機器學習模型。許多相互連接的節(jié)點或神經(jīng)元層處理數(shù)據(jù)。研究人員通過向網(wǎng)絡展示數(shù)據(jù)集中的數(shù)百萬個示例來訓練網(wǎng)絡完成任務。
例如,經(jīng)過訓練將圖像分類的網(wǎng)絡,例如狗和貓,被賦予已編碼為數(shù)字的圖像。網(wǎng)絡逐層執(zhí)行一系列復雜的乘法運算,直到結(jié)果只有一個數(shù)字。如果該數(shù)字為正數(shù),則網(wǎng)絡將圖像分類為狗,如果為負數(shù),則分類為貓。
激活函數(shù)幫助網(wǎng)絡學習輸入數(shù)據(jù)中的復雜模式。他們通過在將數(shù)據(jù)發(fā)送到下一層之前對一層的輸出應用轉(zhuǎn)換來實現(xiàn)這一點。當研究人員構(gòu)建神經(jīng)網(wǎng)絡時,他們選擇一個激活函數(shù)來使用。他們還選擇網(wǎng)絡的寬度(每層有多少神經(jīng)元)和深度(網(wǎng)絡中有多少層)。
“事實證明,如果你采用人們在實踐中使用的標準激活功能,并不斷增加網(wǎng)絡的深度,它會給你帶來非常糟糕的性能。我們表明,如果你使用不同的激活函數(shù)進行設計,隨著你獲得更多的數(shù)據(jù),你的網(wǎng)絡會變得越來越好,“Radhakrishnan說。
他和他的合作者研究了這樣一種情況:神經(jīng)網(wǎng)絡是無限深度和寬的——這意味著網(wǎng)絡是通過不斷添加更多的層和更多的節(jié)點來構(gòu)建的——并被訓練來執(zhí)行分類任務。在分類中,網(wǎng)絡學習將數(shù)據(jù)輸入放入單獨的類別中。
“干凈的畫面”
在進行詳細分析后,研究人員確定,這種網(wǎng)絡只有三種方式可以學習對輸入進行分類。一種方法根據(jù)訓練數(shù)據(jù)中的大多數(shù)輸入對輸入進行分類;如果狗比貓多,它將決定每個新輸入都是狗。另一種方法是通過選擇與新輸入相似的訓練數(shù)據(jù)點的標簽(狗或貓)進行分類。
第三種方法根據(jù)與其相似的所有訓練數(shù)據(jù)點的加權(quán)平均值對新輸入進行分類。他們的分析表明,這是三種方法中導致性能的方法。他們確定了一組始終使用這種分類方法的激活函數(shù)。
“這是令人驚訝的事情之一——無論你為激活函數(shù)選擇什么,它都將成為這三個分類器之一。我們有公式可以明確地告訴您它將是這三者中的哪一個。這是一幅非常干凈的畫面,“他說。
他們在幾個分類基準測試任務上測試了這一理論,發(fā)現(xiàn)它在許多情況下提高了性能。神經(jīng)網(wǎng)絡構(gòu)建者可以使用他們的公式來選擇一個激活函數(shù),從而提高分類性能,Radhakrishnan說。
在未來,研究人員希望利用他們所學到的知識來分析他們擁有有限數(shù)據(jù)的情況,以及不是無限寬或無限深的網(wǎng)絡。他們還希望將此分析應用于數(shù)據(jù)沒有標簽的情況。
“在深度學習中,我們希望建立基于理論的模型,以便我們能夠在某些關(guān)鍵任務環(huán)境中可靠地部署它們。這是一種有前途的方法,可以達到這樣的事情 - 以理論為基礎的方式構(gòu)建架構(gòu),在實踐中轉(zhuǎn)化為更好的結(jié)果,“他說。
這項工作得到了美國科學基金會,海軍研究辦公室,麻省理工學院-IBM沃森人工智能實驗室,布羅德研究所的埃里克和溫迪施密特中心以及西蒙斯研究員獎的部分支持。