国产精品chinese,色综合天天综合精品网国产在线,成午夜免费视频在线观看,清纯女学生被强行糟蹋小说

    <td id="ojr13"><tr id="ojr13"><label id="ojr13"></label></tr></td>
        • <source id="ojr13"></source>
            <td id="ojr13"><ins id="ojr13"><label id="ojr13"></label></ins></td>

            Article / 文章中心

            ICLR2022頂會(huì)論文分享-PoNet:使用多粒度Pooling結(jié)構(gòu)替代attention的網(wǎng)絡(luò)

            發(fā)布時(shí)間:2022-02-18 點(diǎn)擊數(shù):988
                
            簡(jiǎn)介: 近年來(lái),在機(jī)器學(xué)習(xí)范疇Transformer模型已成為最先進(jìn)的(SOTA) 序列建模模型,包含在自然言語(yǔ)處理 (NLP)、核算機(jī)視覺(jué)、語(yǔ)音處理、基因組數(shù)據(jù)等都有著廣泛的運(yùn)用。


            image.png


            近年來(lái),在機(jī)器學(xué)習(xí)范疇Transformer模型已成為最先進(jìn)的(SOTA) 序列建模模型,包含在自然言語(yǔ)處理 (NLP)、核算機(jī)視覺(jué)、語(yǔ)音處理、基因組數(shù)據(jù)等都有著廣泛的運(yùn)用。

            Transformer 成功的關(guān)鍵原因在于它的自我留意(self-attention)機(jī)制,核算輸入表征的每個(gè)方位之間的點(diǎn)積。Transformer被證明在學(xué)習(xí)上下文表征方面非常有用,它成為最主要的骨干模型,例如 BERT和 RoBERTa。這些預(yù)練習(xí)言語(yǔ)模型展現(xiàn)了強(qiáng)壯的搬遷學(xué)習(xí)才能,并在廣泛NLP使命中完成了 SOTA。

            然而,因?yàn)門(mén)ransformer模型中的self-attention機(jī)制相對(duì)于語(yǔ)句長(zhǎng)度的復(fù)雜度是二次的(O(N^2)),因而在核算速度和顯存空間方面都限制了它在長(zhǎng)序列中的運(yùn)用。咱們提出了一種具有線性復(fù)雜度 (O(N)) 的核算模型 PoNet ,運(yùn)用 pooling 網(wǎng)絡(luò)代替 self-attention 機(jī)制對(duì)語(yǔ)句詞匯進(jìn)行混合,從而捕捉上下文信息。

            試驗(yàn)表明,PoNet 在長(zhǎng)文本測(cè)驗(yàn) Long Range Arena (LRA) 榜[1] 上在準(zhǔn)確率上比 Transformer 高 2.28 個(gè)點(diǎn),在GPU上運(yùn)轉(zhuǎn)速度是Transformer的 9 倍,顯存占用只有 1/10。此外,試驗(yàn)也展現(xiàn)了 PoNet 的搬遷學(xué)習(xí)才能,PoNet-Base 在 GLUE 基準(zhǔn)上達(dá)到了 BERT-Base 的 95.7% 的準(zhǔn)確性。

            || 模型

            受到用于視覺(jué)使命的外部留意EA[2]的啟示,咱們將其簡(jiǎn)化為 多層感知器  softmax,并觀察到 softmax 經(jīng)過(guò)分母項(xiàng)將序列信息融入到 token 中供給了上下文建模才能。然而,softmax 涉及到指數(shù)的核算,這仍然是很慢的。因而,咱們考慮運(yùn)用池化法作為代替辦法,以明顯下降的復(fù)雜度來(lái)捕捉語(yǔ)境信息。

            模型主要由三個(gè)不同粒度的 pooling 組成,一個(gè)大局的pooling模塊(GA),分段的segment max-pooling模塊(SMP),和局部的max-pooling模塊(LMP),對(duì)應(yīng)捕捉不同粒度的序列信息:


             在第一階段,GA沿著序列長(zhǎng)度進(jìn)行均勻得到語(yǔ)句的大局表征g。為了加強(qiáng)對(duì)大局信息的捕捉,GA在第二階段對(duì)g和輸入練習(xí)核算cross-attention。因?yàn)間的長(zhǎng)度為1,因而總的核算復(fù)雜度仍為O(N)。

             SMP按每個(gè)分段求取最大值,以捕獲中等顆粒度的信息。

             LMP沿著序列長(zhǎng)度的方向核算滑動(dòng)窗口max-pooling。

             然后經(jīng)過(guò)池化交融(PF)將這些池化特征聚合起來(lái)。因?yàn)镚A的特征在整個(gè)token序列是同享的,SMP的特征在segment內(nèi)部也是同享的,直接將這些特征加到原始token上會(huì)使得token趨同(向量加法),而這種token表征同質(zhì)化的影響將會(huì)下降比如語(yǔ)句對(duì)分類(lèi)使命的性能。因而,咱們?cè)赑F層將原始的token于對(duì)應(yīng)的GA,SMP特征核算元素乘法得到新的特征,使得不同的token對(duì)應(yīng)了不同的特征。

            image.png


            || 試驗(yàn)結(jié)果

            長(zhǎng)序列使命

            Long Range Arena(LRA) 是用來(lái)評(píng)價(jià)捕捉長(zhǎng)距離依賴(lài)關(guān)系的基準(zhǔn)測(cè)驗(yàn)。在LRA上,PoNet取得了比Transformer更好的分?jǐn)?shù)。

            image.png

            在速度和顯存方面,僅次于FNet[3],明顯優(yōu)于Transformer。

            image.png

            搬遷學(xué)習(xí)

            咱們用大規(guī)模語(yǔ)料庫(kù)對(duì)PoNet進(jìn)行預(yù)練習(xí),然后測(cè)驗(yàn)它在下流使命上的性能。下圖是預(yù)練習(xí)的  MLM[4] 和 SSO[5] 兩個(gè)子使命的練習(xí)曲線,能夠看到,咱們的模型在 MLM 上略弱小于 BERT ,在 SSO 上與 BERT 還有必定的差距,兩個(gè)使命上都明顯要優(yōu)于 FNet 。

            image.png

            GLUE

            PoNet取得了76.80的AVG分?jǐn)?shù),達(dá)到了 BERT 在 GLUE 上的準(zhǔn)確率(80.21)的95.7%,相對(duì)來(lái)說(shuō)比 FNet 要好4.5%。這些性能比較與圖2中顯示的預(yù)練習(xí)準(zhǔn)確率一致。

            image.png

            長(zhǎng)文本使命

            咱們還評(píng)價(jià)了預(yù)練習(xí)的 PoNet 在四個(gè)長(zhǎng)文本分類(lèi)數(shù)據(jù)集上的性能。從表4能夠看出,PoNet-Base 在 HND 和 Arxiv 上優(yōu)于 BERT-Base,在 IMDb 和 Yelp-5 上的F1分?jǐn)?shù)達(dá)到了 BERT-Base 的99%。

            image.png

            融化分析

            下面的融化試驗(yàn)也證明晰每個(gè)組件的重要性。一起與 L_MN(MLM+NSP),L_OM(MLM) 也說(shuō)明晰預(yù)練習(xí)使命運(yùn)用 MLM+SSO 的必要性。

            image.png

            || 總結(jié)

            咱們提出了一個(gè)運(yùn)用多粒度的 Pooling 結(jié)構(gòu)來(lái)代替 attention 的網(wǎng)絡(luò)(PoNet),它能夠捕捉到不同層次的上下文信息,讓序列的 token 之間能夠得到有用的交互。試驗(yàn)表明,PoNet 既完成了有競(jìng)爭(zhēng)力的長(zhǎng)距離依賴(lài)性建模才能,又完成了強(qiáng)壯的搬遷學(xué)習(xí)才能,而且具有線性的時(shí)刻和顯存復(fù)雜度。


            || Future Work

            未來(lái)的作業(yè)包含進(jìn)一步優(yōu)化模型結(jié)構(gòu)和預(yù)練習(xí),以及將 PoNet 運(yùn)用于包含生成使命在內(nèi)的更廣泛的使命。咱們希望PoNet模型能夠?qū)μ骄扛咝У男蛄薪DP凸┙o一些啟示。