国产综合色产在线精品,国产欧美一区二区精品性色 ,国产精品美女久久久免费,国产精品久久久久精品a级,国产欧美日韩亚洲更新

您的位置:首頁 > 推薦 >

學(xué)完這個教程,小白也能構(gòu)建Transformer,DeepMind科學(xué)家推薦

2023-01-21 21:45:02 來源: 量子位

Pine發(fā)自凹非寺量子位|公眾號Qbit@I真正零門檻!小白都能輕松看懂的Transformer教程來了。在自然語言處理和計算機視覺領(lǐng)域,Transf

Pine 發(fā)自 凹非寺

量子位 | 公眾號 Qbit@I


(相關(guān)資料圖)

真正零門檻!小白都能輕松看懂的Transformer教程來了。

在自然語言處理和計算機視覺領(lǐng)域,Transformer先后替代了RNN、CNN的地位成為首選模型,最近爆火的ChatGPT也都是基于這個模型。

換言之,想進入機器學(xué)習(xí)的領(lǐng)域,就必須得懂Transformer。

這不,量子位就發(fā)現(xiàn)了一篇零基礎(chǔ)也能學(xué)的教程,作者是前微軟、Facebook首席數(shù)據(jù)科學(xué)家,也是MIT機械工程的碩博士,從視覺化矩陣乘法開始,帶你一步步入門。

DeepMind研究科學(xué)家@ndrew Trask也轉(zhuǎn)發(fā)評論道:

這是我至今見過最好的教程,它對入門者非常非常友好。

這條帖子也是掀起了一陣熱度,瀏覽量已經(jīng)有近30w。

網(wǎng)友們也紛紛在評論區(qū)作出“碼住”狀。

從視覺化矩陣乘法開始學(xué)

因為這是一個新手入門的教程,所以在正式學(xué)Transformer之前,會有很多介紹矩陣乘法和反向傳播的內(nèi)容。

并且在介紹的過程中,作者逐個添加學(xué)習(xí)Transforme所需要了解的概念,并加以解釋。

具體有多新手友好,我們先來淺看下這篇教程~

基礎(chǔ)概念解釋

首先,了解Transformer的第一步就是編碼,就是把所有的單詞轉(zhuǎn)換成數(shù)字,進而可以進行數(shù)學(xué)計算。

一般來說,將符號轉(zhuǎn)換為數(shù)字的有效方法是先對所有單詞符號分配數(shù)字,每個單詞符號都會對應(yīng)一個獨立的數(shù)字,然后單詞組成的句子便可以通過數(shù)字序列來表示了。

舉個簡單的例子,比如files=1、find=2和my=3。然后,句子“ Find my files”可以表示為數(shù)字序列[2,3,1]。

不過這里介紹的是另外一種方法,即獨熱編碼。

具體來說,就是將單詞符號轉(zhuǎn)換成一個數(shù)組,這個數(shù)組中只能有一個1,其他全為0。還是上面那個例子,用這種方式表示的話如下圖。

這樣一來,句子“Find my files”就變成了一維數(shù)組的序列,壓縮到一塊也就像是二維數(shù)組了。

接下來就要再來了解下點積和矩陣乘法了。

點積這里也就不再過多贅述,元素相乘再相加便可以了。

它有兩個作用,一個是用來度量兩個單詞之間的相似性,一個是顯示單詞的表示強度。

相似性很容易判別,一個單詞的獨熱矢量和自己的點積是1,和其他的點積為0.

至于表示強度,和一個能夠表示不同權(quán)重的值向量進行點乘便可以了。

矩陣乘法,看下面這幅圖便足矣。

從簡單的序列模型開始介紹

了解完這些基礎(chǔ)概念之后,就要步入正軌了,開始學(xué)習(xí)Transformer是如何處理命令的。

還是用例子來解釋,開發(fā)NLP計算機界面時,假設(shè)要處理3種不同的命令

Show me my directories please.(請給我看看我的目錄)

Show me my files please.(請給我看看我的檔案)

Show me my photos please.(請給我看看我的照片)

可以用下面這個流程圖(馬爾可夫鏈)來表示,箭頭上的數(shù)字表示下一個單詞出現(xiàn)的概率。

接下來解釋將馬爾可夫鏈轉(zhuǎn)換為矩陣形式了,如下圖。

每一列代表一個單詞,并且每一列中的數(shù)字代表這個單詞會出現(xiàn)的概率。

因為概率和總是為1,所以每行的數(shù)字相加都為1。

以my為例,要想知道它的下一個單詞的概率,可以創(chuàng)建一個my的獨熱向量,乘上面的轉(zhuǎn)移矩陣便能得出了

再然后,作者又詳細介紹了二階序列模型,帶跳躍的二階序列模型,掩碼。

至此,關(guān)于Transformer,已經(jīng)學(xué)到了最核心的部分,至少已經(jīng)了解了在解碼時,Transformer是如何做的。

不過了解Transformer工作的原理和重新建造Transformer模型之間還是有很大差距的,后者還得考慮到實際情況。

因此教程中還進一步展開,作了更大篇幅的學(xué)習(xí)教程,包括Transformer最重要的注意力機制。

換句話說,這個教程就是從最基礎(chǔ)的東西教我們重新構(gòu)建一個Transformer模型。

更加具體內(nèi)容就不在這里一一列出了,感興趣的朋友可以戳文末鏈接學(xué)習(xí)。

目錄先放在這里,可以根據(jù)自己的基礎(chǔ)知識選擇從哪個階段開始學(xué)起:

1、獨熱(one-hot)編碼2、點積3、矩陣乘法4、矩陣乘法查表5、一階序列模型6、二階序列模型7、帶跳躍的二階序列模型—-分割線—-(學(xué)完上面這些,就已經(jīng)把握住Transformer的精髓了,不過要想知道Transformer,還得往下看)8、矩陣乘法中的注意力9、二階矩陣乘法序列模型10、完成序列11、嵌入12、位置編碼13、解除嵌入14、softmax函數(shù)15、多頭注意力機制16、使用多頭注意力機制的原因17、重現(xiàn)單頭注意力機制18、多頭注意力塊之間的跳過連接19、橫向規(guī)范化(Layer normalization)20、多注意力層21、解碼器堆棧22、編碼器堆棧23、編碼器和解碼器棧之間的交叉注意塊—-又一個分割線—-(如果你學(xué)到這里,那說明Transformer你已經(jīng)掌握得差不多了,后面講的東西就是關(guān)于如何讓神經(jīng)網(wǎng)絡(luò)表現(xiàn)良好了)24、字節(jié)對編碼(?yte pair encoding)

作者介紹

?randon Rohrer,目前是Linkedin的一名機器學(xué)習(xí)工程師,曾先后在微軟,F(xiàn)acebook擔(dān)任首席數(shù)據(jù)科學(xué)家。

在Facebook工作期間,他建立了一種更精確的電網(wǎng)映射預(yù)測模型,以評估全球的中壓電網(wǎng)的連通性和路由。

寫教程算是?randon的一大愛好了,目前他所有的教程都不斷更新在他的新書《如何訓(xùn)練你的機器人》中,帖子的跨度從職業(yè)發(fā)展到各種編程工具的介紹。

傳送門:https://e2eml.school/transformers.html#softmax更多教程:https://e2eml.school/blog.html

— 完 —

量子位 Qbit@I · 頭條號簽約

關(guān)鍵詞:

精選 導(dǎo)讀

募資55億港元萬物云啟動招股 預(yù)計9月29日登陸港交所主板

萬科9月19日早間公告,萬物云當(dāng)日啟動招股,預(yù)計發(fā)行價介乎每股47 1港元至52 7港元,預(yù)計9月29日登陸港交所主板。按發(fā)行1 167億股計算,萬

發(fā)布時間: 2022-09-20 10:39
管理   2022-09-20

公募基金二季度持股情況曝光 隱形重倉股多為高端制造業(yè)

隨著半年報披露收官,公募基金二季度持股情況曝光。截至今年二季度末,公募基金全市場基金總數(shù)為9794只,資產(chǎn)凈值為269454 75億元,同比上

發(fā)布時間: 2022-09-02 10:45
資訊   2022-09-02

又有上市公司宣布變賣房產(chǎn) 上市公司粉飾財報動作不斷

再有上市公司宣布變賣房產(chǎn)。四川長虹25日稱,擬以1 66億元的轉(zhuǎn)讓底價掛牌出售31套房產(chǎn)。今年以來,A股公司出售房產(chǎn)不斷。根據(jù)記者不完全統(tǒng)

發(fā)布時間: 2022-08-26 09:44
資訊   2022-08-26

16天12連板大港股份回復(fù)深交所關(guān)注函 股份繼續(xù)沖高

回復(fù)交易所關(guān)注函后,大港股份繼續(xù)沖高。8月11日大港股份高開,隨后震蕩走高,接近收盤時觸及漲停,報20 2元 股。值得一提的是,在7月21日

發(fā)布時間: 2022-08-12 09:56
資訊   2022-08-12

萬家基金再添第二大股東 中泰證券擬受讓11%基金股權(quán)

7月13日,中泰證券發(fā)布公告,擬受讓齊河眾鑫投資有限公司(以下簡稱齊河眾鑫)所持有的萬家基金11%的股權(quán),交易雙方共同確定本次交易的標的資

發(fā)布時間: 2022-07-14 09:39
管理   2022-07-14

央行連續(xù)7日每天30億元逆回購 對債市影響如何?

央行12日再次開展了30億元逆回購操作,中標利率2 10%。這已是央行連續(xù)7日每天僅進行30億元的逆回購縮量投放,創(chuàng)下去年1月以來的最低操作規(guī)

發(fā)布時間: 2022-07-13 09:38
資訊   2022-07-13

美元指數(shù)創(chuàng)近20年新高 黃金期貨創(chuàng)出逾9個月新低

由于對美聯(lián)儲激進加息的擔(dān)憂,美元指數(shù)11日大漲近1%創(chuàng)出近20年新高。受此影響,歐美股市、大宗商品均走弱,而黃金期貨創(chuàng)出逾9個月新低。美

發(fā)布時間: 2022-07-13 09:36
資訊   2022-07-13

美股三大股指全線下跌 納斯達克跌幅創(chuàng)下記錄以來最大跌幅

今年上半年,美股持續(xù)回落。數(shù)據(jù)顯示,道瓊斯指數(shù)上半年下跌15 3%,納斯達克綜合指數(shù)下跌29 5%,標普500指數(shù)下跌20 6%。其中,納斯達克連續(xù)

發(fā)布時間: 2022-07-04 09:51
推薦   2022-07-04

融資客熱情回升 兩市融資余額月內(nèi)增加超344億元

近期A股走強,滬指6月以來上漲4%,融資客熱情明顯回升。數(shù)據(jù)顯示,截至6月16日,兩市融資余額1 479萬億元,月內(nèi)增加344 67億元,最近一個半

發(fā)布時間: 2022-06-20 09:41
資訊   2022-06-20

4個交易日凈買入超百億元 北向資金持續(xù)流入A股市場

北向資金凈流入態(tài)勢延續(xù)。繼6月15日凈買入133 59億元后,北向資金6月16日凈買入44 52億元。自5月27日至今,除6月13日以外,北向資金累計凈

發(fā)布時間: 2022-06-17 09:37
推薦   2022-06-17

熱門TAG

more
重磅突發(fā)!王思聰在上海打人?警方剛剛通報 女子隨手捐10元4個月后收到還款道謝 看到回復(fù)破防 國內(nèi)豬肉價格開啟新一輪周期?專家:國家調(diào)控政策正在起作用 彩電市場價格持續(xù)走低:50英寸千元輕松購還會降價嗎? 鶴崗中介談1.5萬全款買房:別沖動 詳情曝光系40年房齡的老房子價格自然便 穩(wěn)外貿(mào) 福建拓“新”途 福建也積極開辟國際物流新通道 這條名為BarMar的能源運輸路線以幫助緩解歐洲所面臨的能源危機 寧波銀行:聚焦主責(zé)主業(yè),更好服務(wù)實體經(jīng)濟 重磅利好!涉房企業(yè)A股融資審核放寬,“白名單”浮出水面 能源是經(jīng)濟發(fā)展的動力源泉 美國經(jīng)濟蕭條對汽車和電力市場的沖擊力有多 多頭醞釀更大爆發(fā)!美元有望再大漲近百點 廣西北部灣畔崛起國際大港 商企耕耘十年等來春暖花開時 中國A股半導(dǎo)體板塊周四大漲 十年時間增長超1200億元 2021年創(chuàng)造天津市進出口歷史最高紀錄 天津口岸完成進出口貿(mào)易值2381億美元 較2012年增長16.6% 深圳機場口岸通過發(fā)揮東南亞航線優(yōu)勢 不斷豐富進口水果品類 國際航線(含港澳臺)日均執(zhí)行客運航班量達143班次 創(chuàng)今年新高 待中吉烏鐵路建成后 將高效聯(lián)通中歐班列的中通道與南通道線路 中國與RCEP成員國經(jīng)過陸海新通道進出口總量52068標箱 國航已率先在空客、波音機型上開展可持續(xù)航空燃料應(yīng)用 中國制造業(yè)屢創(chuàng)奇跡 牢牢站穩(wěn)世界“C位” 今年新疆不斷加大能源增產(chǎn)增供力度 新疆煤炭產(chǎn)量增長31.1%、排全國第2位 陶悅?cè)河媱潎@大健康等產(chǎn)業(yè)進行增資擴產(chǎn) 光伏電站位于Kharsaa地區(qū) 是卡塔爾首個太陽能發(fā)電廠 過去十年,重慶工業(yè)增加值總額由2012年的4291.4億元提高至2021年的7888.7億元 2021年鹽湖化工產(chǎn)業(yè)實現(xiàn)產(chǎn)值331.8億元 增長46.2% 切入儲能賽道的消費電池頭部玩家德賽電池近兩日連續(xù)打板漲停 6個二線城市首套房貸款利率跌破4% 低至3.8% 倡議項目將由德國聯(lián)邦經(jīng)濟和氣候保護部的能源研究預(yù)算提供資金 2022年東亞峰會新能源論壇20日在昆明舉辦