machine-learning - 卷積神經網路教學 - 卷積運算




深層信念網絡與卷積神經網絡 (2)

我是神經網絡領域的新手,我想知道Deep Belief Networks和Convolutional Networks之間的區別。 還有,深度卷積網絡是深信仰和卷積神經網絡的結合嗎?

這是我到現在為止所收集到的。 如果我錯了,請糾正我。

對於圖像分類問題, Deep Belief網絡有許多層,每個層都使用貪婪的分層策略進行訓練。 例如,如果我的圖像大小是50 x 50,我想要一個4層的深度網絡

  1. 輸入層
  2. 隱藏層1(HL1)
  3. 隱藏層2(HL2)
  4. 輸出層

我的輸入層將有50 x 50 = 2500個神經元,HL1 = 1000個神經元(比如說),HL2 = 100個神經元(比如說)和輸出層= 10個神經元,以便訓練輸入層和HL1之間的權重(W1),I使用AutoEncoder(2500 - 1000 - 2500)並學習大小為2500 x 1000的W1(這是無監督學習)。 然後我通過第一個隱藏層向前饋送所有圖像以獲得一組特徵,然後使用另一個自動編碼器(1000 - 100 - 1000)來獲得下一組特徵,最後使用softmax層(100 - 10)進行分類。 (僅學習最後一層的權重(HL2-作為softmax層的輸出)是監督學習)。

(我可以使用RBM代替自動編碼器)。

如果使用卷積神經網絡解決了同樣的問題,那麼對於50x50輸入圖像,我將僅使用7 x 7個補丁開發網絡(比方說)。 我的圖層會是

  1. 輸入層(7 x 7 = 49個神經元)
  2. HL1(25個不同特徵的25個神經元) - (卷積層)
  3. 匯集層
  4. 輸出層(Softmax)

為了學習權重,我從尺寸為50 x 50的圖像中取出7 x 7個補丁,並通過卷積層向前饋送,因此我將有25個不同的特徵映射,每個都有大小(50 - 7 + 1)x(50 - 7) + 1)= 44 x 44。

然後我使用一個11x11的窗口用於匯集手,因此獲得25個大小(4 x 4)的特徵映射作為匯集層的輸出。 我使用這些功能圖進行分類。

在學習權重時,我不像深度信念網絡(無監督學習)那樣使用分層策略,而是使用有監督的學習並同時學習所有層的權重。 這是正確的還是有其他方法來學習權重?

我所理解的是正確的嗎?

因此,如果我想使用DBN進行圖像分類,我應該將所有圖像調整為特定大小(比如200x200)並在輸入層中放置那麼多神經元,而在CNN的情況下,我只訓練一個較小的補丁。輸入(比如尺寸為200x200的圖像為10 x 10)並將學習的權重卷積在整個圖像上?

DBN提供的結果是否比CNN更好,還是純粹依賴於數據集?

謝謝。


一般來說,DBN是堆疊受限玻爾茲曼機器(RBM)的生成神經網絡。 您可以將RBM視為生成自動編碼器; 如果你想要一個深刻的信念網你應該堆疊RBM而不是普通的自動編碼器,因為Hinton和他的學生Yeh證明堆疊RBM會導致sigmoid信仰網。

在諸如MNIST的基準計算機視覺數據集的當前文獻中,卷積神經網絡本身比DBN表現得更好。 如果數據集不是計算機視覺數據集,那麼DBN絕對可以表現得更好。 理論上,DBN應該是最好的模型,但目前很難準確估計聯合概率。 您可能對Lee et。感興趣。 al's(2009)關於卷積深度信念網絡的研究,該網絡希望將兩者結合起來。


我會嘗試通過學習鞋來解釋這種情況。

如果你使用DBN來學習這些圖像,這將是你的學習算法中會發生的壞事

  • 不同的地方會有鞋子。

  • 所有神經元都會嘗試不僅學習鞋子,還會學習鞋子在圖像中的位置,因為它不會在重量內部具有“局部圖像補丁”的概念。

  • 如果所有圖像都通過大小,平移和旋轉對齊,DBN是有意義的。

卷積網絡的概念是,有一個稱為權重共享的概念。 如果我試圖擴展這個'權重分享'的概念

  • 首先你看了7x7補丁,並根據你的例子 - 作為第一層中3個神經元的例子,你可以說他們學習了鞋子的“前”,“後下”和“後上”部分,因為這些對所有鞋子的7x7補丁看起來都很相似。

    • 通常,這個想法是讓一個接一個地有多個卷積層來學習

      • 第一層中的線條/邊緣,
      • 弧形,第二層的角落,
      • 更高層次的更高概念,如鞋前,眼中的臉,車輪或矩形錐形三角形作為原始但仍然是先前層輸出的組合。
    • 你可以把這3種不同的東西想像成3種不同的神經元。 當圖像的某些部分出現鞋子時,圖像中的這些區域/神經元將會發射。

    • 池化將保護您的高級激活,同時對圖像進行二次採樣並創建一個低維空間,使計算更容易,更可行。

    • 所以在最後一層,當你看到你的25X4x4,換句話說就是400維向量時,如果圖片中的某個鞋子你的'鞋神經元'將是活躍的,而非鞋神經元將接近於零。

    • 並且要了解哪些神經元適用於鞋子以及哪些神經元不是你將把400維向量放到另一個有監督的分類器(這可以是多類SVM或者你說的軟最大層)

我可以建議你一瞥福島1980年的論文,了解我試圖談論的翻譯不變性和線 - >弧 - >半圓 - >鞋前 - >鞋子的想法( http://www.cs.princeton.edu/courses/archive/spr08/cos598B/Readings/Fukushima1980.pdf )。 即使只是查看論文中的圖像也會給你一些想法。





autoencoder