ResNetをべた書きしてクラス化するまで

Yutaka_kun

Published in

LSC PSD

6 min readMar 12, 2020

[python][keras][ResNet][def][class][resblocks]

勉強のためにResNetの構造を分解していって、手書きしました。
ついでにclassも勉強したのでclass化もやります。
見ていけばわかりますが、初心者なのでものっそいネチネチ解説してあります。

完成版はここにあります。

そもそもResNetってなんやねん

ニューラルネットワーク(CNNなど)の精度を上げようとした場合、層を深くしていけば精度はある程度までは上がっていきます。しかしこれには1つ欠点があり、層が深くなればなるほど微分の回数も増え、伝播させたい情報が失われてしいます。
例えば、層を進むたびに微分が2倍になるとすると、、、、
10層目では 2¹⁰=1024 倍
20層目では 2²⁰= 1048576 倍
30層以上のものは言わずもがなです。

情報が伝播しやすいように畳み込み層を通るルートを飛び越えて次の層に情報を伝えるresidual（前の層の残り）を加えたものがResNetです。
ではそのルートを1つ1つ見ていきましょう。
ルートはResNet18で考えます。

あ、言い忘れてましたが、keras、使います。

入力からmaxpoolingまで

入力は224×224の3チャンネルを想定します。
Conv2D(filters=64, kernel_size=(7, 7), strides=(2, 2), padding=”same”,)
で畳み込みます。
padding=sameというのは畳み込み後の出力が同じになるようにkerasお兄さんが画像の周りを”０”で埋めてくれます。
「いや、224→112の半分になっとるやんけ」
と思われた方、今回はstride2で2マスずつフィルタを動かしているので、出力は半分になります。
もちろんstride1の場合は出力は224のままです。
0埋めしないと(224+2×padding–7)/2=109.5の出力になりややこしくなるのと、画像の端っこの情報が失われやすくなります。
畳み込みの詳しい説明はここのサイトがわかりやすい気がします。

batchnormalization関数で正規化した後、活性化関数reluを通します。

max poolingでは、同じようにゼロ埋めした後3×3のフィルターを2マスずつストライドさせているので出力サイズはさらに半分の56×56になります

conv2_x層

strideは1なのでこの層では特に出力の変化はなし。

※緑矢印のshortcutの位置

shortcutを接続する場所はbatchnormalizationの後がいいらしい。
shortcutの後にbatchnormalization(正則化)するとresblockの値とshortcutの値の両方とも正則化されていいように感じますが、実際にはshortcutの情報をbatchnormalizationが大きく変更してせっかく生の状態で持ってきた情報が失われてしまうかららしい。