TensorFlow で飯画像を判別する

TensorFlowで飯テロ対策をします。画像が飯なのかどうか判断したい。というわけで、以下の先人の記事を参考に飯画像2値分類器を作成します。

TensorFlowでアニメゆるゆりの制作会社を識別する

行なった環境

  • Windows 10 64bit
  • Python 3.5.2

下準備

なにはともあれデータセットが必要です。飯画像と「非」飯画像を用意し、データ整形を行います。

画像の取得

ImageNetから取得しました。詳しい取得方法は以前の記事を参考にしてください。ImageNetのID = n00021265 が飯画像です。非飯画像は、他のIDの画像を適当にピックアップして集めます。

画像の整形

画像を 64x64 の jpg画像に変換します。今回はImageMagickを使って一括変換しました。Windows版ImageMagickをインストールします。

画像ファイルの命名規則を以下のようにしました。連番ファイルですが、飯画像には 0_ を非飯画像には 1_ のプレフィックスを付けておきます。

飯画像 -> 0_001.jpg / 非飯画像 -> 1_001.jpg

以下のbatファイルを作成しました。変換前飯画像を org フォルダに格納し、空の dst フォルダを作成したうえで batファイルを実行すると dstフォルダに正方形にリサイズされた画像が出来上がります。同様に非飯画像も一括変換します。batファイル内の 0_ となっているところを 1_ に直して実行します。

@echo off
setlocal enabledelayedexpansion
cd /d %~dp0
set num=1
set pad=3
for %%i in (org\*.*) do (
set zeros=000000000!num!
set zeros=!zeros:~-%pad%!
echo !zeros!
call magick convert -resize "64x" -resize "x64<" -gravity "center" -crop "64x64+0+0" "%%i" dst\0_!zeros!.jpg
set /a num+=1
)
pause

出来上がるとこんな感じ。

データセット画像。うまそう。

画像リストファイルの作成

整形済みの飯画像と非飯画像をそれぞれ370枚できあがったので、学習用(train.txt)に280枚ずつ、テスト用(test.txt)に90枚ずつリスト化します。

こんな感じ。

リストファイル

画像ファイル名とラベル番号の間に半角スペースを入れます。ラベル番号は飯画像を 0 、非飯画像を 1 としました。

TensorFlow 環境のセットアップ

データセットもできたことなので、TensorFlow をインストールします。TensorFlow はGPU版を使用しました。GPU版TensorFlowのインストールは以下の記事が参考になります。なお、TensorFlow は Python 3.5.2 のバージョンでしか動かない模様。

Windows版TensorFlowのインストールメモ

pip install tensorflow-gpu
pip install jupyter matplotlib

次いで、画像データ読み込みに OpenCV を使用するのでそれもインストールします。以下のページから opencv_python‑3.2.0‑cp35‑cp35m‑win_amd64.whl をダウンロードします。

http://www.lfd.uci.edu/~gohlke/pythonlibs/#opencv

ダウンロードしたファイルと同じフォルダに移動し、以下を実行。

pip install opencv_python‑3.2.0‑cp35‑cp35m‑win_amd64.whl

学習用スクリプトの作成

先にコードを載せます。train.py というファイル名にしました。

# -*- coding: utf-8 -*-
import sys
import cv2
import numpy as np
import tensorflow as tf
import tensorflow.python.platform
import os
NUM_CLASSES = 2
IMAGE_SIZE = 28
IMAGE_PIXELS = IMAGE_SIZE*IMAGE_SIZE*3
flags = tf.app.flags
FLAGS = flags.FLAGS
flags.DEFINE_string('train', 'train.txt', 'File name of train data')
flags.DEFINE_string('test', 'test.txt', 'File name of train data')
flags.DEFINE_string('image_dir', 'data', 'Directory of images')
flags.DEFINE_string('train_dir', 'logs', 'Directory to put the training data.')
flags.DEFINE_integer('max_steps', 200, 'Number of steps to run trainer.')
flags.DEFINE_integer('batch_size', 10, 'Batch size'
'Must divide evenly into the dataset sizes.')
flags.DEFINE_float('learning_rate', 1e-5, 'Initial learning rate.')
def inference(images_placeholder, keep_prob):
""" 予測モデルを作成する関数
    引数: 
images_placeholder: 画像のplaceholder
keep_prob: dropout率のplace_holder
    返り値:
y_conv: 各クラスの確率(のようなもの)
"""
# 重みを標準偏差0.1の正規分布で初期化
def weight_variable(shape):
initial = tf.truncated_normal(shape, stddev=0.1)
return tf.Variable(initial)
    # バイアスを標準偏差0.1の正規分布で初期化
def bias_variable(shape):
initial = tf.constant(0.1, shape=shape)
return tf.Variable(initial)
    # 畳み込み層の作成
def conv2d(x, W):
return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')
    # プーリング層の作成
def max_pool_2x2(x):
return tf.nn.max_pool(x, ksize=[1, 2, 2, 1],
strides=[1, 2, 2, 1], padding='SAME')

# 入力を28x28x3に変形
x_image = tf.reshape(images_placeholder, [-1, 28, 28, 3])
    # 畳み込み層1の作成
with tf.name_scope('conv1') as scope:
W_conv1 = weight_variable([5, 5, 3, 32])
b_conv1 = bias_variable([32])
h_conv1 = tf.nn.relu(conv2d(x_image, W_conv1) + b_conv1)
tf.summary.histogram("wc1", W_conv1)

# プーリング層1の作成
with tf.name_scope('pool1') as scope:
h_pool1 = max_pool_2x2(h_conv1)

# 畳み込み層2の作成
with tf.name_scope('conv2') as scope:
W_conv2 = weight_variable([5, 5, 32, 64])
b_conv2 = bias_variable([64])
h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)
tf.summary.histogram("wc2", W_conv2)
    # プーリング層2の作成
with tf.name_scope('pool2') as scope:
h_pool2 = max_pool_2x2(h_conv2)
    # 全結合層1の作成
with tf.name_scope('fc1') as scope:
W_fc1 = weight_variable([7*7*64, 1024])
b_fc1 = bias_variable([1024])
h_pool2_flat = tf.reshape(h_pool2, [-1, 7*7*64])
h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1)
# dropoutの設定
h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)
    # 全結合層2の作成
with tf.name_scope('fc2') as scope:
W_fc2 = weight_variable([1024, NUM_CLASSES])
b_fc2 = bias_variable([NUM_CLASSES])
    # ソフトマックス関数による正規化
with tf.name_scope('softmax') as scope:
y_conv=tf.nn.softmax(tf.matmul(h_fc1_drop, W_fc2) + b_fc2)
    # 各ラベルの確率のようなものを返す
return y_conv
def loss(logits, labels):
""" lossを計算する関数
    引数:
logits: ロジットのtensor, float - [batch_size, NUM_CLASSES]
labels: ラベルのtensor, int32 - [batch_size, NUM_CLASSES]
    返り値:
cross_entropy: 交差エントロピーのtensor, float
    """
# 交差エントロピーの計算
cross_entropy = -tf.reduce_sum(labels*tf.log(logits))
#cross_entropy = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=labels, logits=logits))
# TensorBoardで表示するよう指定
tf.summary.scalar("cross_entropy", cross_entropy)
return cross_entropy

def training(loss, learning_rate):
""" 訓練のOpを定義する関数
    引数:
loss: 損失のtensor, loss()の結果
learning_rate: 学習係数
    返り値:
train_step: 訓練のOp
    """
train_step = tf.train.AdamOptimizer(learning_rate).minimize(loss)
return train_step

def accuracy(logits, labels):
""" 正解率(accuracy)を計算する関数
    引数: 
logits: inference()の結果
labels: ラベルのtensor, int32 - [batch_size, NUM_CLASSES]
    返り値:
accuracy: 正解率(float)
    """
correct_prediction = tf.equal(tf.argmax(logits, 1), tf.argmax(labels, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
tf.summary.scalar("accuracy", accuracy)
return accuracy
if __name__ == '__main__':
f = open(FLAGS.train, 'r')
# データを入れる配列
train_image = []
train_label = []
for line in f:
# 改行を除いてスペース区切りにする
line = line.rstrip()
l = line.split()
# データを読み込んで28x28に縮小
img = cv2.imread(FLAGS.image_dir + '/' + l[0])
img = cv2.resize(img, (28, 28))
# 一列にした後、0-1のfloat値にする
train_image.append(img.flatten().astype(np.float32)/255.0)
# ラベルを1-of-k方式で用意する
tmp = np.zeros(NUM_CLASSES)
tmp[int(l[1])] = 1
train_label.append(tmp)
# numpy形式に変換
train_image = np.asarray(train_image)
train_label = np.asarray(train_label)
f.close()
    f = open(FLAGS.test, 'r')
test_image = []
test_label = []
for line in f:
line = line.rstrip()
l = line.split()
img = cv2.imread(FLAGS.image_dir + '/' + l[0])
img = cv2.resize(img, (28, 28))
test_image.append(img.flatten().astype(np.float32)/255.0)
tmp = np.zeros(NUM_CLASSES)
tmp[int(l[1])] = 1
test_label.append(tmp)
test_image = np.asarray(test_image)
test_label = np.asarray(test_label)
f.close()
    with tf.Graph().as_default():
# 画像を入れる仮のTensor
images_placeholder = tf.placeholder("float", shape=(None, IMAGE_PIXELS))
# ラベルを入れる仮のTensor
labels_placeholder = tf.placeholder("float", shape=(None, NUM_CLASSES))
# dropout率を入れる仮のTensor
keep_prob = tf.placeholder("float")
# inference()を呼び出してモデルを作る
logits = inference(images_placeholder, keep_prob)
# loss()を呼び出して損失を計算
loss_value = loss(logits, labels_placeholder)
# training()を呼び出して訓練
train_op = training(loss_value, FLAGS.learning_rate)
# 精度の計算
acc = accuracy(logits, labels_placeholder)
# 保存の準備
saver = tf.train.Saver()
# Sessionの作成
sess = tf.Session()
# 変数の初期化
sess.run(tf.global_variables_initializer())
# TensorBoardで表示する値の設定
summary_op = tf.summary.merge_all()
summary_writer = tf.summary.FileWriter(FLAGS.train_dir, sess.graph)
        # 訓練の実行
for step in range(FLAGS.max_steps):
for i in range(int(len(train_image)/FLAGS.batch_size)):
# batch_size分の画像に対して訓練の実行
batch = FLAGS.batch_size*i
# feed_dictでplaceholderに入れるデータを指定する
sess.run(train_op, feed_dict={
images_placeholder: train_image[batch:batch+FLAGS.batch_size],
labels_placeholder: train_label[batch:batch+FLAGS.batch_size],
keep_prob: 0.5})
            # 1 step終わるたびに精度を計算する
train_accuracy = sess.run(acc, feed_dict={
images_placeholder: train_image,
labels_placeholder: train_label,
keep_prob: 1.0})
print("step %d, training accuracy %g"%(step, train_accuracy))
            # 1 step終わるたびにTensorBoardに表示する値を追加する
summary_str = sess.run(summary_op, feed_dict={
images_placeholder: train_image,
labels_placeholder: train_label,
keep_prob: 1.0})
summary_writer.add_summary(summary_str, step)
    # 訓練が終了したらテストデータに対する精度を表示
print("test accuracy %g"%sess.run(acc, feed_dict={
images_placeholder: test_image,
labels_placeholder: test_label,
keep_prob: 1.0}))
    # 最終的なモデルを保存
save_path = saver.save(sess, os.getcwd() + "\\model.ckpt")

最初に挙げた記事と少し違うところもありますが、本質的には変わりません。deprecated になった TensorFlowのメソッドを新しいものに書き換えたのと、Windowsでもモデルが保存できるようにしてあります。

TensorBoard の準備

TensorFlow には TensorBoard という学習過程を可視化する便利なツールが入っています。ブラウザで表示して使います。コマンドプロンプトに毎回コマンド打って起動するのがめんどくさいので、以下の簡単な bat ファイルを作成しておきます。これをダブルクリックすれば起動します。

@echo off
cd /d %~dp0
call tensorboard --logdir=logs

ここまで行なって以下のようなフォルダ構成になっています。

フォルダ構成

data フォルダに画像を格納してあります。空の logs フォルダを作成しておきます。これは、TensorFlow が使用する作業フォルダです。TensorBoard はこのなかのファイルを見て、学習状況を表示しています。

いよいよ実行

train.py を実行すると以下のようになりました。

python train.py
実行結果

最後にテストデータによる正答率が出ています。76%か~。まぁまぁ、かな。

TensorBoard で見た学習過程は以下。

accuracy:正答率とcross_entropy:損失関数の値の変化
各層の重み行列Wのヒストグラム

と、いうわけで飯テロ対策が1歩進んだわけなのです。以上、終わり。

Show your support

Clapping shows how much you appreciated ExA’s story.