如何用 CNN 玩轉 AlphaGo 版的五子棋?

出品 | CSDN(ID:CSDNnews)

近幾年來,AI在遊戲方面的發展如火如荼,尤其是自從阿法狗AI圍棋戰勝圍棋之後,更是引起了AI發展的狂潮,同時也引起了很多AI遊戲的應用與深化發展。其實遊戲中的AI有著非常悠久的歷史,相當多的遊戲都是圍繞著對抗“敵人”展開,而這個“敵人”,就是AI,其中包含一些行為方式固定沒有一丁點變化的低級AI,也有一些引入隨機因素稍微高級一點的AI,不過這裡的AI本質上是一段固定的程序腳本,如果玩家掌握到其中的規律,遊戲性就會瞬間降低。

如何用 CNN 玩转 AlphaGo 版的五子棋?

而深度學習的AI版本卻是不同,他有著多層位的參數與多方向的選擇,拓展了其中AI的智能性,讓玩家找到其中的規律性變得基本不可能,這也是深度學習的重要意義之一。今天,我們就將利用CNN實現智能五子棋。

如何用 CNN 玩转 AlphaGo 版的五子棋?

實驗前的準備

首先我們使用的python版本是3.6.5。所測試的系統有windows10,windows7,Linux系統以及蘋果系統。從這點也可以看出python多平臺和多拓展性、易於遷移的優點。

所使用的的python庫有tkinter,其目的是用來規劃棋盤佈局,實現下棋功能;SGFfile用來讀取棋譜和加載訓練模型;os庫用來讀取和存儲本地文件;TensorFlow庫用來建立CNN網絡模型以及訓練等事項。

如何用 CNN 玩转 AlphaGo 版的五子棋?

棋盤的建立

1、初始化棋盤:

其中各參數設定意義如下:初始化:someoneWin:標識是否有人贏了;humanChessed:人類玩家是否下了;IsStart:是否開始遊戲了;player:玩家是哪一方;playmethod:模式,和robot下棋,還是和ai下棋;bla_start_pos:黑棋開局時下在正中間的位置;bla_chessed:保存黑棋已經下過的棋子;whi_chessed:保存白棋已經下過的棋子;board:棋盤;window:窗口;var:用於標記選擇玩家顏色的一個變量;var1:用於標記選擇robot或者ai的一個變量;can:畫布,用於繪出棋盤;net_board:棋盤的點信息;robot:機器人;sgf:處理棋譜;cnn:cnnc神經網絡。

其中代碼如下:

<code>def __init__(self):/<code><code> self.someoneWin = False/<code><code> self.humanChessed = False/<code><code> self.IsStart = False/<code><code> self.player = 0/<code><code> self.playmethod = 0/<code><code> self.bla_start_pos = [235, 235]/<code><code> self.whi_chessed = /<code><code> self.bla_chessed = /<code><code> self.board = self.init_board/<code><code> self.window = Tk/<code><code> self.var = IntVar/<code><code> self.var.set(0)/<code><code> self.var1 = IntVar/<code><code> self.var1.set(0)/<code><code> self.window.title("myGoBang")/<code><code> self.window.geometry("600x470+80+80")/<code><code> self.window.resizable(0, 0)/<code><code> self.can = Canvas(self.window, bg="#EEE8AC", width=470, height=470)/<code><code> self.draw_board/<code><code> self.can.grid(row=0, column=0)/<code><code> self.net_board = self.get_net_board/<code><code> self.robot = Robot(self.board)/<code><code> self.sgf = SGFflie/<code><code> self.cnn = myCNN/<code><code> self.cnn.restore_save/<code><code> def init_board(self):/<code><code> """初始化棋盤"""/<code><code> list1 = [[-1]*15 for i in range(15)]/<code><code> return list1/<code>

2、棋盤佈局:

其主要功能就是畫出棋盤和棋子。具體代碼如下:

<code>def draw_board(self):/<code><code> """畫出棋盤"""/<code><code> for row in range(15):/<code><code> if row == 0 or row == 14:/<code><code> self.can.create_line((25, 25 + row * 30), (445, 25 + row * 30), width=2)/<code><code> else:/<code><code> self.can.create_line((25, 25 + row * 30), (445, 25 + row * 30), width=1)/<code><code> for col in range(15):/<code><code> if col == 0 or col == 14:/<code><code> self.can.create_line((25 + col * 30, 25), (25 + col * 30, 445), width=2)/<code><code> else:/<code><code> self.can.create_line((25 + col * 30, 25), (25 + col * 30, 445), width=1)/<code><code> self.can.create_oval(112, 112, 118, 118, fill="black")/<code><code> self.can.create_oval(352, 112, 358, 118, fill="black")/<code><code> self.can.create_oval(112, 352, 118, 358, fill="black")/<code><code> self.can.create_oval(232, 232, 238, 238, fill="black")/<code><code> self.can.create_oval(352, 352, 358, 358, fill="black")/<code><code>def draw_chessed(self):/<code><code> """在棋盤中畫出已經下過的棋子"""/<code><code> if len(self.whi_chessed) != 0:/<code><code> for tmp in self.whi_chessed:/<code><code> oval = pos_to_draw(*tmp[0:2])/<code><code> self.can.create_oval(oval, fill="white")/<code><code> if len(self.bla_chessed) != 0:/<code><code> for tmp in self.bla_chessed:/<code><code> oval = pos_to_draw(*tmp[0:2])/<code><code> self.can.create_oval(oval, fill="black")/<code><code> def draw_a_chess(self, x, y, player=None):/<code><code> """在棋盤中畫一個棋子"""/<code><code> _x, _y = pos_in_qiju(x, y)/<code><code> oval = pos_to_draw(x, y)/<code><code> if player == 0:/<code><code> self.can.create_oval(oval, fill="black")/<code><code> self.bla_chessed.append([x, y, 0])/<code><code> self.board[_x][_y] = 1/<code><code> elif player == 1:/<code><code> self.can.create_oval(oval, fill="white")/<code><code> self.whi_chessed.append([x, y, 1])/<code><code> self.board[_x][_y] = 0/<code><code> else:/<code><code> print(AttributeError("請選擇棋手"))/<code><code> return/<code>

3、判斷勝負條件:

根據是否是五子連在一線判斷輸贏。

<code>def have_five(self, chessed):/<code><code> """檢測是否存在連五了"""/<code><code> if len(chessed) == 0:/<code><code> return False/<code><code> for row in range(15):/<code><code> for col in range(15):/<code><code> x = 25 + row * 30/<code><code> y = 25 + col * 30/<code><code> if self.check_chessed((x, y), chessed) == True and \\/<code><code> self.check_chessed((x, y + 30), chessed) == True and \\/<code><code> self.check_chessed((x, y + 60), chessed) == True and \\/<code><code> self.check_chessed((x, y + 90), chessed) == True and \\/<code><code> self.check_chessed((x, y + 120), chessed) == True:/<code><code> return True/<code><code> elif self.check_chessed((x, y), chessed) == True and \\/<code><code> self.check_chessed((x + 30, y), chessed) == True and \\/<code><code> self.check_chessed((x + 60, y), chessed) == True and \\/<code><code> self.check_chessed((x + 90, y), chessed) == True and \\/<code><code> self.check_chessed((x + 120, y), chessed) == True:/<code><code> return True/<code><code> elif self.check_chessed((x, y), chessed) == True and \\/<code><code> self.check_chessed((x + 30, y + 30), chessed) == True and \\/<code><code> self.check_chessed((x + 60, y + 60), chessed) == True and \\/<code><code> self.check_chessed((x + 90, y + 90), chessed) == True and \\/<code><code> self.check_chessed((x + 120, y + 120), chessed) == True:/<code><code> return True/<code><code> elif self.check_chessed((x, y), chessed) == True and \\/<code><code> self.check_chessed((x + 30, y - 30), chessed) == True and \\/<code><code> self.check_chessed((x + 60, y - 60), chessed) == True and \\/<code><code> self.check_chessed((x + 90, y - 90), chessed) == True and \\/<code><code> self.check_chessed((x + 120, y - 120), chessed) == True:/<code><code> return True/<code><code> else:/<code><code> pass/<code><code> return False/<code><code> def check_win(self):/<code><code> """檢測是否有人贏了"""/<code><code> if self.have_five(self.whi_chessed) == True:/<code><code> label = Label(self.window, text="White Win!", background='#FFF8DC', font=("宋體", 15, "bold"))/<code><code> label.place(relx=0, rely=0, x=480, y=40)/<code><code> return True/<code><code> elif self.have_five(self.bla_chessed) == True:/<code><code> label = Label(self.window, text="Black Win!", background='#FFF8DC', font=("宋體", 15, "bold"))/<code><code> label.place(relx=0, rely=0, x=480, y=40)/<code><code> return True/<code><code> else:/<code><code> return False/<code>

得到的UI界面如下:

如何用 CNN 玩转 AlphaGo 版的五子棋?如何用 CNN 玩转 AlphaGo 版的五子棋?

深度學習建模

1、初始化神經網絡:

其中第一層和第二層為卷積層,第四層為全連接層,接著緊接著連接池化和softmax。和一般的CNN網絡基本無異。基本參數見代碼,如下:

<code>def __init__(self):/<code><code> '''初始化神經網絡'''/<code><code> self.sess = tf.InteractiveSession/<code><code> # paras/<code><code> self.W_conv1 = self.weight_varible([5, 5, 1, 32])/<code><code> self.b_conv1 = self.bias_variable([32])/<code><code> # conv layer-1/<code><code> self.x = tf.placeholder(tf.float32, [None, 225])/<code><code> self.y = tf.placeholder(tf.float32, [None, 225])/<code><code> self.x_image = tf.reshape(self.x, [-1, 15, 15, 1])/<code><code> self.h_conv1 = tf.nn.relu(self.conv2d(self.x_image, self.W_conv1) + self.b_conv1)/<code><code> self.h_pool1 = self.max_pool_2x2(self.h_conv1)/<code><code> # conv layer-2/<code><code> self.W_conv2 = self.weight_varible([5, 5, 32, 64])/<code><code> self.b_conv2 = self.bias_variable([64])/<code><code> self.h_conv2 = tf.nn.relu(self.conv2d(self.h_pool1, self.W_conv2) + self.b_conv2)/<code><code> self.h_pool2 = self.max_pool_2x2(self.h_conv2)/<code><code> # full connection/<code><code> self.W_fc1 = self.weight_varible([4 * 4 * 64, 1024])/<code><code> self.b_fc1 = self.bias_variable([1024])/<code><code> self.h_pool2_flat = tf.reshape(self.h_pool2, [-1, 4 * 4 * 64])/<code><code> self.h_fc1 = tf.nn.relu(tf.matmul(self.h_pool2_flat, self.W_fc1) + self.b_fc1)/<code><code> # dropout/<code><code> self.keep_prob = tf.placeholder(tf.float32)/<code><code> self.h_fc1_drop = tf.nn.dropout(self.h_fc1, self.keep_prob)/<code><code> # output layer: softmax/<code><code> self.W_fc2 = self.weight_varible([1024, 225])/<code><code> self.b_fc2 = self.bias_variable([225])/<code><code> self.y_conv = tf.nn.softmax(tf.matmul(self.h_fc1_drop, self.W_fc2) + self.b_fc2)/<code><code> # model training/<code><code> self.cross_entropy = -tf.reduce_sum(self.y * tf.log(self.y_conv))/<code><code> self.train_step = tf.train.AdamOptimizer(1e-3).minimize(self.cross_entropy)/<code><code> self.correct_prediction = tf.equal(tf.argmax(self.y_conv, 1), tf.argmax(self.y, 1))/<code><code> self.accuracy = tf.reduce_mean(tf.cast(self.correct_prediction, tf.float32))/<code><code> self.saver = tf.train.Saver/<code><code> init = tf.global_variables_initializer # 不存在就初始化變量/<code><code> self.sess.run(init)/<code><code> def weight_varible(self, shape):/<code><code> '''權重變量'''/<code><code> initial = tf.truncated_normal(shape, stddev=0.1)/<code><code> return tf.Variable(initial)/<code><code> def bias_variable(self, shape):/<code><code> '''偏置變量'''/<code><code> initial = tf.constant(0.1, shape=shape)/<code><code> return tf.Variable(initial)/<code><code> def conv2d(self, x, W):/<code><code> '''卷積核'''/<code><code> return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')/<code><code> def max_pool_2x2(self, x):/<code><code> '''池化核'''/<code><code> return tf.nn.max_pool(x, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')/<code>

2、保存和讀取模型:

<code>def restore_save(self, method=1):/<code><code> '''保存和讀取模型'''/<code><code> if method == 1:/<code><code> self.saver.restore(self.sess, 'save\\model.ckpt')/<code><code> #print("已讀取數據")/<code><code> elif method == 0:/<code><code> saver = tf.train.Saver(write_version=tf.train.SaverDef.V2)/<code><code> saver.save(self.sess, 'save\\model.ckpt')/<code><code> #print('已保存')/<code>

3、建立預測函數和訓練函數:

<code>def predition(self, qiju):/<code><code> '''預測函數'''/<code><code> _qiju = self.createdataformqiju(qiju)/<code><code> pre = self.sess.run(tf.argmax(self.y_conv, 1), feed_dict={self.x: _qiju, self.keep_prob: 1.0})/<code><code> point = [0, 0]/<code><code> l = pre[0]/<code><code> for i in range(15):/<code><code> if ((i + 1) * 15) > l:/<code><code> point[0] = int(i*30 + 25)/<code><code> point[1] = int((l - i * 15) * 30 + 25)/<code><code> break/<code><code> return point/<code><code> def train(self, qiju):/<code><code> '''訓練函數'''/<code><code> sgf = SGFflie/<code><code> _x, _y = sgf.createTraindataFromqipu(qiju)/<code><code> for i in range(10):/<code><code> self.sess.run(self.train_step, feed_dict={/<code><code> self.x: _x,/<code><code> self.y: _y/<code><code> })/<code><code> self.restore_save(method=0)/<code><code> def train1(self, x, y):/<code><code> '''另一個訓練函數'''/<code><code> for i in range(100):/<code><code> self.sess.run(self.train_step, feed_dict={/<code><code> self.x: x,/<code><code> self.y: y,/<code><code> self.keep_prob: 0.5/<code><code> })/<code><code> print('訓練好了一次')/<code><code> #self.restore_save(method=0)/<code>

4、生成數據:

<code>def createdataformqiju(self, qiju):/<code><code> '''生成數據'''/<code><code> data = /<code><code> tmp = /<code><code> for row in qiju:/<code><code> for point in row:/<code><code> if point == -1:/<code><code> tmp.append(0.0)/<code><code> elif point == 0:/<code><code> tmp.append(2.0)/<code><code> elif point == 1:/<code><code> tmp.append(1.0)/<code><code> data.append(tmp)/<code><code> return data/<code>

其中此處CNN在棋盤應用和圖像識別的不同之處在於,圖像識別加載的參數來自於圖像本身的像素值作為訓練的參數,而此處訓練的參數則是自定義的棋盤棋譜參數,比如說棋盤左上角的位置參數等等各個位置參數都是預先設定好的,通過加載棋譜即可以讓電腦知道此時黑白棋子在哪個位置。然後通過加載各個位置以及勝負情況進行判斷,最終電腦加載模型即可預測可能勝利的下棋位置,達到智能下棋效果。

最終效果:

如何用 CNN 玩转 AlphaGo 版的五子棋?

作者簡介:李秋鍵,CSDN 博客專家,CSDN達人課作者。碩士在讀於中國礦業大學,開發有安卓武俠遊戲一部,VIP視頻解析,文意轉換寫作機器人等項目,發表論文若干,多次高數競賽獲獎等等。


分享到:


相關文章: