TensorFlow系列專題（八）：七步帶你實現RNN循環神經網絡小示例

2018-11-16 00:02:43 人工智能遇見磐創

【前言】：在前面的內容裡，我們已經學習了循環神經網絡的基本結構和運算過程，這一小節裡，我們將用TensorFlow實現簡單的RNN，並且用來解決時序數據的預測問題，看一看RNN究竟能達到什麼樣的效果，具體又是如何實現的。

在這個演示項目裡，我們使用隨機生成的方式生成一個數據集（由0和1組成的二進制序列），然後人為的增加一些數據間的關係。最後我們把這個數據集放進RNN裡，讓RNN去學習其中的關係，實現二進制序列的預測。數據生成的方式如下：

循環生成規模為五十萬的數據集，每次產生的數據為0或1的概率均為0.5。如果連續生成了兩個1（或兩個0）的話，則下一個數據強制為0（或1）。

1. 我們首先導入需要的Python模塊：

 #!/usr/bin/python
 # -*- coding: UTF-8 -*-
 import numpy as np
 import tensorflow as tf
 import matplotlib.pyplot as plt
 from tensorflow.contrib import rnn

2. 定義一個Data類，用來產生數據：

class Data:
 def __init__(self, data_size, num_batch, batch_size, time_step):
 self.data_size = data_size # 數據集的大小
 self.batch_size = batch_size # 一個batch的大小
 self.num_batch = num_batch # batch的數目（num_batch=data_size//batch_size）
 self.time_step = time_step # RNN的時間步
 self.data_without_rel = [] # 保存隨機生成的數據，數據間沒有聯繫 

 self.data_with_rel = [] # 保存有時序關係的數據

3. 在構造方法"__init__"中，我們初始化了數據集的大小"data_size"、一個batch的大小"batch_size"、一個epoch中的batch數目"num_batch"以及RNN的時間步"time_step"。接下來我們定義一個"generate_data"方法：

def generate_data(self):
 # 隨機生成數據
 self.data_without_rel = np.array(np.random.choice(2, size=(self.data_size,)))
 
 for i in range(self.data_size):
 if self.data_without_rel[i-1] == 1 and self.data_without_rel[i-2] == 1:
 # 之前連續出現兩個1，當前數據設為0
 self.data_with_rel.append(0)
 continue
 elif self.data_without_rel[i-1] == 0 and self.data_without_rel[i-2] == 0:
 # 之前連續出現兩個0，當前數據設為1
 self.data_with_rel.append(1)
 continue
 # np.random.rand()產生的隨機數範圍：[0,1]
 else:
 if np.random.rand() >= 0.5:
 self.data_with_rel.append(1)
 else:
 self.data_with_rel.append(0)
 return self.data_without_rel, self.data_with_rel

在第11行代碼中，我們用了 "np.random.choice"函數生成的由0和1組成的長串數據。接下來我們用了一個for循環，在"data_without_rel"保存的數據的基礎上重新生成了一組數據，並保存在"data_with_rel"數組中。為了使生成的數據間具有一定的序列關係，我們使用了前面介紹的很簡單的數據生成方式：以"data_without_rel"中的數據為參照，如果出現了連續兩個1（或0）則生成一個0（或1），其它情況則以相等概率隨機生成0或1。

有了數據我們接下來要用RNN去學習這些數據，看看它能不能學習到我們產生這些數據時使用的策略，即數據間的聯繫。評判RNN是否學習到規律以及學習的效果如何的依據，是我們在第三章裡介紹過的交叉熵損失函數。根據我們生成數據的規則，如果RNN沒有學習到規則，那麼它預測正確的概率就是0.5，否則它預測正確的概率為：（在"data_without_rel"中，連續出現的兩個數字的組合為：00、01、10和11。00和11出現的總概率佔0.5，在這種情況下，如果RNN學習到了規律，那麼一定能預測出下一個數字，00對應1，11對應0。而如果出現的是01或10的話，RNN預測正確的概率就只有0.5，所以綜合起來就是0.75）。

根據交叉熵損失函數，在沒有學習到規律的時候，其交叉熵損失為：

loss = - (0.5 * np.log(0.5) + 0.5 * np.log(0.5)) = 0.6931471805599453

在學習到規律的時候，其交叉熵損失為：

Loss = -0.5*(0.5 * np.log(0.5) + np.log(0.5))

=-0.25 * (1 * np.log(1) ) - 0.25 * (1 * np.log(1))=0.34657359027997264

4. 我們定義"generate_epochs"方法處理生成的數據：

def generate_epochs(self):
 # 生成數據
 self.generate_data()
 
 data_x = np.zeros([self.num_batch, self.batch_size], dtype=np.int32) 

 data_y = np.zeros([self.num_batch, self.batch_size], dtype=np.int32)
 
 # 將數據劃分成num_batch組
 for i in range(self.num_batch):
 data_x[i] = self.data_without_rel[self.batch_size * i:self.batch_size * (i + 1)]
 data_y[i] = self.data_with_rel[self.batch_size * i:self.batch_size * (i + 1)]
 # 將每個batch的數據按time_step進行切分
 epoch_size = self.batch_size // self.time_step
 
 # 返回最終的數據
 for i in range(epoch_size):
 x = data_x[:, self.time_step * i:self.time_step * (i + 1)]
 y = data_y[:, self.time_step * i:self.time_step * (i + 1)]
 yield (x, y)

5. 接下來實現RNN部分：

class Model:
 def __init__(self, data_size, batch_size, time_step, state_size):
 self.data_size = data_size
 self.batch_size = batch_size
 self.num_batch = self.data_size // self.batch_size
 self.time_step = time_step
 self.state_size = state_size
 
 # 輸入數據的佔位符
 self.x = tf.placeholder(tf.int32, [self.num_batch, self.time_step], name='input_placeholder')
 self.y = tf.placeholder(tf.int32, [self.num_batch, self.time_step], name='labels_placeholder')
 
 # 記憶單元的佔位符
 self.init_state = tf.zeros([self.num_batch, self.state_size])
 # 將輸入數據進行one-hot編碼
 self.rnn_inputs = tf.one_hot(self.x, 2)
 
 # 隱藏層的權重矩陣和偏置項
 self.W = tf.get_variable('W', [self.state_size, 2])
 self.b = tf.get_variable('b', [2], initializer=tf.constant_initializer(0.0))
 
 # RNN隱藏層的輸出
 self.rnn_outputs, self.final_state = self.model() 

 
 # 計算輸出層的輸出
 logits = tf.reshape( tf.matmul(tf.reshape(self.rnn_outputs, [-1, self.state_size]), self.W) + self.b, [self.num_batch, self.time_step, 2])
 
 self.losses = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=self.y, logits=logits)
 self.total_loss = tf.reduce_mean(self.losses)
 self.train_step = tf.train.AdagradOptimizer(0.1).minimize(self.total_loss)

6. 定義RNN模型：

 def model(self):
 cell = rnn.BasicRNNCell(self.state_size)
 rnn_outputs, final_state = tf.nn.dynamic_rnn(cell, self.rnn_inputs,
 initial_state=self.init_state)
 return rnn_outputs, final_state

這裡我們使用了"dynamic_rnn"，因此每次會同時處理所有batch的第一組數據，總共處理的次數為：batch_size / time_step。

 def train(self):
 with tf.Session() as sess:
 sess.run(tf.global_variables_initializer())
 training_losses = []
 d = Data(self.data_size, self.num_batch, self.batch_size, self.time_step)
 training_loss = 0
 training_state = np.zeros((self.num_batch, self.state_size))
 for step, (X, Y) in enumerate(d.generate_epoch()):
 tr_losses, training_loss_, training_state, _ = \
 sess.run([self.losses, self.total_loss, self.final_state, self.train_step],
 feed_dict={self.x: X, self.y: Y, self.init_state: training_state})
 training_loss += training_loss_
 if step % 20 == 0 and step > 0:
 training_losses.append(training_loss/20)
 training_loss = 0
 return training_losses

7. 到這裡，我們已經實現了整個RNN模型，接下來初始化相關數據，看看RNN的學習效果如何：

 if __name__ == '__main__':
 data_size = 500000
 batch_size = 2000
 time_step = 5
 state_size = 6
 
 m = Model(data_size, batch_size, time_step, state_size)
 training_losses = m.train()
 plt.plot(training_losses)
 plt.show()

定義數據集的大小為500000，每個batch的大小為2000，RNN的"時間步"設為5，隱藏層的神經元數目為6。將訓練過程中的loss可視化，結果如下圖中的左側圖像所示：

圖1 二進制序列數據訓練的loss曲線

從左側loss曲線可以看到，loss最終穩定在了0.35左右，這與我們之前的計算結果一致，說明RNN學習到了序列數據中的規則。右側的loss曲線是在調整了序列關係的時間間隔後（此時的time_step過小，導致RNN無法學習到序列數據的規則）的結果，此時loss穩定在0.69左右，與之前的計算也吻合。

下一篇，我們將介紹幾種常見的RNN循環神經網絡結構以及部分代碼示例。

對深度學習感興趣，熱愛Tensorflow的小夥伴，歡迎關注我們的網站http://www.panchuang.net 我們的公眾號：磐創AI。

分享到:

閱讀更多 人工智能遇見磐創 的文章

關鍵字: Python 人工智能技術

神經網絡——分類算法

C++核心準則R.5: 範圍對象不要在堆內存上構建

過程FMEA步驟四：失效分析（一）

關鍵支撐阻力位的有效性

gRPC java 示例

點雲分類框架；多模式Transformer；神經網絡；有序神經元等

03.04 點雲分類框架；多模式Transformer；神經網絡；有序神經元等

React 基礎：派生 state 的“錯誤使用”示例

leetcode 26、刪除排序數組中的重複項

移動端圖片上傳兩大問題：圖片尺寸過大和圖片方向不對

「Access示例」計算時間數據

Vue開發小技巧

「神經網絡」通俗易懂的激活函數

Vue3和Vue2 比對看看有哪些不同的地方

十分鐘學會XLOOKUP函數，跟加班說goodbye

AWS動態擴容卷的大小

LeetCode 第 20 號問題：有效的括號

Vue表單校驗插件Vuerify使用詳細教程及示例

Vuerify表單校驗插件使用詳細教程

PHP寫人工智能實例，簡單實現「第2篇-神經網絡」

微信小程序視圖層WXS

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"