機器學習實戰：應用ANN預測客戶解約

互聯網技能圖譜

2018-06-18 00:03:33

0x00 人工神經網絡介紹

人工神經網絡（Artificial Neural Network，即ANN ），是20世紀80 年代以來人工智能領域興起的研究熱點。它從信息處理角度對人腦神經元網絡進行抽象，建立某種簡單模型，按不同的連接方式組成不同的網絡。在工程與學術界也常直接簡稱為神經網絡或類神經網絡。神經網絡是一種運算模型，由大量的節點（或稱神經元）之間相互連接構成。每個節點代表一種特定的輸出函數，稱為激活函數（activation function）。每兩個節點間的連接都代表一個對於通過該連接信號的加權值，稱之為權重，這相當於人工神經網絡的記憶。網絡的輸出則依網絡的連接方式，權重值和激勵函數的不同而不同。而網絡自身通常都是對自然界某種算法或者函數的逼近，也可能是對一種邏輯策略的表達。

0x01 基礎知識準備

本文需要讀者瞭解以下內容：

激活函數ANN的工作原理ANN的學習原理梯度下降隨機梯度下降前向網絡反饋網絡

對基礎知識瞭解不太紮實的讀者也不用擔心，頭條號後續會補充基礎知識的相關文章。

0x02 環境搭建（Windows）

1、安裝Anaconda，具體步驟請參考頭條號文章《》

2、打開Anaconda Prompt

3、執行如下命令創建虛擬環境

conda create -n tensorflow python=3.5 anaconda

注意：

如果出現錯誤The path 'vcruntime140.dll' specified in the package manifest cannot be found.

說明是沒有安裝vs2015，安裝vs2015即可解決

4、激活虛擬環境

activate tensorflow

5、安裝Theano、TensorFlow、Keras

conda install theano

conda install mingw libpython

pip install tensorflow

pip install keras

6、更新所有軟件到最新版本

conda update --all

7、運行 Spyder：

spyder

0x03 問題描述

現有一個包含10000條銀行客戶數據的數據集，包含銀行客戶的一些基本信息，如：客戶ID，姓名，信用積分，國家，性別，年齡，與銀行簽約時長，資產，產品數，是否有信用卡，是否活躍，年薪和是否已經解約（也就是拋棄了這家銀行），所有數據都是獨立的。目前需要根據此數據集預測哪些客戶傾向與這家銀行解約，這樣可以達到提前對這些客戶做相應措施的目的。要數據集的朋友請看評論。

如下圖所示，exited為1表示已解約，exited為0表示未解約

0x04 創建ANN模型

創建ANN模型分為兩部分，第一部分為數據處理，第二部分為創建ANN模型。

本文問題為分類問題，我們需要篩選能夠影響客戶去留的輸入數據，和客戶留下或者離開的輸出數據。

數據處理步驟如下：

1、導入需要的庫

在spyder左側的編輯框輸入以下內容，並按control+enter執行它們

import numpy as np

import matplotlib.pyplot as plt

import pandas as pd

2、導入數據集

執行下面代碼

dataset = pd.read_csv('Churn_Modelling.csv')

X = dataset.iloc[:, 3:13].values

y = dataset.iloc[:, 13].values

dataset，X，y變量分別為：

dataset

3、將分類變量列轉換成二進制數。

執行如下語句：

from sklearn.preprocessing import LabelEncoder, OneHotEncoder

labelencoder_X_1 = LabelEncoder()

X[:, 1] = labelencoder_X_1.fit_transform(X[:, 1])

labelencoder_X_2 = LabelEncoder()

X[:, 2] = labelencoder_X_2.fit_transform(X[:, 2])

onehotencoder = OneHotEncoder(categorical_features = [1])

X = onehotencoder.fit_transform(X).toarray()

X = X[:, 1:]

其中涉及到了OneHot編碼的知識。簡單來說就是將每種分類用二進制的一位表示，是哪種分類哪一位就是1，其它位就是0。

執行之後的X如下圖所示：

3、將數據集分為訓練集和測試集

執行下面的代碼：

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

4、將數據進行特徵縮放

from sklearn.preprocessing import StandardScaler

sc = StandardScaler()

X_train = sc.fit_transform(X_train)

X_test = sc.transform(X_test)

創建ANN模型步驟如下：

5、導入Keras庫

import keras

from keras.models import Sequential

from keras.layers import Dense

6、初始化ANN

classifier = Sequential()

7、增加輸入層和第一個隱含層

classifier.add(Dense(units = 6, kernel_initializer = 'uniform', activation = 'relu', input_dim = 11))

8、增加第二個隱含層

classifier.add(Dense(units = 6, kernel_initializer = 'uniform', activation = 'relu'))

9、增加輸出層

classifier.add(Dense(units = 1, kernel_initializer = 'uniform', activation = 'sigmoid'))

10、編譯ANN

classifier.compile(optimizer = 'adam', loss = 'binary_crossentropy', metrics = ['accuracy'])

11、用訓練集訓練

classifier.fit(X_train, y_train, batch_size = 10, epochs = 100)

12、用測試集測試

y_pred = classifier.predict(X_test)

y_pred = (y_pred > 0.5)

13、生成混淆矩陣

from sklearn.metrics import confusion_matrix

cm = confusion_matrix(y_test, y_pred)

注意：

有些函數的詳細使用方法在spyder裡面有幫助，例如將光標放在Dense上，按control+i打開help文檔

按ctrl+i

Dense類

0x05 結論

如下圖所示，橫向是測試集，縱向是預測結果。

準確率為85.25%

0x06 總結

本文介紹了什麼是ANN，如何搭建實驗環境，如何下載數據，數據預處理，使用ANN模型預測客戶是否會解約。

例如應用訓練好的模型預測客戶是否會解約

現某客戶信息如下：

Geography: FranceCredit Score: 600Gender: MaleAge: 40 years oldTenure: 3 yearsBalance: $60000Number of Products: 2Does this customer have a credit card ? YesIs this customer an Active Member: YesEstimated Salary: $50000

使用ANN模型預測他是否會解約：

new_prediction = classifier.predict(sc.transform(np.array([[0.0, 0, 600, 1, 40, 3, 60000, 2, 1, 1, 50000]])))

new_prediction = (new_prediction > 0.5)

答案是客戶不會解約。

0x07 寫在最後

下篇文章將介紹ANN的評價與優化。

本文是系列文章，後續還將以類似形式推出如下內容：

CNN（卷積神經網絡）

RNN（循環神經網絡）

SOMs（自組織特徵映射神經網絡）

Boltzmann Machine（玻爾茲曼機)

AutoEncoders（自動編碼器）

Regression&Classification（迴歸和聚類）

本文到此就介紹完了，感謝大家的閱讀。

0x00 人工神經網絡介紹

0x01 基礎知識準備

0x02 環境搭建（Windows）

0x04 創建ANN模型

0x05 結論

0x06 總結

0x07 寫在最後

相關文章:

機器學習——Naive Bayes 樸素貝葉斯

機器學習、深度學習的基礎已打好，怎麼用最快的速度解決算法問題

npj: 機器學習—自動錶徵材料的微結構

機器學習-數學知識大全

阿里文娛測試實戰：機器學習+基於熱度鏈路推薦的引流，讓對比測試更精準

“機器學習”將成為2020年的流行語

新實戰項目-機器學習-紀錄片播放量預測

帶你3分鐘看懂人工智能&機器學習，30天嘗試編寫遊戲AI

機器學習：條件隨機場

npj: 高熵合金的相設計—機器學習

03.02 機器學習：監督學習的三類問題

03.01 機器學習：通過 TensorBoard 將模型可視化

機器學習——一文詳解邏輯迴歸「附詳細推導和代碼」

機器學習-NLP之Word embedding 原理及應用

人工智能、機器學習、深度學習 三者區別

機器學習-計算機視覺和卷積網絡CNN

機器學習：沒有免費午餐定理（No Free Lunch Theorem）

機器學習-TensorFlow應用之classification和ROC curve

12.23 機器學習：供應鏈中的創新技術

增強光束性能！機器學習，人工智能也被成功應用到同步輻射光源上

機器學習、深度學習……人工智能那些名詞你知道幾個？

機器學習-邏輯迴歸與sigmoid

機器學習-交叉熵與損失函數

03.29 機器學習：線性迴歸簡單有效，但是千萬不要踩到雷區！

機器學習，是新聞業的未來嗎？

機器學習-終結者是否會出現

人工智能、機器學習、深度學習和人工神經網絡的介紹和發展

機器學習：未來十年研究熱點

直擊全球程式設計師節現場：「機器學習」是未來的主題

機器學習 VS 深度學習到底有啥區別，爲什麼更多人選擇機器學習

人工智慧、機器學習、數據挖掘和數據分析之間，主要有什麼聯繫？

人工智慧=統計學=機器學習？人工智慧前沿解讀！

機器學習 vs. 深度學習

Youtube推薦算法的前世今生

深度解析人工智慧——機器學習、神經網絡、深度學習

人工智慧、機器學習、深度學習的區別？

機器學習：人工智慧的三種設計模式

機器學習：支持向量機（SVM）

AI在網絡安全領域的應用：機器學習 VS. 深度學習

Facebook 擴大內容核查範圍，機器學習+全方位審核打擊假新聞

萬萬沒想到，高深的“機器學習”還可以這樣學……

機器學習、人工智能與網絡安全的未來

機器學習，給你一個最簡單的說明

機器學習：怎樣才能做到從入門到不放棄？

人工智慧，機器學習，深度學習的區別詳解「轉」

小米太無恥了。

蹭熱點！說說我理解的手機包裝盒事件。

蘋果公司正式發佈iPhone SE二代手機

華為河圖、麒麟芯片和鴻蒙OS三駕馬車並行？華為生態建設佈局深遠

小米高管表示，四千毫安時 5G 手機，和三千多毫安時 4G 手機一樣

5G畫風變了：麒麟985落地首跑，榮耀坐上開往高端的「地鐵」

旗艦手機標配Wifi 6 換Wifi 6路由器的時機到了嗎？

2020年5G手機賣不動？繼蘋果砍單25%之後，華為小米紛紛跟砍？

幹翻華為P40系列 榮耀30也玩中

程序員辭互聯網工作，跨行傳統上市公司，上班第1天就蒙了

蘋果發佈新款iPhoneSE，3299元起售

我很糾結：我究竟適不適合做亞馬遜電商？看了這三條你就知道了

請仔細閱讀，關於跨境電商你想知道的都在這兒

騙子手段太“精明”：商家賠了貨物又賠款，亞馬遜平臺騙術大揭祕

做跨境電商這麼多年，今天才知道給國外客戶發文件原來這麼簡單

值得收藏！三類賣家三種選品方案，總有適合你的一個……

萬萬沒想到！亞馬遜平臺上面賣床單竟營收一個億！你還在等什麼？

做店鋪這麼多年，今天才知道我的listing突然被封，竟是因為……

亞馬遜小白看過來！請採納這些：亞馬遜選品和運營的小建議

亞馬遜賣家如何爆單？跨境精細化運營攻略必看

不收保證金、入住費、年費，還免三個月佣金，我也想入駐這個平臺

馬雲終於要辭職了，留下的話句句觸動人心

等等，明年5G手機將迎來大降價

微信公開課PRO版2019正在進行時，往屆各自都有什麼黑科技

推出「信任分」升級「閃購」，美團本地生活這盤棋有多大？

5G我們超越了6G我們也將領先! 美國為什麼會害怕失去5G領導地位呢

界讀｜華為：幫助英國共渡疫情難關，無端批評令英國蒙受損失

人工智能、機器學習、深度學習三者區別

幹翻華為P40系列榮耀30也玩中

2020年最強拍照旗艦來了華為P40系列多項業界首創香！