01.06 PHP性能優化利器:生成器 yield理解

如果是做Python或者其他語言的小夥伴,對於生成器應該不陌生。但很多PHP開發者或許都不知道生成器這個功能,可能是因為生成器是PHP 5.5.0才引入的功能,也可以是生成器作用不是很明顯。但是,生成器功能的確非常有用。


優點
直接講概念估計你聽完還是一頭霧水,所以我們先來說說優點,也許能勾起你的興趣。那麼生成器有哪些優點,如下:

  • 生成器會對PHP應用的性能有非常大的影響
  • PHP代碼運行時節省大量的內存
  • 比較適合計算大量的數據


那麼,這些神奇的功能究竟是如何做到的?我們先來舉個例子。
概念引入
首先,放下生成器概念的包袱,來看一個簡單的PHP函數:

<code>function createRange($number){
$data = [];
for($i=0;$i $data[] = time();
}
return $data;
}/<code>


這是一個非常常見的PHP函數,我們在處理一些數組的時候經常會使用。這裡的代碼也非常簡單:

  1. 我們創建一個函數。
  2. 函數內包含一個 for 循環,我們循環的把當前時間放到$data裡面
  3. for循環執行完畢,把 $data 返回出去。


下面沒完,我們繼續。我們再寫一個函數,把這個函數的返回值循環打印出來:

<code>$result = createRange(10); // 這裡調用上面我們創建的函數
foreach($result as $value){
sleep(1);//這裡停頓1秒,我們後續有用
echo $value.'
';
}/<code>


我們在瀏覽器裡面看一下運行結果:

PHP性能優化利器:生成器 yield理解


這裡非常完美,沒有任何問題。(當然 sleep(1) 效果你們看不出來)
思考一個問題
我們注意到,在調用函數 createRange 的時候給 $number 的傳值是10,一個很小的數字。假設,現在傳遞一個值10000000(1000萬)。那麼,在函數 createRange 裡面,for循環就需要執行1000萬次。且有1000萬個值被放到 $data 裡面,而$data數組在是被放在內存內。所以,在調用函數時候會佔用大量內存。這裡,生成器就可以大顯身手了。
創建生成器
我們直接修改代碼,你們注意觀察:

<code>function createRange($number){
for($i=0;$i yield time();
}
}/<code>


看下這段和剛剛很像的代碼,我們刪除了數組 $data ,而且也沒有返回任何內容,而是在 time() 之前使用了一個關鍵字yield。
使用生成器
我們再運行一下第二段代碼:

<code>$result = createRange(10); // 這裡調用上面我們創建的函數 

foreach($result as $value){
sleep(1);
echo $value.'
';
}/<code>
PHP性能優化利器:生成器 yield理解


我們奇蹟般的發現了,輸出的值和第一次沒有使用生成器的不一樣。這裡的值(時間戳)中間間隔了1秒。
這裡的間隔一秒其實就是 sleep(1) 造成的後果。但是為什麼第一次沒有間隔?那是因為:

  • 未使用生成器時: createRange 函數內的 for 循環結果被很快放到 $data 中,並且立即返回。所以, foreach 循環的是一個固定的數組。
  • 使用生成器時: createRange 的值不是一次性快速生成,而是依賴於 foreach 循環。 foreach 循環一次, for 執行一次。


到這裡,你應該對生成器有點兒頭緒。
深入理解生成器
代碼剖析
下面我們來對於剛剛的代碼進行剖析。

<code>function createRange($number){
for($i=0;$i yield time();
}
}

$result = createRange(10); // 這裡調用上面我們創建的函數
foreach($result as $value){
sleep(1);

echo $value.'
';
}/<code>


我們來還原一下代碼執行過程。

  1. 首先調用 createRange 函數,傳入參數10,但是 for 值執行了一次然後停止了,並且告訴 foreach 第一次循環可以用的值。
  2. foreach 開始對 $result 循環,進來首先 sleep(1) ,然後開始使用 for 給的一個值執行輸出。
  3. foreach 準備第二次循環,開始第二次循環之前,它向 for 循環又請求了一次。
  4. for 循環於是又執行了一次,將生成的時間戳告訴 foreach .
  5. foreach 拿到第二個值,並且輸出。由於 foreach 中 sleep(1) ,所以, for 循環延遲了1秒生成當前時間


所以,整個代碼執行中,始終只有一個記錄值參與循環,內存中也只有一條信息。無論開始傳入的 $number 有多大,由於並不會立即生成所有結果集,所以內存始終是一條循環的值。
概念理解
到這裡,你應該已經大概理解什麼是生成器了。下面我們來說下生成器原理。


首先明確一個概念:生成器yield關鍵字不是返回值,他的專業術語叫產出值,只是生成一個值
那麼代碼中 foreach 循環的是什麼?其實是PHP在使用生成器的時候,會返回一個 Generator 類的對象。 foreach 可以對該對象進行迭代,每一次迭代,PHP會通過 Generator 實例計算出下一次需要迭代的值。這樣 foreach 就知道下一次需要迭代的值了。
而且,在運行中 for 循環執行後,會立即停止。等待 foreach 下次循環時候再次和 for 索要下次的值的時候,循環才會再執行一次,然後立即再次停止。直到不滿足條件不執行結束。


實際開發應用
很多PHP開發者不瞭解生成器,其實主要是不瞭解應用領域。那麼,生成器在實際開發中有哪些應用?
讀取超大文件
PHP開發很多時候都要讀取大文件,比如csv文件、text文件,或者一些日誌文件。這些文件如果很大,比如5個G。這時,直接一次性把所有的內容讀取到內存中計算不太現實。
這裡生成器就可以派上用場啦。簡單看個例子:讀取text文件


PHP性能優化利器:生成器 yield理解


我們創建一個text文本文檔,並在其中輸入幾行文字,示範讀取。

<code>header("content-type:text/html;charset=utf-8");
function readTxt()
{
# code...
$handle = fopen("./test.txt", 'rb');

while (feof($handle)===false) {
# code...
yield fgets($handle);
}

fclose($handle);
}

foreach (readTxt() as $key => $value) {
# code...
echo $value.'
';
}/<code>
PHP性能優化利器:生成器 yield理解


通過上圖的輸出結果我們可以看出代碼完全正常。但是,背後的代碼執行規則卻一點兒也不一樣。使用生成器讀取文件,第一次讀取了第一行,第二次讀取了第二行,以此類推,每次被加載到內存中的文字只有一行

,大大的減小了內存的使用。
這樣,即使讀取上G的文本也不用擔心,完全可以像讀取很小文件一樣編寫代碼。

百萬級別的訪問量

yield生成器是php5.5之後出現的,yield提供了一種更容易的方法來實現簡單的迭代對象,相比較定義類實現 Iterator 接口的方式,性能開銷和複雜性大大降低。yield生成器允許你 在 foreach 代碼塊中寫代碼來迭代一組數據而不需要在內存中創建一個數組。


分享到:


相關文章: