緩存算法FIFO、LFU、LRU 技术頭條網

2020-03-13 21:32:50 java樂園

0x01：FIFO算法

　　FIFO（First in First out），先進先出。其實在操作系統的設計理念中很多地方都利用到了先進先出的思想，比如作業調度（先來先服務），為什麼這個原則在很多地方都會用到呢？因為這個原則簡單、且符合人們的慣性思維，具備公平性，並且實現起來簡單，直接使用數據結構中的隊列即可實現。

　　在FIFO Cache設計中，核心原則就是：如果一個數據最先進入緩存中，則應該最早淘汰掉。也就是說，當緩存滿的時候，應當把最先進入緩存的數據給淘汰掉。在FIFO Cache中應該支持以下操作;

　　get(key)：如果Cache中存在該key，則返回對應的value值，否則，返回-1；

　　set(key,value)：如果Cache中存在該key，則重置value值；如果不存在該key，則將該key插入到到Cache中，若Cache已滿，則淘汰最早進入Cache的數據。

　　舉個例子：假如Cache大小為3，訪問數據序列為set(1,1),set(2,2),set(3,3),set(4,4),get(2),set(5,5)

　　則Cache中的數據變化為：

　　(1,1) set(1,1)

　　(1,1) (2,2) set(2,2)

　　(1,1) (2,2) (3,3) set(3,3)

　　(2,2) (3,3) (4,4) set(4,4)

　　(2,2) (3,3) (4,4) get(2)

　　(3,3) (4,4) (5,5) set(5,5)

　　那麼利用什麼數據結構來實現呢？

　　下面提供一種實現思路：

　　利用一個雙向鏈表保存數據，當來了新的數據之後便添加到鏈表末尾，如果Cache存滿數據，則把鏈表頭部數據刪除，然後把新的數據添加到鏈表末尾。在訪問數據的時候，如果在Cache中存在該數據的話，則返回對應的value值；否則返回-1。如果想提高訪問效率，可以利用hashmap來保存每個key在鏈表中對應的位置。

0x02：LFU算法

　　LFU（Least Frequently Used）最近最少使用算法。它是基於“如果一個數據在最近一段時間內使用次數很少，那麼在將來一段時間內被使用的可能性也很小”的思路。

　　注意LFU和LRU算法的不同之處，LRU的淘汰規則是基於訪問時間，而LFU是基於訪問次數的。舉個簡單的例子：

　　假設緩存大小為3，數據訪問序列為set(2,2),set(1,1),get(2),get(1),get(2),set(3,3),set(4,4)，

　　則在set(4,4)時對於LFU算法應該淘汰(3,3)，而LRU應該淘汰(1,1)。

　　那麼LFU Cache應該支持的操作為：

　　get(key)：如果Cache中存在該key，則返回對應的value值，否則，返回-1；

　　set(key,value)：如果Cache中存在該key，則重置value值；如果不存在該key，則將該key插入到到Cache中，若Cache已滿，則淘汰最少訪問的數據。

　　為了能夠淘汰最少使用的數據，因此LFU算法最簡單的一種設計思路就是利用一個數組存儲數據項，用hashmap存儲每個數據項在數組中對應的位置，然後為每個數據項設計一個訪問頻次，當數據項被命中時，訪問頻次自增，在淘汰的時候淘汰訪問頻次最少的數據。這樣一來的話，在插入數據和訪問數據的時候都能達到O(1)的時間複雜度，在淘汰數據的時候，通過選擇算法得到應該淘汰的數據項在數組中的索引，並將該索引位置的內容替換為新來的數據內容即可，這樣的話，淘汰數據的操作時間複雜度為O(n)。

　　另外還有一種實現思路就是利用小頂堆+hashmap，小頂堆插入、刪除操作都能達到O(logn)時間複雜度，因此效率相比第一種實現方法更加高效。

　　如果哪位朋友有更高效的實現方式（比如O(1)時間複雜度），不妨探討一下，不勝感激。

0x03：LRU算法

LRU算法的設計原則是：如果一個數據在最近一段時間沒有被訪問到，那麼在將來它被訪問的可能性也很小。也就是說，當限定的空間已存滿數據時，應當把最久沒有被訪問到的數據淘汰。

而用什麼數據結構來實現LRU算法呢？可能大多數人都會想到：用一個數組來存儲數據，給每一個數據項標記一個訪問時間戳，每次插入新數據項的時候，先把數組中存在的數據項的時間戳自增，並將新數據項的時間戳置為0並插入到數組中。每次訪問數組中的數據項的時候，將被訪問的數據項的時間戳置為0。當數組空間已滿時，將時間戳最大的數據項淘汰。

　　這種實現思路很簡單，但是有什麼缺陷呢？需要不停地維護數據項的訪問時間戳，另外，在插入數據、刪除數據以及訪問數據時，時間複雜度都是O(n)。

　　那麼有沒有更好的實現辦法呢？

　　那就是利用鏈表和hashmap。當需要插入新的數據項的時候，如果新數據項在鏈表中存在（一般稱為命中），則把該節點移到鏈表頭部，如果不存在，則新建一個節點，放到鏈表頭部，若緩存滿了，則把鏈表最後一個節點刪除即可。在訪問數據的時候，如果數據項在鏈表中存在，則把該節點移到鏈表頭部，否則返回-1。這樣一來在鏈表尾部的節點就是最近最久未訪問的數據項。

　　總結一下：根據題目的要求，LRU Cache具備的操作：

　　1）set(key,value)：如果key在hashmap中存在，則先重置對應的value值，然後獲取對應的節點cur，將cur節點從鏈表刪除，並移動到鏈表的頭部；若果key在hashmap不存在，則新建一個節點，並將節點放到鏈表的頭部。當Cache存滿的時候，將鏈表最後一個節點刪除即可。

　　2）get(key)：如果key在hashmap中存在，則把對應的節點放到鏈表頭部，並返回對應的value值；如果不存在，則返回-1。

分享到:

閱讀更多 java樂園 的文章

關鍵字: 算法簡單數據結構