緩存算法FIFO、LFU、LRU

0x01:FIFO算法

  FIFO(First in First out),先進先出。其實在操作系統的設計理念中很多地方都利用到了先進先出的思想,比如作業調度(先來先服務),為什麼這個原則在很多地方都會用到呢?因為這個原則簡單、且符合人們的慣性思維,具備公平性,並且實現起來簡單,直接使用數據結構中的隊列即可實現。

  在FIFO Cache設計中,核心原則就是:如果一個數據最先進入緩存中,則應該最早淘汰掉。也就是說,當緩存滿的時候,應當把最先進入緩存的數據給淘汰掉。在FIFO Cache中應該支持以下操作;

  get(key):如果Cache中存在該key,則返回對應的value值,否則,返回-1;

  set(key,value):如果Cache中存在該key,則重置value值;如果不存在該key,則將該key插入到到Cache中,若Cache已滿,則淘汰最早進入Cache的數據。

  舉個例子:假如Cache大小為3,訪問數據序列為set(1,1),set(2,2),set(3,3),set(4,4),get(2),set(5,5)

  則Cache中的數據變化為:

  (1,1) set(1,1)

  (1,1) (2,2) set(2,2)

  (1,1) (2,2) (3,3) set(3,3)

  (2,2) (3,3) (4,4) set(4,4)

  (2,2) (3,3) (4,4) get(2)

  (3,3) (4,4) (5,5) set(5,5)

  那麼利用什麼數據結構來實現呢?

  下面提供一種實現思路:

  利用一個雙向鏈表保存數據,當來了新的數據之後便添加到鏈表末尾,如果Cache存滿數據,則把鏈表頭部數據刪除,然後把新的數據添加到鏈表末尾。在訪問數據的時候,如果在Cache中存在該數據的話,則返回對應的value值;否則返回-1。如果想提高訪問效率,可以利用hashmap來保存每個key在鏈表中對應的位置。

0x02:LFU算法

  LFU(Least Frequently Used)最近最少使用算法。它是基於“如果一個數據在最近一段時間內使用次數很少,那麼在將來一段時間內被使用的可能性也很小”的思路。

  注意LFU和LRU算法的不同之處,LRU的淘汰規則是基於訪問時間,而LFU是基於訪問次數的。舉個簡單的例子:

  假設緩存大小為3,數據訪問序列為set(2,2),set(1,1),get(2),get(1),get(2),set(3,3),set(4,4),

  則在set(4,4)時對於LFU算法應該淘汰(3,3),而LRU應該淘汰(1,1)。

  那麼LFU Cache應該支持的操作為:

  get(key):如果Cache中存在該key,則返回對應的value值,否則,返回-1;

  set(key,value):如果Cache中存在該key,則重置value值;如果不存在該key,則將該key插入到到Cache中,若Cache已滿,則淘汰最少訪問的數據。

  為了能夠淘汰最少使用的數據,因此LFU算法最簡單的一種設計思路就是 利用一個數組存儲 數據項,用hashmap存儲每個數據項在數組中對應的位置,然後為每個數據項設計一個訪問頻次,當數據項被命中時,訪問頻次自增,在淘汰的時候淘汰訪問頻次最少的數據。這樣一來的話,在插入數據和訪問數據的時候都能達到O(1)的時間複雜度,在淘汰數據的時候,通過選擇算法得到應該淘汰的數據項在數組中的索引,並將該索引位置的內容替換為新來的數據內容即可,這樣的話,淘汰數據的操作時間複雜度為O(n)。

  另外還有一種實現思路就是利用 小頂堆+hashmap,小頂堆插入、刪除操作都能達到O(logn)時間複雜度,因此效率相比第一種實現方法更加高效。

  如果哪位朋友有更高效的實現方式(比如O(1)時間複雜度),不妨探討一下,不勝感激。

0x03:LRU算法

LRU算法的設計原則是:如果一個數據在最近一段時間沒有被訪問到,那麼在將來它被訪問的可能性也很小。也就是說,當限定的空間已存滿數據時,應當把最久沒有被訪問到的數據淘汰。


而用什麼數據結構來實現LRU算法呢?可能大多數人都會想到:用一個數組來存儲數據,給每一個數據項標記一個訪問時間戳,每次插入新數據項的時候,先把數組中存在的數據項的時間戳自增,並將新數據項的時間戳置為0並插入到數組中。每次訪問數組中的數據項的時候,將被訪問的數據項的時間戳置為0。當數組空間已滿時,將時間戳最大的數據項淘汰。

  這種實現思路很簡單,但是有什麼缺陷呢?需要不停地維護數據項的訪問時間戳,另外,在插入數據、刪除數據以及訪問數據時,時間複雜度都是O(n)。

  那麼有沒有更好的實現辦法呢?

  那就是利用鏈表和hashmap。當需要插入新的數據項的時候,如果新數據項在鏈表中存在(一般稱為命中),則把該節點移到鏈表頭部,如果不存在,則新建一個節點,放到鏈表頭部,若緩存滿了,則把鏈表最後一個節點刪除即可。在訪問數據的時候,如果數據項在鏈表中存在,則把該節點移到鏈表頭部,否則返回-1。這樣一來在鏈表尾部的節點就是最近最久未訪問的數據項。

  總結一下:根據題目的要求,LRU Cache具備的操作:

  1)set(key,value):如果key在hashmap中存在,則先重置對應的value值,然後獲取對應的節點cur,將cur節點從鏈表刪除,並移動到鏈表的頭部;若果key在hashmap不存在,則新建一個節點,並將節點放到鏈表的頭部。當Cache存滿的時候,將鏈表最後一個節點刪除即可。

  2)get(key):如果key在hashmap中存在,則把對應的節點放到鏈表頭部,並返回對應的value值;如果不存在,則返回-1。


分享到:


相關文章: