LeetCode專題——詳解搜索算法中的搜索策略和剪枝

2020-03-15 14:52:00 承志的算法課堂

今天是LeetCode專題第20篇文章，今天討論的是數字組合問題。

描述

給定一個int類型的候選集，和一個int類型的target，要求返回所有的數字組合，使得組合內所有數字的和剛好等於target。

注意：

所有的元素都是正數
所有元素沒有重複
答案不能有重複
每一個元素可以使用若干次

樣例 1:

<code>Input: candidates = [2,3,6,7], target = 7,
A solution set is:
[
  [7],
  [2,2,3]
]
/<code>

樣例 2:

<code>Input: candidates = [2,3,5], target = 8,
A solution set is:
[
   [2,2,2,2],
  [2,3,3],
  [3,5]
]
/<code>

題解

我們拿到這道題還是按照老規矩來思考暴力的解法，但是仔細一想會發現好像沒有頭緒，沒有頭緒的原因也很簡單，因為題目當中的一個條件：一個元素可以隨意使用若干次。

我們根本不知道一個元素可以使用多少次，這讓我們的暴力枚舉有一種無從下手的感覺。如果去掉這個條件就方便多了，因為每個元素只剩下了兩個狀態，要麼拿要麼不拿，我們可以用一個二進制的數來表示。這就引出了一個常用的表示狀態的方法——

二進制表示法。

二進制表示法

舉個例子，假如當下我們有3個數字，這3個數字都有兩個狀態選或者不選，我們想要枚舉這3個數字的所有狀態，應該怎麼辦？

我們當然可以用遞歸來實現，在每層遞歸當中做決策當前元素選或者不選，分別遞歸。但是可以不用這麼麻煩，我們可以用二進制簡化這個過程。這個原理非常簡單，我們都知道在計算機二進制當中每一個二進制位只有兩個狀態0或者1，那麼我們就用1表示拿，0表示不拿，那麼這三個數拿或者不拿的狀態其實就對應一個二進制的數字了。3位二進制，對應的數字是0到7，也就是說我們只需要遍歷0到7，就可以獲得這3位所有拿和不拿的狀態了。

比如說我們當下遍歷到的數字是5，5的二進制表示是101，我們再把1和0對應拿和不拿兩種狀態。那麼5就可以對應上第一和第三個拿，第二個不拿的狀態了。我們可以用位運算很方便地進行計算。比如我們要判斷第i位是否拿了，我們可以用(1 << i)，<左移n位就相當於乘上了2的n次方。1對應右邊起第0位，也就是最低位的二進制位，我們對它做左移i的操作就相當於乘上了 2^i ，那麼就得到了第i位了。我們拿到了之後，只需要將它和狀態state做一個二進制中的與運算，就可以得到state中第i位究竟是0還是1了。

因為在二進制當中，and運算會將兩個數的每一位做與運算，運算的結果也是一個二進制數。由於我們用來進行與運算的數是(1 << i)，它只有第i位為1，所以其他位進行與運算的結果必然是0，那麼它和state進行與運算之後，如果結果大於0，則說明state的第i位也是1，否則則是0。這樣我們就獲取了state當中第i位的狀態。

由於位運算是指令集的運算，在沒有指令集優化的一些語言當中，它的計算要比加減乘除更快。除了快以外它最大的好處是

節省空間和計算方便，這兩個優點其實是一體的，我們一個一個來說。

首先來說節省空間，有了二進制表示之後，我們可以用一個32位的int來代表32個物體的0和1的所有狀態。如果我們用數組來存儲的話，顯然我們需要一個長度為32的數組，需要的空間要大得多。這一點在單個狀態下並不明顯，一旦數據量很大會非常顯著。尤其是在密集的IO當中，數據越輕量則傳輸效率越高。

第二個優點是計算方便，計算方便的原因也很簡單，假如我們要遍歷所有的狀態，如果用數組或者其他數據結構的話免不了使用遞歸來遍歷，這樣會非常麻煩。而使用二進制之後就方便了，由於我們用二進制表示了所有元素0和1的狀態，我們只需要在一個整數範圍做循環就可以了。就像剛才例子當中，我們要枚舉3個元素的狀態，我們只需要從0遍歷到7即可。如果在多點元素也沒問題，如果是N個元素，我們只需要從0遍歷到(1 << N) - 1。

但是還有一個問題沒解決，你可能會說如果我們用int來表示狀態的話，最多隻能表示32個物品的狀態，如果更多怎麼辦？一個方法是使用int64，即範圍更大的int，如果範圍更大的int還是解決不了問題也沒關係，還有一些基於同樣原理實現的第三方包可以支持。但是老實說我們基本上不會碰到超過64個物品讓我們枚舉所有狀態的情況，因為這個數字已經非常大了，幾乎可以說是天荒地老也算不完。

回到問題

我相信關於二進制表示法的使用和原理，大家應該都瞭解了，但是本題當中元素是可以多次出現的，二進制表示法看起來並不頂用，我們怎麼解決這個問題呢？難道這麼大的篇幅就白寫了？

當然不會白寫，針對這種情況也有辦法。其實很簡單，因為題目當中規定所有的元素都是正數

，那麼對於每一個元素而言，我們最多取的數量是有限的。舉個例子，比如樣例當中[2, 3, 6, 7] target是7，對於元素2而言，target是7，即使可以多次使用，也最多能用上3個2。那麼我們可以拓充候選集，將1個2拓充成3個，同理，我們可以繼續拓充3，最後候選集變成這樣：[2, 2, 2, 3, 3, 6, 7]，這樣我們就可以使用二進制表示法了。

但是顯然這個方法不靠譜，因為如果數據當中出現一個1，並且target稍微大一些，那肯定直接gg，顯然會複雜度爆炸。所以這個方法只是理論上可行，但是實際上並不具有可操作性，我之所以拿出來介紹，純粹是為了引出二進制表示法。

搜索解決一切

當一個問題明顯有很多種情況需要遍歷，但是我們又很難直接遍歷的時候，往往都是搜索問題，我們可以思考一下能否用搜索問題的方法來解決。

這題其實已經非常明顯了，搜索的條件已經有了，搜索的空間也明白了，剩下的就是制定搜索策略。

我個人認為搜索策略其實就是搜索的順序和範圍，合適的搜索順序以及範圍可以大大降低編碼和計算的複雜度，再穿插合適的剪枝，就可以非常漂亮地完成一道搜索問題。

我們帶著思考來看這道題，如果我們用回溯法來寫這道題的話，代碼其實並不複雜。很容易就可以寫出來：

你看只有幾行，我們每次遍歷一個數加在當前的總和x上然後往下遞歸，並且我們還加上了對當前和判斷的剪枝。如果當前和已經超過了target，那麼顯然已經不可能構成正解了，我們直接跳過。

但是我們也都發現了，在上面這段代碼裡，我們搜索的區間就是所有的候選值，我們沒有對這些候選值進行任何的限制。這其實隱藏了一個很大的問題，還記得題目的要求當中有一條嗎，答案不能有重複。也就是說相同元素的不同順序會被認為是同一個解，我們需要去重。舉個例子，[3, 2, 2]和[2, 2, 3]會被認為是重複的，但是在上面的搜索策略當中，我們沒有對這個情況做任何的控制，這就導致了我們在找到所有答案之後還需要進行去重的工作。先找到包含重複的答案，再進行去重，這顯然會消耗大量計算資源，所以這個搜索策略雖然簡單，但遠遠不是最好的。

我們先來分析一下問題，究竟什麼時候會出現重複呢？

我想大家列舉一下應該都能發現，就是當我們順序錯亂的時候。比如說我們有兩個數3和4，我們先選擇3再選擇4和先選擇4再選擇3是一樣的。如果我們不對3和4的選擇做任何限制，那麼就會出現重複。換句話說如果我們對3和4的選擇確定順序就可以避免重複，如果從一開始就不會出現重複，那麼我們也就沒有必要去重了，這就可以節省下大量的時間。

所以我們要做的就是確定搜索的時候元素選擇的順序，在搜索的時候進行一定的限制，從而避免重複。落實在代碼當中就體現在我們枚舉候選集的時候，我們之前沒有做任何限制，我們現在需要人為加上限制，我們只能選擇之前選過的元素後面的，只能往後拿不能往前拿。所以我們需要在dfs當中傳入一個下標，標記之前拿過的最大的下標，我們只能拿這個下標之後的，這樣搜索就有了順序，就避免了元素重複和複雜度過高的問題。

這一點確定了之後，剩下的代碼就很簡單了。

從代碼上來看，我們並沒有做太大的改動，所有的細節幾乎都體現在搜索和遍歷時的邊界以及控制條件上。和整個算法以及代碼邏輯比起來，這些是最無關緊要的，但是對於解決問題來說，這些才是實實在在的。

題目變形

今天的題目有一個變種，它就是LeetCode的第40題，大部分題意都一樣，只有兩個條件發生了變化。第一是40題當中去掉了候選集當中的元素沒有重複的限制，第二點是不再允許元素重複使用。其他的內容都和這題保持一致。

我們想一下就會發現，如果我們去掉重複使用的條件，好像沒什麼變化，我們是不是隻要將遞歸遍歷的條件稍稍改動就好了呢？之前我們是從pos位置開始化後遍歷，現在由於不能重複，所以之前取過的pos不能再取，我們是不是隻要將for循環改成從pos+1開始就行了？

如果候選集的元素中沒有重複，這當然是可行的。但是很遺憾，這個條件也被去掉了。所以候選集當中本身就可能出現重複，如果還按照剛才的思路會出現重複的答案。

原因也很簡單，舉個例子，比如說候選集是[1, 2, 3, 2, 2]，target是5，如果還用剛才的方法搜索的話，我們的答案當中會出現兩個[2, 3]。雖然我們也是每個元素都只用了一次，但是仍然違背了答案不能重複的限制。

你可能會有很多想法，比如可以手動去重，比如我們可以在元素數量上做手腳，將重複的元素去重。很遺憾的是，兩者都不是最優解。第一種當然是可行的，找到所有可行解再去重，是一個很樸素的思路。通過優化，可以解決複雜度問題。第二種想法並不可行，因為如果我們把重複的元素去掉，可能會導致某些解丟失。比如[1, 2, 2]，也是和等於5，但是如果我們把重複的2去掉了，那麼就無法得到這個解了。

要解決問題，我們還是要回到搜索策略上來。手動篩選、加工數據只是逼不得已的時候用的奇淫技巧，搜索策略才是解題的核心。

我們整理一下思路，可以歸納出當前需要我們解決的問題有兩個，第一個是我們要找到所有解，意味著我們不能刪減元素，第二個是我們想要搜索的結果沒有重複。這看起來是矛盾的，我們既想要不出現重複，又想重複的元素可以出現，這可能嗎？

如果你仔細思考分析了，你會發現是可能的。不過從搜索策略的角度上來說，比較難想到。首先我們要保證元素的聚集性，也就是說相同的元素應該聚集在一起。要做到這點很簡單，我們只需要排序就行了。這麼做的原因也不難想到，就是為了避免重複。如果數據是分散的，我們是很難去重的，還用剛才的例子，當我們從2開始遞歸的時候，我們可以找到解[2, 3]，當我們從3開始遞歸的時候，我們仍然可以找到解[3, 2]，這兩者是一樣的。雖然我們限制了遍歷的順序嚴格地從前到後，但是由於

元素分散會使得我們的限制失去作用。為了限制依舊有效，我們需要排序，讓相同的元素聚集，這樣我們每次搜索的內容其實是由大於等於當前元素的數字組成的答案，這就保證了不在重複。

但是這並沒有解決所有的問題，我們再來看一個例子，候選集是[2, 2, 2, 3, 4]，target是7，顯然[2, 2, 3]是答案，但是我們怎麼保證[2, 2, 3]只出現一次呢？因為我們有3個2，但是要選出兩個2來，我們需要一個機制，使得只會找到一個答案。這點通過策略已經無能為力了，只能依靠剪枝。我們當然可以引入額外的數據結構解決問題，但會比較麻煩，而我們其實有更簡單的做法。

這個做法是一個非常精妙的剪枝，我們在遞歸當中加入一個判斷：當i > pos+1 and candidates[i] == candidates[i-1]的時候，則跳過。其中pos是上次選擇的位置，在遞歸的起始時，帶入的是-1，我想這個條件應該大家都能看明白，但是它為什麼有效可能會一頭霧水，翻譯成大白話，這個條件其實是在限制一點：在有多個相同元素出現的時候，必須選擇下標小的，也就是前面的。

我們分析一下可能觸發continue的條件，只有兩種情況，第一種：

其中pos是上次選擇的數字，我們假設它是1，我們當前的位置在pos+3。從上圖可以看出來，pos+1到pos+3全都相等。如果我們想要選擇pos+3而跳過pos+1和pos+2則會進入continue會跳過。原因也很簡單，因為前面遞歸的過程當中已經選過pos和pos+1的組合了，我們如果選了pos和pos+3的組合一定會構成重複。也就是說我們保證了在連續出現的元素當中，如果要枚舉的話，必須要從第一個開始。

另一種情況也類似：

也就是說從pos到pos+3都是2，都相等，這個時候我們跳過pos+1和pos+2直接選擇pos+3也會進入continue，原因也很簡單，我們現在枚舉的是獲取兩個2的情況，在之前的遞歸當中已經沒舉過pos和pos+1了，我們現在想要跳過pos+1和pos+2直接獲取pos+3，對應的情況是一樣的，所以需要跳過。

我們將排序和上述的剪枝方法一起使用就解出了本題，仔細觀察一下會發現這兩個方法根本是相輔相成，天作之合，單獨使用哪一個也不管用，但是一起作用就可以非常簡單地解出題目。理解了這兩點之後，代碼就變得很簡單了：

不知道大家有沒有從這個變種當中感受到搜索策略以及剪枝的威力和巧妙，我個人還蠻喜歡今天的題目的，如果能夠把今天的兩道題目吃透，我想大家對於深度優先搜索和回溯算法的理解一定可以更上一個臺階，這也是我將這兩個問題合在一起介紹的原因。在明天的LeetCode專題當中我們會來看LeetCode41題，查找第一個沒有出現的自然數。

今天的文章就到這裡，如果覺得有所收穫，請順手點個關注吧，你們的舉手之勞對我來說很重要。

分享到:

閱讀更多 承志的算法課堂 的文章

關鍵字: 重複數據結構元素

數組、鏈表、leetcode

【LeetCode 貪心算法系列】402 移掉K位數字

LeetCode 題解

03.03 GitHub 一週熱點速覽：手撕 LeetCode 一日 star 破兩千

上週 GitHub 熱點速覽 vol.09：手撕 LeetCode 一日 star 破兩千

03.01 LeetCode 31：遞歸、回溯、八皇后、全排列一篇文章全講清楚

02.13 LeetCode 刷題難？那是你姿勢不對

LeetCode 刷題難？那是你姿勢不對

leetcode 26、刪除排序數組中的重複項

LeetCode 104. 二叉樹的最大深度 Maximum Depth of Binary Tree

11.29 LeetCode 題解

LeetCode-268：Missing Number(尋找缺失數字)

leetcode 324. 擺動排序 II

LeetCode:第一道算法題讓我很迷茫，到底哪種算法才是最優的

leetcode 432 全 O(1) 的數據結構，設計數據結構

刷題(leetcode)中心擴展算法

每日一題 Leetcode-105：從前序與中序遍歷序列構造二叉樹

LeetCode-尋找兩個有序數組的中位數

LeetCode第四十六題-全排列一

LeetCode 第 20 號問題：有效的括號

看動畫學懂 LeetCode 第 20 號問題：有效的括號

黃哥Python,LeetCode Find Bottom Left Tree Value解題思路

LeetCode 上最難的鏈表算法題，沒有之一！

Golang刷題 Leetcode 46. Permutations

Golang刷題 Leetcode 27. Remove Element

用Golang刷Leetcode 9. Palindrome Number.go

Golang刷題找工作 Leetcode-7

LEETCODE 編程訓練

LeetCode 652. 尋找重複的子樹

1. 兩數之和（LeetCode 題解）

機器學習常見面試知識點梳理第一期

leetcode 判斷是否子樹subtree-of-another-tree

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"