使用 C++11 編寫 Linux 多線程程序

2019-09-27 16:18:37 5歲能擡頭

前言

在這個多核時代，如何充分利用每個 CPU 內核是一個繞不開的話題，從需要為成千上萬的用戶同時提供服務的服務端應用程序，到需要同時打開十幾個頁面，每個頁面都有幾十上百個鏈接的 web 瀏覽器應用程序，從保持著幾 t 甚或幾 p 的數據的數據庫系統，到手機上的一個有良好用戶響應能力的 app，為了充分利用每個 CPU 內核，都會想到是否可以使用多線程技術。這裡所說的“充分利用”包含了兩個層面的意思，一個是使用到所有的內核，再一個是內核不空閒，不讓某個內核長時間處於空閒狀態。在 C++98 的時代，C++標準並沒有包含多線程的支持，人們只能直接調用操作系統提供的 SDK API 來編寫多線程程序，不同的操作系統提供的 SDK API 以及線程控制能力不盡相同，到了 C++11，終於在標準之中加入了正式的多線程的支持，從而我們可以使用標準形式的類來創建與執行線程，也使得我們可以使用標準形式的鎖、原子操作、線程本地存儲 (TLS) 等來進行復雜的各種模式的多線程編程，而且，C++11 還提供了一些高級概念，比如 promise/future，packaged_task，async 等以簡化某些模式的多線程編程。

多線程可以讓我們的應用程序擁有更加出色的性能，同時，如果沒有用好，多線程又是比較容易出錯的且難以查找錯誤所在，甚至可以讓人們覺得自己陷進了泥潭，希望本文能夠幫助您更好地使用 C++11 來進行 Linux 下的多線程編程。

零聲學院專門整理了Linux後臺服務開發大綱，有興趣的同學可以關注私信我（關鍵詞“Linux後臺開發”）！更多免費學習資料等你來取。

認識多線程

首先我們應該正確地認識線程。維基百科對線程的定義是：線程是一個編排好的指令序列，這個指令序列（線程）可以和其它的指令序列（線程）並行執行，操作系統調度器將線程作為最小的 CPU 調度單元。在進行架構設計時，我們應該多從操作系統線程調度的角度去考慮應用程序的線程安排，而不僅僅是代碼。

當只有一個 CPU 內核可供調度時，多個線程的運行示意如下：

圖 1、單個 CPU 內核上的多個線程運行示意圖

我們可以看到，這時的多線程本質上是單個 CPU 的時間分片，一個時間片運行一個線程的代碼，它可以支持併發處理，但是不能說是真正的並行計算。

當有多個 CPU 或者多個內核可供調度時，可以做到真正的並行計算，多個線程的運行示意如下：

圖 2、雙核 CPU 上的多個線程運行示意圖

從上述兩圖，我們可以直接得到使用多線程的一些常見場景：

進程中的某個線程執行了一個阻塞操作時，其它線程可以依然運行，比如，等待用戶輸入或者等待網絡數據包的時候處理啟動後臺線程處理業務，或者在一個遊戲引擎中，一個線程等待用戶的交互動作輸入，另外一個線程在後臺合成下一幀要畫的圖像或者播放背景音樂等。
將某個任務分解為小的可以並行進行的子任務，讓這些子任務在不同的 CPU 或者內核上同時進行計算，然後彙總結果，比如歸併排序，或者分段查找，這樣子來提高任務的執行速度。

需要注意一點，因為單個 CPU 內核下多個線程並不是真正的並行，有些問題，比如 CPU 緩存不一致問題，不一定能表現出來，一旦這些代碼被放到了多核或者多 CPU 的環境運行，就很可能會出現“在開發測試環境一切沒有問題，到了實施現場就莫名其妙”的情況，所以，在進行多線程開發時，開發與測試環境應該是多核或者多 CPU 的，以避免出現這類情況。

C++11 的線程類 std::thread

C++11 的標準類 std::thread 對線程進行了封裝，它的聲明放在頭文件 thread 中，其中聲明瞭線程類 thread, 線程標識符 id，以及名字空間 this_thread，按照 C++11 規範，這個頭文件至少應該兼容如下內容：

清單 1.例子 thread 頭文件主要內容

namespace std{
 struct thread{
 // native_handle_type 是連接 thread 類和操作系統 SDK API 之間的橋樑。
 typedef implementation-dependent native_handle_type;
 native_handle_type native_handle();
 //
 struct id{
 id() noexcept;
 // 可以由==, < 兩個運算衍生出其它大小關係運算。
 bool operator==(thread::id x, thread::id y) noexcept;
 bool operator template<class>
 basic_ostream<chart>&
 operator<&out, thread::id id);
 // 哈希函數
 template <class> struct hash;
 template <> struct hash<:id>;
 };
 id get_id() const noexcept;
 // 構造與析構
 thread() noexcept;
 template<class> explicit thread(F&f, Args&&… args);
 ~thread();
 thread(const thread&) = delete;
 thread(thread&&) noexcept;
 thread& operator=( const thread&) = delete;
 thread& operator=(thread&&) noexcept;
 //
 void swap(thread&) noexcept;
 bool joinable() const noexcept;
 void join();
 void detach();
 // 獲取物理線程數目 

 static unsigned hardware_concurrency() noexcept;
 }
 namespace this_thead{
 thread::id get_id();
 void yield();
 template<class>
 void sleep_until(const chrono::time_point<clock>& abs_time);
 template<class>
 void sleep_for(const chromo::duration& rel_time);
 }
}
/<class>/<clock>/<class>/<class>/<class>/<chart>/<class>

和有些語言中定義的線程不同，C++11 所定義的線程是和操作系的線程是一一對應的，也就是說我們生成的線程都是直接接受操作系統的調度的，通過操作系統的相關命令（比如 ps -M 命令）是可以看到的，一個進程所能創建的線程數目以及一個操作系統所能創建的總的線程數目等都由運行時操作系統限定。

native_handle_type 是連接 thread 類和操作系統 SDK API 之間的橋樑，在 g++(libstdc++) for Linux 裡面，native_handle_type 其實就是 pthread 裡面的 pthread_t 類型，當 thread 類的功能不能滿足我們的要求的時候（比如改變某個線程的優先級），可以通過 thread 類實例的 native_handle() 返回值作為參數來調用相關的 pthread 函數達到目的。thread::id 定義了在運行時操作系統內唯一能夠標識該線程的標識符，同時其值還能指示所標識的線程的狀態，其默認值 (thread::id()) 表示不存在可控的正在執行的線程（即空線程，比如，調用 thead() 生成的沒有指定入口函數的線程類實例），當一個線程類實例的 get_id() 等於默認值的時候，即 get_id() == thread::id()，表示這個線程類實例處於下述狀態之一：

尚未指定運行的任務
線程運行完畢
線程已經被轉移 (move) 到另外一個線程類實例
線程已經被分離 (detached)

空線程 id 字符串表示形式依具體實現而定，有些編譯器為 0x0，有些為一句語義解釋。

有時候我們需要在線程執行代碼裡面對當前調用者線程進行操作，針對這種情況，C++11 裡面專門定義了一個名字空間 this_thread，其中包括 get_id() 函數可用來獲取當前調用者線程的 id，yield() 函數可以用來將調用者線程跳出運行狀態，重新交給操作系統進行調度，sleep_until 和 sleep_for 函數則可以讓調用者線程休眠若干時間。get_id() 函數實際上是通過調用 pthread_self() 函數獲得調用者線程的標識符，而 yield() 函數則是通過調用操作系統 API sched_yield() 進行調度切換。

如何創建和結束一個線程

和 pthread_create 不同，使用 thread 類創建線程可以使用一個函數作為入口，也可以是其它的 Callable 對象，而且，可以給入口傳入任意個數任意類型的參數：

清單 2.例子 thread_run_func_var_args.cc

int funcReturnInt(const char* fmt, ...){
 va_list ap;
 va_start(ap, fmt);
 vprintf( fmt, ap );
 va_end(ap);
 return 0xabcd;
}
void threadRunFunction(void){
 thread* t = new thread(funcReturnInt, "%d%s\\n", 100, "\\%");
 t->join();
 delete t;
}

我們也可以傳入一個 Lambda 表達式作為入口，比如：

清單 3.例子 thread_run_lambda.cc

void threadRunLambda(void){
 int a = 100,
 b = 200;
 thread* t = new thread( [](int ia, int ib){
 cout << (ia + ib) << endl;
 },
 a,
 b );
 t->join();
 delete t;
}

一個類的成員函數也可以作為線程入口：

清單 4.例子 thread_run_member_func.cc

struct God{
 void create(const char* anything){
 cout << "create " << anything << endl;
 }
};
void threadRunMemberFunction(void){
 God god;
 thread* t = new thread( &God::create, god, "the world" );
 t->join();
 delete t; 

}

雖然 thread 類的初始化可以提供這麼豐富和方便的形式，其實現的底層依然是創建一個 pthread 線程並運行之，有些實現甚至是直接調用 pthread_create 來創建。

創建一個線程之後，我們還需要考慮一個問題：該如何處理這個線程的結束？一種方式是等待這個線程結束，在一個合適的地方調用 thread 實例的 join() 方法，調用者線程將會一直等待著目標線程的結束，當目標線程結束之後調用者線程繼續運行；另一個方式是將這個線程分離，由其自己結束，通過調用 thread 實例的 detach() 方法將目標線程置於分離模式。一個線程的 join() 方法與 detach() 方法只能調用一次，不能在調用了 join() 之後又調用 detach()，也不能在調用 detach() 之後又調用 join()，在調用了 join() 或者 detach() 之後，該線程的 id 即被置為默認值（空線程），表示不能繼續再對該線程作修改變化。如果沒有調用 join() 或者 detach()，那麼，在析構的時候，該線程實例將會調用 std::terminate()，這會導致整個進程退出，所以，如果沒有特別需要，一般都建議在生成子線程後調用其 join() 方法等待其退出，這樣子最起碼知道這些子線程在什麼時候已經確保結束。

在 C++11 裡面沒有提供 kill 掉某個線程的能力，只能被動地等待某個線程的自然結束，如果我們要主動停止某個線程的話，可以通過調用 Linux 操作系統提供的 pthread_kill 函數給目標線程發送信號來實現，示例如下：

清單 5.例子 thread_kill.cc

static void on_signal_term(int sig){
 cout << "on SIGTERM:" << this_thread::get_id() << endl;
 pthread_exit(NULL); 
}
void threadPosixKill(void){
 signal(SIGTERM, on_signal_term);
 thread* t = new thread( [](){
 while(true){
 ++counter;
 }
 });
 pthread_t tid = t->native_handle();
 cout << "tid=" << tid << endl;
 // 確保子線程已經在運行。
 this_thread::sleep_for( chrono::seconds(1) );
 pthread_kill(tid, SIGTERM);
 t->join();
 delete t;
 cout << "thread destroyed." << endl;
}

上述例子還可以用來給某個線程發送其它信號，具體的 pthread_exit 函數調用的約定依賴於具體的操作系統的實現，所以，這個方法是依賴於具體的操作系統的，而且，因為在 C++11 裡面沒有這方面的具體約定，用這種方式也是依賴於 C++編譯器的具體實現的。

線程類 std::thread 的其它方法和特點

thread 類是一個特殊的類，它不能被拷貝，只能被轉移或者互換，這是符合線程的語義的，不要忘記這裡所說的線程是直接被操作系統調度的。線程的轉移使用 move 函數，示例如下：

清單 6.例子 thread_move.cc

void threadMove(void){
 int a = 1;
 thread t( [](int* pa){
 for(;;){
 *pa = (*pa * 33) % 0x7fffffff;
 if ( ( (*pa) >> 30) & 1) break;
 }
 }, &a);
 thread t2 = move(t); // 改為 t2 = t 將不能編譯。
 t2.join();
 cout << "a=" << a << endl;
}

在這個例子中，如果將 t2.join() 改為 t.join() 將會導致整個進程被結束，因為忘記了調用 t2 也就是被轉移的線程的 join() 方法，從而導致整個進程被結束，而 t 則因為已經被轉移，其 id 已被置空。

線程實例互換使用 swap 函數，示例如下：

清單 7.例子 thread_swap.cc

void threadSwap(void){
 int a = 1;
 thread t( [](int* pa){
 for(;;){
 *pa = (*pa * 33) % 0x7fffffff;
 if ( ( (*pa) >> 30) & 1) break;
 }
 }, &a);
 thread t2;
 cout << "before swap: t=" << t.get_id() 
 << ", t2=" << t2.get_id() << endl;
 swap(t, t2);
 cout << "after swap : t=" << t.get_id() 
 << ", t2=" << t2.get_id() << endl;
 t2.join();
 cout << "a=" << a << endl;
}

互換和轉移很類似，但是互換僅僅進行實例（以 id 作標識）的互換，而轉移則在進行實例標識的互換之前，還進行了轉移目的實例（如下例的t2）的清理，如果 t2 是可聚合的（joinable() 方法返回 true），則調用 std::terminate()，這會導致整個進程退出，比如下面這個例子：

清單 8.例子 thread_move_term.cc

void threadMoveTerm(void){
 int a = 1;
 thread t( [](int* pa){
 for(;;){
 *pa = (*pa * 33) % 0x7fffffff;
 if ( ( (*pa) >> 30) & 1) break;
 }
 }, &a);
 thread t2( [](){
 int i = 0;
 for(;;)i++;
 } );
 t2 = move(t); // 將會導致 std::terminate()
 cout << "should not reach here" << endl;
 t2.join();
}

所以，在進行線程實例轉移的時候，要注意判斷目的實例的 id 是否為空值（即 id()）。

如果我們繼承了 thread 類，則還需要禁止拷貝構造函數、拷貝賦值函數以及賦值操作符重載函數等，另外，thread 類的析構函數並不是虛析構函數。示例如下：

清單 9.例子 thread_inherit.cc

class MyThread : public thread{
public:
 MyThread() noexcept : thread(){};
 template<typename>
 explicit
 MyThread(Callable&& func, Args&&... args) : 
 thread( std::forward<callable>(func), 
 std::forward<args>(args)...){
 }
 ~MyThread() { thread::~thread(); }
 // disable copy constructors
 MyThread( MyThread& ) = delete;
 MyThread( const MyThread& ) = delete;
 MyThread& operator=(const MyThread&) = delete;
};
/<args>/<callable>/<typename>

因為 thread 類的析構函數不是虛析構函數，在上例中，需要避免出現下面這種情況：

MyThread* tc = new MyThread(...);

...

thread* tp = tc;

...

delete tp;

這種情況會導致 MyThread 的析構函數沒有被調用。

線程的調度

我們可以調用 this_thread::yield() 將當前調用者線程切換到重新等待調度，但是不能對非調用者線程進行調度切換，也不能讓非調用者線程休眠（這是操作系統調度器乾的活）。

清單 10.例子 thread_yield.cc

void threadYield(void){
 unsigned int procs = thread::hardware_concurrency(), // 獲取物理線程數目
 i = 0;
 thread* ta = new thread( [](){
 struct timeval t1, t2;
 gettimeofday(&t1, NULL);
 for(int i = 0, m = 13; i < COUNT; i++, m *= 17){
 this_thread::yield();
 }
 gettimeofday(&t2, NULL);
 print_time(t1, t2, " with yield");
 } );
 thread** tb = new thread*[ procs ];
 for( i = 0; i < procs; i++){
 tb[i] = new thread( [](){
 struct timeval t1, t2;
 gettimeofday(&t1, NULL);
 for(int i = 0, m = 13; i < COUNT; i++, m *= 17){
 do_nothing();
 }
 gettimeofday(&t2, NULL);
 print_time(t1, t2, "without yield");
 });
 }
 ta->join();
 delete ta;
 for( i = 0; i < procs; i++){
 tb[i]->join();
 delete tb[i];
 };
 delete tb;
}

ta 線程因為需要經常切換去重新等待調度，它運行的時間要比 tb 要多，比如在作者的機器上運行得到如下結果：

$time ./a.out
without yield elapse 0.050199s
without yield elapse 0.051042s
without yield elapse 0.05139s
without yield elapse 0.048782s
 with yield elapse 1.63366s 

real 0m1.643s
user 0m1.175s
sys 0m0.611s

ta 線程即使扣除系統調用運行時間 0.611s 之後，它的運行時間也遠大於沒有進行切換的線程。

C++11 沒有提供調整線程的調度策略或者優先級的能力，如果需要，只能通過調用相關的 pthread 函數來進行，需要的時候，可以通過調用 thread 類實例的 native_handle() 方法或者操作系統 API pthread_self() 來獲得 pthread 線程 id，作為 pthread 函數的參數。

線程間的數據交互和數據爭用 (Data Racing)

同一個進程內的多個線程之間多是免不了要有數據互相來往的，隊列和共享數據是實現多個線程之間的數據交互的常用方式，封裝好的隊列使用起來相對來說不容易出錯一些，而共享數據則是最基本的也是較容易出錯的，因為它會產生數據爭用的情況，即有超過一個線程試圖同時搶佔某個資源，比如對某塊內存進行讀寫等，如下例所示：

清單 11.例子 thread_data_race.cc

static void
inc(int *p ){
 for(int i = 0; i < COUNT; i++){
 (*p)++;
 }
}
void threadDataRacing(void){ 

 int a = 0;
 thread ta( inc, &a);
 thread tb( inc, &a);
 ta.join();
 tb.join();
 cout << "a=" << a << endl;
}

這是簡化了的極端情況，我們可以一眼看出來這是兩個線程在同時對&a 這個內存地址進行寫操作，但是在實際工作中，在代碼的海洋中發現它並不一定容易。從表面看，兩個線程執行完之後，最後的 a 值應該是 COUNT * 2，但是實際上並非如此，因為簡單如 (*p)++這樣的操作並不是一個原子動作，要解決這個問題，對於簡單的基本類型數據如字符、整型、指針等，C++提供了原子模版類 atomic，而對於複雜的對象，則提供了最常用的鎖機制，比如互斥類 mutex，門鎖 lock_guard，唯一鎖 unique_lock，條件變量 condition_variable 等。

現在我們使用原子模版類 atomic 改造上述例子得到預期結果：

清單 12.例子 thread_atomic.cc

static void
inc(atomic *p ){
 for(int i = 0; i < COUNT; i++){
 (*p)++;
 }
}
void threadDataRacing(void){
 atomic a(0) ;
 thread ta( inc, &a);
 thread tb( inc, &a);
 ta.join(); 

 tb.join();
 cout << "a=" << a << endl;
}

我們也可以使用 lock_guard，lock_guard 是一個範圍鎖，本質是 RAII(Resource Acquire Is Initialization)，在構建的時候自動加鎖，在析構的時候自動解鎖，這保證了每一次加鎖都會得到解鎖。即使是調用函數發生了異常，在清理棧幀的時候也會調用它的析構函數得到解鎖，從而保證每次加鎖都會解鎖，但是我們不能手工調用加鎖方法或者解鎖方法來進行更加精細的資源佔用管理，使用 lock_guard 示例如下：

清單 13.例子 thread_lock_guard.cc

static mutex g_mutex;
static void
inc(int *p ){
 for(int i = 0; i < COUNT; i++){
 lock_guard<mutex> _(g_mutex);
 (*p)++;
 }
}
void threadLockGuard(void){
 int a = 0;
 thread ta( inc, &a);
 thread tb( inc, &a);
 ta.join();
 tb.join();
 cout << "a=" << a << endl;
}
/<mutex>

如果要支持手工加鎖，可以考慮使用 unique_lock 或者直接使用 mutex。unique_lock 也支持 RAII，它也可以一次性將多個鎖加鎖；如果使用 mutex 則直接調用 mutex 類的 lock, unlock, trylock 等方法進行更加精細的鎖管理：

清單 14.例子 thread_mutex.cc

static mutex g_mutex;
static void
inc(int *p ){
 thread_local int i; // TLS 變量
 for(; i < COUNT; i++){
 g_mutex.lock();
 (*p)++;
 g_mutex.unlock();
 }
}
void threadMutex(void){
 int a = 0;
 thread ta( inc, &a);
 thread tb( inc, &a);
 ta.join();
 tb.join();
 cout << "a=" << a << endl;
}

在上例中，我們還使用了線程本地存儲 (TLS) 變量，我們只需要在變量前面聲明它是 thread_local 即可。TLS 變量在線程棧內分配，線程棧只有在線程創建之後才生效，在線程退出的時候銷燬，需要注意不同系統的線程棧的大小是不同的，如果 TLS 變量佔用空間比較大，需要注意這個問題。TLS 變量一般不能跨線程，其初始化在調用線程第一次使用這個變量時進行，默認初始化為 0。

對於線程間的事件通知，C++11 提供了條件變量類 condition_variable，可視為 pthread_cond_t 的封裝，使用條件變量可以讓一個線程等待其它線程的通知 (wait，wait_for，wait_until)，也可以給其它線程發送通知 (notify_one，notify_all)，條件變量必須和鎖配合使用，在等待時因為有解鎖和重新加鎖，所以，在等待時必須使用可以手工解鎖和加鎖的鎖，比如 unique_lock，而不能使用 lock_guard，示例如下：

清單 15.例子 thread_cond_var.cc

#include <thread>
#include <iostream>
#include <condition>
using namespace std;
mutex m;
condition_variable cv;
void threadCondVar(void){
# define THREAD_COUNT 10
 thread** t = new thread*[THREAD_COUNT];
 int i;
 for(i = 0; i < THREAD_COUNT; i++){
 t[i] = new thread( [](int index){
 unique_lock<mutex> lck(m);
 cv.wait_for(lck, chrono::hours(1000));
 cout << index << endl;
 }, i );
 this_thread::sleep_for( chrono::milliseconds(50));
 }
 for(i = 0; i < THREAD_COUNT; i++){
 lock_guard<mutex> _(m);
 cv.notify_one();
 }
 for(i = 0; i < THREAD_COUNT; i++){
 t[i]->join();
 delete t[i];
 }
 delete t;
}
/<mutex>/<mutex>/<condition>/<iostream>/<thread>

從上例的運行結果也可以看到，條件變量是不保證次序的，即首先調用 wait 的不一定首先被喚醒。

幾個高級概念

C++11 提供了若干多線程編程的高級概念：promise/future, packaged_task, async，來簡化多線程編程，尤其是線程之間的數據交互比較簡單的情況下，讓我們可以將注意力更多地放在業務處理上。

promise/future 可以用來在線程之間進行簡單的數據交互，而不需要考慮鎖的問題，線程 A 將數據保存在一個 promise 變量中，另外一個線程 B 可以通過這個 promise 變量的 get_future() 獲取其值，當線程 A 尚未在 promise 變量中賦值時，線程 B 也可以等待這個 promise 變量的賦值：

清單 16.例子 thread_promise_future.cc

promise<string> val;
static void
threadPromiseFuture(){
 thread ta([](){
 future<string> fu = val.get_future();
 cout << "waiting promise->future" << endl;
 cout << fu.get() << endl;
 });
 thread tb([](){
 this_thread::sleep_for( chrono::milliseconds(100) );
 val.set_value("promise is set");
 });
 ta.join();
 tb.join();
}
/<string>/<string>

一個 future 變量只能調用一次 get()，如果需要多次調用 get()，可以使用 shared_future，通過 promise/future 還可以在線程之間傳遞異常。

如果將一個 callable 對象和一個 promise 組合，那就是 packaged_task，它可以進一步簡化操作：

清單 17.例子 thread_packaged_task.cc

static mutex g_mutex;
static void
threadPackagedTask(){
 auto run = [=](int index){ 
 {
 lock_guard<mutex> _(g_mutex);
 cout << "tasklet " << index << endl; 

 }
 this_thread::sleep_for( chrono::seconds(10) );
 return index * 1000;
 };
 packaged_task pt1(run);
 packaged_task pt2(run);
 thread t1([&](){pt1(2);} );
 thread t2([&](){pt2(3);} );
 int f1 = pt1.get_future().get();
 int f2 = pt2.get_future().get();
 cout << "task result=" << f1 << endl;
 cout << "task result=" << f2 << endl;
 t1.join();
 t2.join();
}
/<mutex>

我們還可以試圖將一個 packaged_task 和一個線程組合，那就是 async() 函數。使用 async() 函數啟動執行代碼，返回一個 future 對象來保存代碼返回值，不需要我們顯式地創建和銷燬線程等，而是由 C++11 庫的實現決定何時創建和銷燬線程，以及創建幾個線程等，示例如下：

清單 18.例子 thread_async.cc

static long
do_sum(vector<long> *arr, size_t start, size_t count){
 static mutex _m;
 long sum = 0;
 for(size_t i = 0; i < count; i++){
 sum += (*arr)[start + i];
 }
 {
 lock_guard<mutex> _(_m);
 cout << "thread " << this_thread::get_id() 
 << ", count=" << count
 << ", sum=" << sum << endl;
 }
 return sum;
} 

static void
threadAsync(){
# define COUNT 1000000
 vector<long> data(COUNT);
 for(size_t i = 0; i < COUNT; i++){
 data[i] = random() & 0xff;
 }
 //
 vector< future<long> > result;
 size_t ptc = thread::hardware_concurrency() * 2;
 for(size_t batch = 0; batch < ptc; batch++){
 size_t batch_each = COUNT / ptc;
 if (batch == ptc - 1){
 batch_each = COUNT - (COUNT / ptc * batch);
 }
 result.push_back(async(do_sum, &data, batch * batch_each, batch_each));
 }
 long total = 0;
 for(size_t batch = 0; batch < ptc; batch++){
 total += result[batch].get();
 }
 cout << "total=" << total << endl;
}
/<long>/<long>/<mutex>/<long>

如果是在多核或者多 CPU 的環境上面運行上述例子，仔細觀察輸出結果，可能會發現有些線程 ID 是重複的，這說明重複使用了線程，也就是說，通過使用 async() 還可達到一些線程池的功能。

幾個需要注意的地方

thread 同時也是棉線、毛線、絲線等意思，我想大家都能體會面對一團亂麻不知從何處查找頭緒的感受，不要忘了，線程不是靜態的，它是不斷變化的，請想像一下面對一團會動態變化的亂麻的情景。所以，使用多線程技術的首要準則是我們自己要十分清楚我們的線程在哪裡？線頭（線程入口和出口）在哪裡？先安排好線程的運行，注意不同線程的交叉點（訪問或者修改同一個資源，包括內存、I/O 設備等），儘量減少線程的交叉點，要知道幾條線堆在一起最怕的是互相打結。

當我們的確需要不同線程訪問一個共同的資源時，一般都需要進行加鎖保護，否則很可能會出現數據不一致的情況，從而出現各種時現時不現的莫名其妙的問題，加鎖保護時有幾個問題需要特別注意：一是一個線程內連續多次調用非遞歸鎖 (non-recursive lock) 的加鎖動作，這很可能會導致異常；二是加鎖的粒度；三是出現死鎖 (deadlock)，多個線程互相等待對方釋放鎖導致這些線程全部處於罷工狀態。

第一個問題只要根據場景調用合適的鎖即可，當我們可能會在某個線程內重複調用某個鎖的加鎖動作時，我們應該使用遞歸鎖 (recursive lock)，在 C++11 中，可以根據需要來使用 recursive_mutex，或者 recursive_timed_mutex。

第二個問題，即鎖的粒度，原則上應該是粒度越小越好，那意味著阻塞的時間越少，效率更高，比如一個數據庫，給一個數據行 (data row) 加鎖當然比給一個表 (table) 加鎖要高效，但是同時複雜度也會越大，越容易出錯，比如死鎖等。

對於第三個問題我們需要先看下出現死鎖的條件：

資源互斥，某個資源在某一時刻只能被一個線程持有 (hold)；
吃著碗裡的還看著鍋裡的，持有一個以上的互斥資源的線程在等待被其它進程持有的互斥資源；
不可搶佔，只有在某互斥資源的持有線程釋放了該資源之後，其它線程才能去持有該資源；
環形等待，有兩個或者兩個以上的線程各自持有某些互斥資源，並且各自在等待其它線程所持有的互斥資源。

我們只要不讓上述四個條件中的任意一個不成立即可。在設計的時候，非常有必要先分析一下會否出現滿足四個條件的情況，特別是檢查有無試圖去同時保持兩個或者兩個以上的鎖，當我們發現試圖去同時保持兩個或者兩個以上的鎖的時候，就需要特別警惕了。下面我們來看一個簡化了的死鎖的例子：

清單 19.例子 thread_deadlock.cc

static mutex g_mutex1, g_mutex2;
static void
inc1(int *p ){
 for(int i = 0; i < COUNT; i++){
 g_mutex1.lock();
 (*p)++;
 g_mutex2.lock();
 // do something.
 g_mutex2.unlock();
 g_mutex1.unlock();
 }
}
static void
inc2(int *p ){
 for(int i = 0; i < COUNT; i++){
 g_mutex2.lock();
 g_mutex1.lock();
 (*p)++; 

 g_mutex1.unlock();
 // do other thing.
 g_mutex2.unlock();
 }
}
void threadMutex(void){
 int a = 0;
 thread ta( inc1, &a);
 thread tb( inc2, &a);
 ta.join();
 tb.join();
 cout << "a=" << a << endl;
}

在這個例子中，g_mutex1 和 g_mutex2 都是互斥的資源，任意時刻都只有一個線程可以持有（加鎖成功），而且只有持有線程調用 unlock 釋放鎖資源的時候其它線程才能去持有，滿足條件 1 和 3，線程 ta 持有了 g_mutex1 之後，在釋放 g_mutex1 之前試圖去持有 g_mutex2，而線程 tb 持有了 g_mutex2 之後，在釋放 g_mutex2 之前試圖去持有 g_mutex1，滿足條件 2 和 4，這種情況之下，當線程 ta 試圖去持有 g_mutex2 的時候，如果 tb 正持有 g_mutex2 而試圖去持有 g_mutex1 時就發生了死鎖。在有些環境下，可能要多次運行這個例子才出現死鎖，實際工作中這種偶現特性讓查找問題變難。要破除這個死鎖，我們只要按如下代碼所示破除條件 3 和 4 即可：

清單 20.例子 thread_break_deadlock.cc

static mutex g_mutex1, g_mutex2;
static voi
inc1(int *p ){
 for(int i = 0; i < COUNT; i++){
 g_mutex1.lock();
 (*p)++;
 g_mutex1.unlock();
 g_mutex2.lock();
 // do something. 

 g_mutex2.unlock();
 }
}
static void
inc2(int *p ){
 for(int i = 0; i < COUNT; i++){
 g_mutex2.lock();
 // do other thing.
 g_mutex2.unlock();
 g_mutex1.lock();
 (*p)++;
 g_mutex1.unlock();
 }
}
void threadMutex(void){
 int a = 0;
 thread ta( inc1, &a);
 thread tb( inc2, &a);
 ta.join();
 tb.join();
 cout << "a=" << a << endl;
}

在一些複雜的並行編程場景，如何避免死鎖是一個很重要的話題，在實踐中，當我們看到有兩個鎖嵌套加鎖的時候就要特別提高警惕，它極有可能滿足了條件 2 或者 4。

結束語

上述例子在 CentOS 6.5，g++ 4.8.1/g++4.9 以及 clang 3.5 下面編譯通過，在編譯的時候，請注意下述幾點：

設置 -std=c++11；
鏈接的時候設置 -pthread；
使用 g++編譯鏈接時設置 -Wl,--no-as-needed 傳給鏈接器，有些版本的 g++需要這個設置；
設置宏定義 -D_REENTRANT，有些庫函數是依賴於這個宏定義來確定是否使用多線程版本的。

具體可以參考本文所附的代碼中的 Makefile 文件。

在用 gdb 調試多線程程序的時候，可以輸入命令 info threads 查看當前的線程列表，通過命令 thread n 切換到第 n 個線程的上下文，這裡的 n 是 info threads 命令輸出的線程索引數字，例如，如果要切換到第 2 個線程的上下文，則輸入命令 thread 2。

聰明地使用多線程，擁抱多線程吧。

分享到:

閱讀更多 5歲能擡頭 的文章

關鍵字: 多線程中央處理器並行計算

Linux：頁表中PGD、PUD、PMD等概念介紹

Linux FAT 文件系統預讀缺陷，補丁提升 7 倍性能

Linux 下epoll 網絡模型為什麼需要epoll?

Windows 支持直接訪問 Linux 子系統文件：你的下一臺 Linux 何必是 Linux

體驗 DebianDog：Puppy 式的 Debian Linux

Linux 最常用命令：簡單易學

kali Linux 筆記

2020 Kali linux root權限修正版

Linux 用戶登錄記錄

Linux 內核到底長啥樣？

如何在 Linux 中更改 MAC 地址

linux 查看機器cpu核數

一文看懂如何使用 Linux seq 命令生成數字序列

Linux 系統查看服務器SN序列號以及服務器型號

免費在線試用 200+ Linux 和 Unix 操作系統

03.07 Linux 下進入文件，提示沒有那個文件或者目錄問題

玩轉 Linux，掌握這些 Linux 命令就夠了

03.04 玩轉 Linux，掌握這些 Linux 命令就夠了

03.01 Linux 常見高危操作

02.27 Linux 守護進程創建原理及簡易方法

Kali-Linux-2020.1 安裝/Live USB啟動盤製作

樹莓派 Linux 操作系統大全

02.22 玩轉 Linux，掌握這些 Linux 命令就夠了

「LINUX」乾貨：文件批量轉換為UTF8編碼-enca

linux poll機制

優麒麟UKUI桌面環境登陸Arch Linux

比 Deepin Linux 更好的 Linux 發行版

「Linux」 Centos7系統介紹與安裝

01.28 為什麼說 Manjaro Linux 是最好用的 Linux

「重要」Kali Linux 使用風險提示

12.17 「重要」Kali Linux 使用風險提示

Linux Kernel 5.5 最終刪除 SYSCTL 系統調用

發行版介紹-Oracle Linux

全面介紹 Linux 權限

Linux 系統調用 API 之文件 I

linux C GDB 調試技巧

如何升級 Linux Mint 19.1 為 Linux Mint 19.2

Linux 學習筆記之，特殊權限 SUIG、SGID、SBIT

linux 課程學習第三天

02.02 監控 Linux 服務器活動的幾個命令

理解 Linux 網絡棧：Linux 網絡協議棧簡單總結

「Linux」使用tc命令增加網絡延時

09.10 介紹 Linux 中的管道和命名管道

Linux 虛擬機與 Linux Live 鏡像

Oracle Linux 系統如何去註冊使用堅不可摧 Linux 網絡（ULN）

04.23 Linux 文件與目錄管理常用命令

03.26 linux-netstat已經過時，你該用ss了！

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"