Linux C實現純用戶態搶佔式多線程

2020-03-27 16:33:05 編程資源庫

所謂搶佔式多線程調度，就是不依靠線程自己來放棄CPU從而將執行權交給別的線程，而是靠一種外部主動干擾模式的調度機制，在需要調度的時刻，強行剝奪當前線程的執行權，依靠策略選擇另一個線程來運行。

當時之所以沒有找到優雅的方案，是因為我沒有找到什麼地方可以同時做到兩件事：

中斷當前的線程執行，進入一個handler來根據調度策略實施調度和切換。

在這個handler中修改該進程的寄存器上下文，剝奪當前線程的執行權交給另一個線程。

首先，上述第1點是可以用信號完成的，比如用alarm函數，可以實現分時中斷。然而在中斷處理函數中，我沒有找到修改寄存器的方法，曾經想過用setjmp/longjmp，然而失敗，最終使用PTRACE機制實現了一個無比醜陋和粗糙的。

在九年前的文章的中，開篇我就說純用戶空間的搶佔式多線程庫其實是很麻煩的一件事！確實麻煩，之所以這麼認為就是因為上面的難題沒有解決。

當時確實是術業不精啊。後面的幾年，自己也沒怎麼看過Linux內核信號處理相關的東西。

週六恰逢正則喝完奶睡著了之後，我一個人又不能出去浪，突然就又想到了這個問題。我發誓要找一個優雅的方案出來，畢竟九年過去了，我想自己的內功應該比那時強太多了。

確實，這個方案也真的是信手拈來。

我知道，Linux進程在執行流返回用戶態前處理信號的時候，要調用信號處理函數，而這個信號處理函數是定義在用戶態的，所以Linux進程為了可以執行這個handler函數，便需要自己setup一下用戶態堆棧。

而這個機制，恰恰給了我們修改寄存器的機會。

九年前，我一直以為用戶態的寄存器上下文在完全返回用戶態之前，始終是保存在內核棧上，無法修改。但事實上，當執行信號處理函數的時候，內核會把該進程內核棧上的寄存器上下文sigcontext拷貝到用戶態的堆棧中，再壓入一個sigreturn系統調用作為返回地址，然後等信號處理函數完成後，sigreturn將會自動陷入內核，再將用戶態的sigcontext拷貝回內核棧，以徹底完成信號處理，恢復進程的寄存器上下文。

也就是說，當信號處理函數被執行時，是可以在當前堆棧上找到寄存器上下文的，我們只需要在堆棧上找sigcontext結構體即可。這時，我們對其進行修改，然後這些被修改過的寄存器上下文將會在信號處理完成返回內核時，更新內核棧上的寄存器上下文，從而達到我們的目的。

那麼，我先寫一個信號處理函數，看看信號處理函數執行時，堆棧上都有什麼：

<code>#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <signal.h>
int i, j, k = 0;
unsigned char *stack_buffer;
unsigned long *p;
void sig_start(int signo)
{
\tunsigned long a = 0x1234567811223344;
\tp = (unsigned char *)&a;
\tstack_buffer = (unsigned char *)&a;
\t// 以下按照8字節為一組，打印堆棧的內容
\tprintf("----begin stack----\\n");
\tfor (i = 0; i < 32; i++) {
\t\tfor (j = 0; j < 8; j++) {
\t\t\tprintf(" %.2x", stack_buffer[k]);
\t\t\tk++;
\t\t}
\t\tprintf("\\n");
\t}
\tprintf("----end stack----\\n");
\tif (signo = SIGINT)
\t\tsignal(SIGINT, NULL);
\tif (signo = SIGHUP)
\t\tsignal(SIGHUP, NULL);
\treturn;
}
int main()
{
\tprintf("process id is %d  %p %p\\n",getpid(), main, wait_start);
\tsignal(SIGINT, sig_start);
\tsignal(SIGHUP, sig_start);
\tfor (;;);
}/<signal.h>/<string.h>/<stdlib.h>/<stdio.h>/<unistd.h>/<code>

讓我們執行之，按下Ctrl-C給它一個SIGINT信號，看看打印的堆棧的內容：

我是在x86_64平臺上做的實驗，所以我們要看x86_64的rt_sigframe結構體，它位於：

arch/x86/include/asm/sigframe.h:

<code>#ifdef CONFIG_X86_64
struct rt_sigframe {
    char __user *pretcode;
    struct ucontext uc;
    struct siginfo info;
    /* fp state follows here */
};
...
/* 一路追溯，看看rt_sigframe展開後的樣子 */
// include/uapi/asm-generic/ucontext.h
struct ucontext {
    unsigned long     uc_flags;
    struct ucontext  *uc_link;
    stack_t       uc_stack;
    struct sigcontext uc_mcontext;  // 這個就是我們要找的東西！
    sigset_t      uc_sigmask;   /* mask last for extensibility */
};/<code>

計算一下偏移位置，正好是處在 pretcode字段的 58 字節處。也就是說，只要我們找到信號處理函數的 pretcode 偏移，將其再加 58=40 字節就是sigcontext結構體了，這個結構體裡全部都是寄存器：

<code>struct sigcontext {
    __u64 r8;
    __u64 r9;
    __u64 r10;
    __u64 r11;
    __u64 r12;
    __u64 r13;
    __u64 r14;
    __u64 r15;
    __u64 rdi;
    __u64 rsi;
    __u64 rbp;
    __u64 rbx; 

    __u64 rdx;
    __u64 rax;
    __u64 rcx;
    __u64 rsp;
    __u64 rip;
    __u64 eflags;       /* RFLAGS */
    __u16 cs;
    __u16 gs;
    __u16 fs;
    __u16 __pad0;
    __u64 err;
    __u64 trapno;
    __u64 oldmask;
    __u64 cr2;
    struct _fpstate *fpstate;   /* zero when no FPU context */
#ifdef __ILP32__
    __u32 __fpstate_pad;
#endif
    __u64 reserved1[8];
};/<code>

我們所謂的純用戶態線程調度，就是在信號處理函數里save/restore上述的結構體就好了，而上述的結構體的位置，我們已經知道它在哪裡了。

<code>#include <unistd.h>
#include <fcntl.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <signal.h>
// 僅僅是測試demo，分配4096字節的stack足夠了。
#define STACK_SIZE\t\t4096
/* 
 * 為什麼是72？
 * 因為我們在信號處理中增加了一個局部變量，這樣pretcode的偏移就是32字節了。
 * 於是32+40=72！
 */
#define CONTEXT_OFFSET\t72
// rip寄存器相對於局部變量a的偏移。注意rip在sigcontext中的偏移是16 

#define PC_OFFSET\t\t200
int wait_start()
{
\tfor (;;) {
\t\tsleep(1000);
\t}
}
// 線程1的處理函數
void thread1()
{
\tint a = 1, ret = 0;
\tchar buf[64];
\tint fd = open("./file", O_RDWR);
\tfor (;;) {
\t\t// 線程1持續往一個文件裡寫內容。
\t\tsnprintf(buf, 32, "user thread 1 stack: %p  value:%d\\n", &a, a++);
\t\tret = write(fd, buf, 32);
\t\tprintf("write buffer to file:%s  size=%d\\n", buf, ret);
\t\tsleep(1);
\t}
}
// 線程2的處理函數
void thread2()
{
\tint a = 2;
\tfor (;;) {
\t\t// 線程2隨便打印些自己棧上的什麼東西。
\t\tprintf("tcp user cong 2 stack: %p  value:%d\\n", &a, a++);
\t\tsleep(1);
\t}
}
unsigned char *buf;
int start = 0;
struct sigcontext context[2];
struct sigcontext *curr_con;
unsigned long pc[2];
int idx = 0;
unsigned char *stack1, *stack2;
// SIGINT用來啟動所有線程，每次信號啟動一個。
void sig_start(int dunno)
{
\tunsigned long a = 0, *p;
\tif (start == 0) {  // 啟動第一個線程 

\t\t// 首先定位到sigcontext的rip，啟動線程僅僅修改rip即可，目標是跳入到thread1線程處理函數
\t\tp = (unsigned long*)((unsigned char *)&a + PC_OFFSET);
\t\t*p = pc[0];
\t\t// 定位到sigcontext
\t\tp = (unsigned long *)((unsigned char *)&a + CONTEXT_OFFSET);
\t\tcurr_con = (struct sigcontext *)p;
\t\t// 初始化其堆棧寄存器為為該線程分配的獨立堆棧空間。
\t\tcurr_con->rsp = curr_con->rbp = (unsigned long)((unsigned char *)stack1 + STACK_SIZE);
\t\tstart++;
\t} else if (start == 1) { // 啟動第二個線程
\t\t// 定位線程1的sigcontext，保存其上下文，因為馬上就要schedule線程2了。
\t\tp = (unsigned long *)((unsigned char *)&a + CONTEXT_OFFSET);
\t\tcurr_con = (struct sigcontext *)p;
\t\tmemcpy((void *)&context[0], (const void *)curr_con, sizeof(struct sigcontext));
\t\t// 保存第一個線程的上下文後再定位到sigcontext的rip並修改之，同線程1
\t\tp = (unsigned long *)((char*)&a + PC_OFFSET);
\t\tidx = 1;
\t\t*p = pc[1];
\t\tp = (unsigned long *)((unsigned char *)&a + CONTEXT_OFFSET);
\t\tcurr_con = (struct sigcontext *)p;
\t\t// 初始化其堆棧寄存器為為該線程分配的獨立堆棧空間。
\t\tcurr_con->rsp = curr_con->rbp = (unsigned long)((unsigned char *)stack2 + STACK_SIZE);
\t\tstart++;
\t\t// 兩個線程均啟動完畢，開啟時間片輪轉調度吧。
\t\talarm(2);
\t\tsignal(SIGINT, NULL);
\t}
\treturn;
}
void sig_schedule(int unused)
{
\tunsigned long a = 0;
\tunsigned char *p;
\t
\t// 保存當前線程的上下文 

\tp = (unsigned char *)((unsigned char *)&a + CONTEXT_OFFSET);
\tcurr_con = (struct sigcontext *)p;
\tmemcpy((void *)&context[idx%2], curr_con, sizeof(struct sigcontext));
\t
\t// 輪轉調度下一個線程，恢復其上下文。
\tidx++;
\tmemcpy(curr_con, (void *)&context[idx%2], sizeof(struct sigcontext));
\t// 2秒後再調度
\talarm(2);
\treturn;
}
int main()
{
\tprintf("process id is %d  %p %p\\n",getpid(), thread1, thread2);
\t
\t// 為兩個線程分配stack空間。
\t// 注意，線程的stack空間一定要獨立，不然函數調用會衝突的。
\tstack1 = (unsigned char *)calloc(1, 4096);
\tstack2 = (unsigned char *)calloc(1, 4096);
\tsignal(SIGINT, sig_start);
\tsignal(SIGALRM, sig_schedule);
\tpc[0] = (unsigned long)thread1;
\tpc[1] = (unsigned long)thread2;
\twait_start();
}/<signal.h>/<string.h>/<stdlib.h>/<stdio.h>/<fcntl.h>/<unistd.h>/<code>

效果如下：

可以看出，兩個線程完美交替執行！

第一個例子有點複雜了，我們換個簡單的：

<code>void thread1()
{
    int i = 1;
    while (1) {
        printf("I am thread:%d\\n", i);
        sleep(1);
    }
}
void thread2()
{
    int i = 2;
    while (1) {
        printf("I am thread:%d\\n", i);
        sleep(1);
    }
}/<code>

效果如下：

以上的純用戶態多線程設計中，沒有使用任何操作系統進程級別以外的數據結構存儲線程上下文，這就是純用戶態的含義。我們看到所有的線程上下文以及線程調度相關的數據結構都存儲在單獨的一個進程地址空間。

換句話說，在單獨的該進程之外，沒人意識得到這個多線程的存在！這個容納用戶態多線程的進程容器，就是一個虛擬機實例，它完成了線程硬件上下文的save/restore，調度，切換，就像Linux內核之於Linux進程所做的那般。

我說，我的這個純用戶態搶佔式多線程，使用了信號處理機制。

有人會問，不是說 “純” 用戶態嗎？幹嘛用信號？信號不是內核機制嗎？

是的，信號是內核機制，但這裡的關注點不在信號是不是內核機制，而是“需要一個第三方來實施搶佔式調度”，為什麼需要 “第三方”？

因為搶佔式多線程不是協作式多線程，既然線程自己不參與調度決策，那就必然需要第三方來決策。使用信號只是一種方式，由於我在Linux系統做這個用戶態多線程，信號恰恰是可以滿足需求的。當然，也可以不用信號，如果你能找到等價的機制也是可以的。

【注意⚠️：採用信號機制來搶佔的開銷確實有點大，但是這只是一種可實現的方式，並不是唯一方式，此外，這種搶佔式調度完全是可以和協作式調度比如協程協同工作的，只有在發生某種不得不搶佔的事件後，才實施信號搶佔。】

需要C/C++ Linux服務器架構師學習資料私信“資料”（資料包括C/C++，Linux，golang技術，Nginx，ZeroMQ，MySQL，Redis，fastdfs，MongoDB，ZK，流媒體，CDN，P2P，K8S，Docker，TCP/IP，協程，DPDK，ffmpeg等），免費分享

分享到:

閱讀更多 編程資源庫 的文章

關鍵字: 中央處理器 Linux 搶佔

Linux：頁表中PGD、PUD、PMD等概念介紹

Linux FAT 文件系統預讀缺陷，補丁提升 7 倍性能

Linux 下epoll 網絡模型為什麼需要epoll?

Windows 支持直接訪問 Linux 子系統文件：你的下一臺 Linux 何必是 Linux

體驗 DebianDog：Puppy 式的 Debian Linux

Linux 最常用命令：簡單易學

kali Linux 筆記

2020 Kali linux root權限修正版

Linux 用戶登錄記錄

Linux 內核到底長啥樣？

如何在 Linux 中更改 MAC 地址

linux 查看機器cpu核數

一文看懂如何使用 Linux seq 命令生成數字序列

Linux 系統查看服務器SN序列號以及服務器型號

免費在線試用 200+ Linux 和 Unix 操作系統

03.07 Linux 下進入文件，提示沒有那個文件或者目錄問題

玩轉 Linux，掌握這些 Linux 命令就夠了

03.04 玩轉 Linux，掌握這些 Linux 命令就夠了

03.01 Linux 常見高危操作

02.27 Linux 守護進程創建原理及簡易方法

Kali-Linux-2020.1 安裝/Live USB啟動盤製作

樹莓派 Linux 操作系統大全

02.22 玩轉 Linux，掌握這些 Linux 命令就夠了

「LINUX」乾貨：文件批量轉換為UTF8編碼-enca

linux poll機制

優麒麟UKUI桌面環境登陸Arch Linux

比 Deepin Linux 更好的 Linux 發行版

「Linux」 Centos7系統介紹與安裝

01.28 為什麼說 Manjaro Linux 是最好用的 Linux

「重要」Kali Linux 使用風險提示

12.17 「重要」Kali Linux 使用風險提示

Linux Kernel 5.5 最終刪除 SYSCTL 系統調用

發行版介紹-Oracle Linux

全面介紹 Linux 權限

Linux 系統調用 API 之文件 I

linux C GDB 調試技巧

如何升級 Linux Mint 19.1 為 Linux Mint 19.2

Linux 學習筆記之，特殊權限 SUIG、SGID、SBIT

linux 課程學習第三天

02.02 監控 Linux 服務器活動的幾個命令

理解 Linux 網絡棧：Linux 網絡協議棧簡單總結

「Linux」使用tc命令增加網絡延時

09.10 介紹 Linux 中的管道和命名管道

Linux 虛擬機與 Linux Live 鏡像

Oracle Linux 系統如何去註冊使用堅不可摧 Linux 網絡（ULN）

04.23 Linux 文件與目錄管理常用命令

03.26 linux-netstat已經過時，你該用ss了！

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"