Linux HIDS agent 概要和用戶態 HOOK（一）

2019-12-23 11:02:35 安全客

前言:最近在實現linux的HIDS agent, 搜索資料時發現雖然資料不少, 但是每一篇文章都各自有側重點, 少有循序漸進, 講的比較全面的中文文章, 在一步步學習中踩了不少坑, 在這裡將以進程信息收集作為切入點就如何實現一個HIDS的agent做詳細說明, 希望對各位師傅有所幫助.

1. 什麼是HIDS?

主機入侵檢測, 通常分為agent和server兩個部分

其中agent負責收集信息, 並將相關信息整理後發送給server.

server通常作為信息中心, 部署由安全人員編寫的規則(目前HIDS的規則還沒有一個編寫的規範),收集從各種安全組件獲取的數據(這些數據也可能來自waf, NIDS等), 進行分析, 根據規則判斷主機行為是否異常, 並對主機的異常行為進行告警和提示.

HIDS存在的目的在於在管理員管理海量IDC時不會被安全事件弄的手忙腳亂, 可以通過信息中心對每一臺主機的健康狀態進行監視.

相關的開源項目有OSSEC, OSquery等, OSSEC是一個已經構建完善的HIDS, 有agent端和server端, 有自帶的規則, 基礎的rootkit檢測, 敏感文件修改提醒等功能, 並且被包含到了一個叫做wazuh的開源項目, OSquery是一個facebook研發的開源項目, 可以作為一個agent端對主機相關數據進行收集, 但是server和規則需要自己實現.

每一個公司的HIDS agent都會根據自身需要定製, 或多或少的增加一些個性化的功能, 一個基礎的HIDS agent一般需要實現的有:

收集進程信息
收集網絡信息
週期性的收集開放端口
監控敏感文件修改

下文將從實現一個agent入手, 圍繞agent討論如何實現一個HIDS agent的進程信息收集模塊

2. agent進程監控模塊提要

2.1進程監控的目的

在Linux操作系統中幾乎所有的運維操作和入侵行為都會體現到執行的命令中, 而命令執行的本質就是啟動進程, 所以對進程的監控就是對命令執行的監控, 這對運維操作升級和入侵行為分析都有極大的幫助

2.2 進程監控模塊應當獲取的數據

既然要獲取信息那就先要明確需要什麼, 如果不知道需要什麼信息, 那實現便無從談起, 即便硬著頭皮先實現一個能獲取pid等基礎信息的HIDS, 後期也會因為缺少規劃而頻繁改動接口, 白白耗費人力, 這裡參考《互聯網企業安全高級指南》給出一個獲取信息的基礎列表, 在後面會補全這張表的的獲取方式

數據名稱含義path可執行文件的路徑ppath父進程可執行文件路徑ENV環境變量cmdline進程啟動命令pcmdline父進程啟動命令pid進程idppid父進程idpgid進程組idsid進程會話iduid啟動進程用戶的uideuid啟動進程用戶的euidgid啟動進程用戶的用戶組idegid啟動進程用戶的egidmode可執行文件的權限owner_uid文件所有者的uidowner_gid文件所有者的gidcreate_time文件創建時間modify_time最近的文件修改時間pstart_time進程開始運行的時間prun_time父進程已經運行的時間sys_time當前系統時間fd文件描述符

2.3 進程監控的方式

進程監控, 通常使用hook技術, 而這些hook大概分為兩類:

應用級(工作在r3, 常見的就是劫持libc庫, 通常簡單但是可能被繞過 – 內核級(工作在r0或者r1, 內核級hook通常和系統調用VFS有關, 較為複雜, 且在不同的發行版, 不同的內核版本間均可能產生兼容性問題, hook出現嚴重的錯誤時可能導致kenrel panic, 相對的無法從原理上被繞過

首先從簡單的應用級hook說起

3. HIDS 應用級hook

3.1 劫持libc庫

庫用於打包函數, 被打包過後的函數可以直接使用, 其中linux分為靜態庫和動態庫, 其中動態庫是在加載應用程序時才被加載, 而程序對於動態庫有加載順序, 可以通過修改 /etc/ld.so.preload 來手動優先加載一個動態鏈接庫, 在這個動態鏈接庫中可以在程序調用原函數之前就把原來的函數先換掉, 然後在自己的函數中執行了自己的邏輯之後再去調用原來的函數返回原來的函數應當返回的結果.

想要詳細瞭解的同學, 參考這篇文章

劫持libc庫有以下幾個步驟:

3.1.1 編譯一個動態鏈接庫

一個簡單的hook execve的動態鏈接庫如下.
邏輯非常簡單

自定義一個函數命名為execve, 接受參數的類型要和原來的execve相同
執行自己的邏輯

<code>#define _GNU_SOURCE#include <unistd.h>#include <dlfcn.h>typedef ssize_t (*execve_func_t)(const char* filename, char* const argv[], char* const envp[]);static execve_func_t old_execve = NULL;int execve(const char* filename, char* const argv[], char* const envp[]) {        //從這裡開始是自己的邏輯, 即進程調用execve函數時你要做什麼    printf("Running hookn");    //下面是尋找和調用原本的execve函數, 並返回調用結果    old_execve = dlsym(RTLD_NEXT, "execve");    return old_execve(filename, argv, envp);}/<dlfcn.h>/<unistd.h>/<code>

通過gcc編譯為so文件.

<code>gcc -shared -fPIC -o libmodule.so module.c/<code>

3.1.2 修改ld.so.preload

ld.so.preload是LD_PRELOAD環境變量的配置文件, 通過修改該文件的內容為指定的動態鏈接庫文件路徑,

注意只有root才可以修改ld.so.preload, 除非默認的權限被改動了

自定義一個execve函數如下:

<code>extern char **environ;int execve(const char* filename, char* const argv[], char* const envp[]) {    for (int i = 0; *(environ + i) ; i++)    {        printf("%sn", *(environ + i));    }    printf("PID:%dn", getpid());    old_execve = dlsym(RTLD_NEXT, "execve");    return old_execve(filename, argv, envp);}/<code>

可以輸出當前進程的Pid和所有的環境變量, 編譯後修改ld.so.preload, 重啟shell, 運行ls命令結果如下

3.1.3 libc hook的優缺點

優點: 性能較好, 比較穩定, 相對於LKM更加簡單, 適配性也很高, 通常對抗web層面的入侵.

缺點: 對於靜態編譯的程序束手無策, 存在一定被繞過的風險.

3.1.4 hook與信息獲取

設立hook, 是為了建立監控點, 獲取進程的相關信息, 但是如果hook的部分寫的過大過多, 會導致影響正常的業務的運行效率, 這是業務所不能接受的, 在通常的HIDS中會將可以不在hook處獲取的信息放在agent中獲取, 這樣信息獲取和業務邏輯併發執行, 降低對業務的影響.

4 信息補全與獲取

如果對信息的準確性要求不是很高, 同時希望盡一切可能的不影響部署在HIDS主機上的正常業務那麼可以選擇hook只獲取PID和環境變量等必要的數據, 然後將這些東西交給agent, 由agent繼續獲取進程的其他相關信息, 也就是說獲取進程其他信息的同時, 進程就已經繼續運行了, 而不需要等待agent獲取完整的信息表.

/proc/[pid]/stat

/proc是內核向用戶態提供的一組fifo接口, 通過偽文件目錄的形式調用接口

每一個進程相關的信息, 會被放到以pid命名的文件夾當中, ps等命令也是通過遍歷/proc目錄來獲取進程的相關信息的.

一個stat文件內容如下所示, 下面self是/proc目錄提供的一個快捷的查看自己進程信息的接口, 每一個進程訪問/self時看到都是自己的信息.

<code>#cat /proc/self/stat3119 (cat) R 29973 3119 19885 34821 3119 4194304 107 0 0 0 0 0 0 0 20 0 1 0 5794695 5562368 176 18446744073709551615 94309027168256 94309027193225 140731267701520 0 0 0 0 0 0 0 0 0 17 0 0 0 0 0 0 94309027212368 94309027213920 94309053399040 140731267704821 140731267704841 140731267704841 140731267706859 0/<code>

會發現這些數據雜亂無章, 使用空格作為每一個數據的邊界, 沒有地方說明這些數據各自表達什麼意思.

一般折騰找到了一篇文章裡面給出了一個列表, 這個表裡面說明了每一個數據的數據類型和其表達的含義, 見文章附錄1

最後整理出一個有52個數據項每個數據項類型各不相同的結構體, 獲取起來還是有點麻煩, 網上沒有找到輪子, 所以自己寫了一個

具體的結構體定義:

<code>struct proc_stat {    int pid; //process ID.    char* comm; //可執行文件名稱, 會用()包圍    char state; //進程狀態    int ppid;   //父進程pid    int pgid;    int session;    //sid    int tty_nr;         int tpgid;    unsigned int flags;    long unsigned int minflt;    long unsigned int cminflt;    long unsigned int majflt;    long unsigned int cmajflt;    long unsigned int utime;    long unsigned int stime;    long int cutime;    long int cstime;    long int priority;    long int nice;    long int num_threads;    long int itrealvalue;    long long unsigned int starttime;    long unsigned int vsize;    long int rss;    long unsigned int rsslim;    long unsigned int startcode;    long unsigned int endcode;    long unsigned int startstack;    long unsigned int kstkesp;    long unsigned int kstkeip;    long unsigned int signal;   //The bitmap of pending signals    long unsigned int blocked;    long unsigned int sigignore;    long unsigned int sigcatch;    long unsigned int wchan;    long unsigned int nswap;    long unsigned int cnswap;    int exit_signal;    int processor;    unsigned int rt_priority;    unsigned int policy;    long long unsigned int delayacct_blkio_ticks;    long unsigned int guest_time;    long int cguest_time;    long unsigned int start_data;       long unsigned int end_data;    long unsigned int start_brk;        long unsigned int arg_start;    //參數起始地址    long unsigned int arg_end;      //參數結束地址    long unsigned int env_start;    //環境變量在內存中的起始地址    long unsigned int env_end;      //環境變量的結束地址    int exit_code; //退出狀態碼};/<code>

從文件中讀入並格式化為結構體:

<code>struct proc_stat get_proc_stat(int Pid) {    FILE *f = NULL;    struct proc_stat stat = {0};    char tmp[100] = "0";    stat.comm = tmp;    char stat_path[20];    char* pstat_path = stat_path;    if (Pid != -1) {        sprintf(stat_path, "/proc/%d/stat", Pid);    } else {        pstat_path = "/proc/self/stat";    }    if ((f = fopen(pstat_path, "r")) == NULL) {        printf("open file error");        return stat;    }    fscanf(f, "%d ", &stat.pid);    fscanf(f, "(%100s ", stat.comm);    tmp[strlen(tmp)-1] = '';    fscanf(f, "%c ", &stat.state);    fscanf(f, "%d ", &stat.ppid);    fscanf(f, "%d ", &stat.pgid);    fscanf (            f,            "%d %d %d %u %lu %lu %lu %lu %lu %lu %ld %ld %ld %ld %ld %ld %llu %lu %ld %lu %lu %lu %lu %lu %lu %lu %lu %lu %lu %lu %lu %lu %d %d %u %u %llu %lu %ld %lu %lu %lu %lu %lu %lu %lu %d",            &stat.session, &stat.tty_nr, &stat.tpgid, &stat.flags, &stat.minflt,            &stat.cminflt, &stat.majflt, &stat.cmajflt, &stat.utime, &stat.stime,            &stat.cutime, &stat.cstime, &stat.priority, &stat.nice, &stat.num_threads,            &stat.itrealvalue, &stat.starttime, &stat.vsize, &stat.rss, &stat.rsslim,            &stat.startcode, &stat.endcode, &stat.startstack, &stat.kstkesp, &stat.kstkeip,            &stat.signal, &stat.blocked, &stat.sigignore, &stat.sigcatch, &stat.wchan,            &stat.nswap, &stat.cnswap, &stat.exit_signal, &stat.processor, &stat.rt_priority,            &stat.policy, &stat.delayacct_blkio_ticks, &stat.guest_time, &stat.cguest_time, &stat.start_data,            &stat.end_data, &stat.start_brk, &stat.arg_start, &stat.arg_end, &stat.env_start,            &stat.env_end, &stat.exit_code    );    fclose(f);    return stat;}/<code>

和我們需要獲取的數據做了一下對比, 可以獲取以下數據

ppid父進程idpgid進程組idsid進程會話idstart_time父進程開始運行的時間run_time父進程已經運行的時間

/proc/[pid]/exe

通過/proc/[pid]/exe獲取可執行文件的路徑, 這裡/proc/[pid]/exe是指向可執行文件的軟鏈接, 所以這裡通過readlink函數獲取軟鏈接指向的地址.

這裡在讀取時需要注意如果readlink讀取的文件已經被刪除, 讀取的文件名後會多一個 (deleted), 但是agent也不能盲目刪除文件結尾時的對應字符串, 所以在寫server規則時需要注意這種情況

<code>char *get_proc_path(int Pid) {    char stat_path[20];    char* pstat_path = stat_path;    char dir[PATH_MAX] = {0};    char* pdir = dir;    if (Pid != -1) {        sprintf(stat_path, "/proc/%d/exe", Pid);    } else {        pstat_path = "/proc/self/exe";    }    readlink(pstat_path, dir, PATH_MAX);    return pdir;}/<code>

/proc/[pid]/cmdline

獲取進程啟動的是啟動命令, 可以通過獲取/proc/[pid]/cmdline的內容來獲得, 這個獲取裡面有兩個坑點

由於啟動命令長度不定, 為了避免溢出, 需要先獲取長度, 在用malloc申請堆空間, 然後再將數據讀取進變量.
/proc/self/cmdline文件裡面所有的空格和回車都會變成 ”也不知道為啥, 所以需要手動換源回來, 而且若干個相連的空格也只會變成一個”.

這裡獲取長度的辦法比較蠢, 但是用fseek直接將文件指針移到文件末尾的辦法每次返回的都是0, 也不知道咋辦了, 只能先這樣

<code>long get_file_length(FILE* f) {    fseek(f,0L,SEEK_SET);    char ch;    ch = (char)getc(f);    long i;    for (i = 0;ch != EOF; i++ ) {        ch = (char)getc(f);    }    i++;    fseek(f,0L,SEEK_SET);    return i;}/<code>

獲取cmdline的內容

<code>char* get_proc_cmdline(int Pid) {    FILE* f;    char stat_path[100] = {0};    char* pstat_path = stat_path;    if (Pid != -1) {        sprintf(stat_path, "/proc/%d/cmdline", Pid);    } else {        pstat_path = "/proc/self/cmdline";    }    if ((f = fopen(pstat_path, "r")) == NULL) {        printf("open file error");        return "";    }    char* pcmdline = (char *)malloc((size_t)get_file_length(f));    char ch;    ch = (char)getc(f);    for (int i = 0;ch != EOF; i++ ) {        *(pcmdline + i) = ch;        ch = (char)getc(f);        if ((int)ch == 0) {            ch = ' ';        }    }    return pcmdline;}/<code>

小結

這裡寫的只是實現的一種最常見最簡單的應用級hook的方法具體實現和代碼已經放在了github上, 同時github上的代碼會保持更新, 下次的文章會分享如何使用LKM修改sys_call_table來hook系統調用的方式來實現HIDS的hook.

參考文章

https://www.freebuf.com/articles/system/54263.html
http://abcdefghijklmnopqrst.xyz/2018/07/30/Linux_INT80/
https://cloud.tencent.com/developer/news/337625
https://github.com/g0dA/linuxStack/blob/master/%E8%BF%9B%E7%A8%8B%E9%9A%90%E8%97%8F%E6%8A%80%E6%9C%AF%E7%9A%84%E6%94%BB%E4%B8%8E%E9%98%B2-%E6%94%BB%E7%AF%87.md

附錄1

這裡完整的說明了/proc目錄下每一個文件具體的意義是什麼.
http://man7.org/linux/man-pages/man5/proc.5.html

轉載自：u2400@知道創宇404實驗室

原文鏈接：https://www.anquanke.com/post/id/195478

分享到:

閱讀更多 安全客 的文章

關鍵字: 技術概要 Linux

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"