Nginx 基於epoll模型事件驅動流程詳解

2020-01-21 14:52:14 技術宅愛Java

epoll是一種基於事件驅動的模型，其是nginx能夠高效處理客戶端請求的重要原因之一。從流程上來講，epoll模型的使用主要分為三步：epoll句柄的創建，監聽文件描述符的添加和等待事件的觸發，本文將介紹nginx是如何基於這三個步驟實現客戶端請求的高效處理的。

1. epoll模型介紹

在介紹nginx的實現原理之前，我們首先需要介紹一下epoll模型的基本使用方式。epoll在使用的時候主要有三個方法：

<code>// 創建epoll句柄
int epoll_create(int size);/<code>

<code>// 往epoll句柄中添加需要進行監聽的文件描述符
int epoll_ctl(int epfd,int op,int fd,struct epoll_event* event);/<code>

<code>// 等待需要監聽的文件描述符上對應的事件的發生
int epoll_wait(int epfd,struct epoll_event* events,int maxevents,int timeout);/<code>

首先，我們會調用epoll_create()方法創建一個epoll實例的句柄，可以將這裡的句柄理解為一個eventpoll結構體實例，而這個結構體中有一個紅黑樹和一個隊列，紅黑樹中主要存儲需要監聽的文件描述符，而隊列則是在所監聽的文件描述符中有指定的事件發生時就會將這些事件添加到隊列中，如下圖所示為eventpoll的示意圖：

一般來說，這個epoll句柄在程序的整個運行週期中只會有一個，比如nginx每個worker進程就都只維護了一個epoll句柄。在創建完句柄之後，對於我們的程序監聽的每一個端口，其實本質上也都是一個文件描述符，這個文件描述符上是可以發生Accept事件，也即接收到客戶端請求的。因而，初始時，我們會將需要監聽的端口對應的文件描述符通過epoll_ctl()方法添加到epoll句柄中。添加成功之後，這每一個監聽的文件描述符就對應了eventpoll的紅黑樹中的一個節點。另外，在調用epoll_ctl()方法添加了文件描述符之後，會將其與相應的設備（網卡）進行關聯，當設備驅動發生某個事件時，就會回調當前文件描述符的回調方法ep_poll_callback()，從而生成一個事件，並且將該事件添加到eventpoll的事件隊列中。最後，當我們調用epoll_wait()方法時，就會從epoll句柄中獲取對應的事件，本質上就是檢查eventpoll的事件隊列是否為空，如果有事件則將其返回，否則就會等待事件的發生。另外，對於epoll的使用，這裡獲取的事件一般都是Accept事件，而在處理這個事件的時候，會獲取客戶端的連接的句柄，這個句柄本質上也是一個文件描述符，此時我們則會將其繼續通過epoll_ctl()方法添加到當前的epoll句柄中，以繼續通過epoll_wait()方法等待其數據的讀取和寫入事件。

通過這裡我們可以看出，在epoll使用的過程中，會有兩類文件描述符，一類是我們所監聽的端口所對應的文件描述符，這類描述符我們一般監聽其Accept事件，以等待客戶端連接，另一類則是每個客戶端連接所對應的一個文件描述符，而這裡描述符我們一般監聽其讀寫事件以接收和發送數據給客戶端。

2. nginx中epoll實現方式

在前面的文章中，我們講解了nginx是如何初始化事件驅動框架的，其中講到事件框架的一個核心模塊的定義如下：

<code>ngx_module_t ngx_event_core_module = {
    NGX_MODULE_V1,
    &ngx_event_core_module_ctx,            /* module context */
    ngx_event_core_commands,               /* module directives */
    NGX_EVENT_MODULE,                      /* module type */
    NULL,                                  /* init master */
    // 該方法主要是在master進程啟動的過程中調用的，用於初始化時間模塊
    ngx_event_module_init,                 /* init module */
    // 該方法是在各個worker進程啟動之後調用的
    ngx_event_process_init,                /* init process */
    NULL,                                  /* init thread */
    NULL,                                  /* exit thread */
    NULL,                                  /* exit process */
    NULL,                                  /* exit master */
    NGX_MODULE_V1_PADDING
};/<code>

這裡我們需要特別注意一下ngx_event_process_init()方法，我們講到，這個方法是在每個worker創建的時候進行初始化調用的，這裡面就涉及到兩個非常重要的調用：a. 進行對應的事件模型的初始化；b. 監聽配置文件中指定的各個端口。如下是這兩個步驟的主要代碼：

<code>static ngx_int_t ngx_event_process_init(ngx_cycle_t *cycle) {
  // 省略部分代碼....
  
  // 在nginx.conf配置文件的events{}配置塊中需要使用use指令指定當前使用的事件模型， 

  // 此時就會將所使用的事件模型的索引號存儲在ecf->use中，下面的代碼就是通過這種方式獲取當前
  // 所指定的事件模型所對應的模塊的，然後調用該模塊的actions.init()方法初始化該事件模型
  for (m = 0; cycle->modules[m]; m++) {
    if (cycle->modules[m]->type != NGX_EVENT_MODULE) {
      continue;
    }

    // ecf->use存儲了所選用的事件模型的模塊序號，這裡是找到該模塊
    if (cycle->modules[m]->ctx_index != ecf->use) {
      continue;
    }

    // module即為所選用的事件模型對應的模塊
    module = cycle->modules[m]->ctx;

    // 調用指定事件模型的初始化方法
    if (module->actions.init(cycle, ngx_timer_resolution) != NGX_OK) {
      exit(2);
    }

    break;
  }

  // 省略部分代碼...
  
  ls = cycle->listening.elts;
  for (i = 0; i < cycle->listening.nelts; i++) {

#if (NGX_HAVE_REUSEPORT)
    if (ls[i].reuseport && ls[i].worker != ngx_worker) {
      continue;
    }
#endif

    // 這裡是為當前所監聽的每一個端口都綁定一個ngx_connection_t結構體 

    c = ngx_get_connection(ls[i].fd, cycle->log);

    if (c == NULL) {
      return NGX_ERROR;
    }

    rev = c->read;

    // SOCK_STREAM表示TCP，一般都是TCP，也就是說在接收到客戶端的accept事件之後，
    // 就會調用ngx_event_accept()方法處理該事件
    rev->handler = (c->type == SOCK_STREAM) ? ngx_event_accept : ngx_event_recvmsg;

    if ((ngx_event_flags & NGX_USE_EPOLL_EVENT) && ccf->worker_processes > 1) {
        if (ngx_add_event(rev, NGX_READ_EVENT, NGX_EXCLUSIVE_EVENT) == NGX_ERROR) {
            return NGX_ERROR;
        }

        continue;
    }
  }

  return NGX_OK;
}/<code>

對這裡的代碼主要完成了如下幾部分的工作：

首先找到所使用的事件模型模塊，然後調用其init()方法初始化該模型，這個方法裡主要做了兩件事，一個是通過epoll_create()方法創建一個epoll句柄，該句柄是當前worker進程運行的一個基礎；另一個是為全局變量ngx_event_actions進行了賦值，即：

<code>// 這裡將epoll相關的事件操作方法賦值給ngx_event_actions，
// 也就是說後續有相關的事件發生則都會使用epoll相關的方法
ngx_event_actions = ngx_epoll_module_ctx.actions;/<code>

這個賦值的調用是非常重要的，在賦值之後，nginx所定義的幾個方法宏就都是使用的epoll模塊中所指定的方法，這裡的幾個宏定義如下：

<code>#define ngx_process_events   ngx_event_actions.process_events
#define ngx_done_events      ngx_event_actions.done

#define ngx_add_event        ngx_event_actions.add
#define ngx_del_event        ngx_event_actions.del
#define ngx_add_conn         ngx_event_actions.add_conn
#define ngx_del_conn         ngx_event_actions.del_conn/<code>

而這裡的ngx_epoll_module_ctx.actions結構體的定義如下：

<code>{
  // 對應於ngx_event_actions_t中的add方法
  ngx_epoll_add_event,             /* add an event */
  // 對應於ngx_event_actions_t中的del方法
  ngx_epoll_del_event,             /* delete an event */
  // 對應於ngx_event_actions_t中的enable方法，與add方法一致
  ngx_epoll_add_event,             /* enable an event */
  // 對應於ngx_event_actions_t中的disable方法，與del方法一致
  ngx_epoll_del_event,             /* disable an event */
  // 對應於ngx_event_actions_t中的add_conn方法
  ngx_epoll_add_connection,        /* add an connection */
  // 對應於ngx_event_actions_t中的del_conn方法
  ngx_epoll_del_connection,        /* delete an connection */
  #if (NGX_HAVE_EVENTFD)
  ngx_epoll_notify,                /* trigger a notify */
  #else
  NULL,                            /* trigger a notify */
  #endif
  // 對應於ngx_event_actions_t中的process_events方法
  ngx_epoll_process_events,        /* process the events */
  // 對應於ngx_event_actions_t中的init方法
  ngx_epoll_init,                  /* init the events */
  // 對應於ngx_event_actions_t中的done方法
  ngx_epoll_done,                  /* done the events */ 

}/<code>

由此，就可以看出nginx出色的設計方式了，通過我們所選用的事件模型，就可以動態的為ngx_add_event()等宏指定所實現的子模塊了。

上面的方法完成的第二個主要的工作就是遍歷所有監聽的端口，獲取其描述符，然後通過ngx_add_event()方法將其添加到epoll句柄中以監聽其客戶端連接事件。從這裡就可以感覺到比較巧妙了，因為上面一步中正好對epoll模塊進行了初始化，並且設置了ngx_add_event()宏的實現方法，而這裡就使用到了這裡設置的方法，該方法本質上就是通過epoll_ctl()方法將當前監聽的socket描述符添加到epoll句柄中；
最後就是上面的方法在遍歷所有監聽的端口的時候，為每個連接的accept事件添加的回調方法是ngx_event_accept()，通過前面我們對epoll模型的使用方式的介紹，我們大概可以理解，這裡的ngx_event_accept()方法的主要作用是將當前accept到的客戶端連接的句柄通過epoll_ctl()方法添加到當前epoll句柄中，以繼續監聽其讀寫事件；

這裡我們首先看一下上面第一點中介紹的module->actions.init(cycle, ngx_timer_resolution)方法調用時是如何初始化epoll模塊的。由於是epoll模塊，這裡的init()方法指向的就是ngx_epoll_init()方法，如下是該方法的源碼：

<code>static ngx_int_t ngx_epoll_init(ngx_cycle_t *cycle, ngx_msec_t timer) { 

  ngx_epoll_conf_t *epcf;

  // 獲取解析得到的ngx_epoll_conf_t結構體
  epcf = ngx_event_get_conf(cycle->conf_ctx, ngx_epoll_module);

  if (ep == -1) {
    // 創建eventpoll結構體，將創建得到的文件描述符返回
    ep = epoll_create(cycle->connection_n / 2);

    // ep==-1表示創建失敗
    if (ep == -1) {
      ngx_log_error(NGX_LOG_EMERG, cycle->log, ngx_errno,
                    "epoll_create() failed");
      return NGX_ERROR;
    }
  }

  // 如果nevents小於epcf->events，說明event_list數組的長度不夠，因而需要重新申請內存空間
  if (nevents < epcf->events) {
    if (event_list) {
      ngx_free(event_list);
    }

    // 為event_list重新申請內存空間
    event_list = ngx_alloc(sizeof(struct epoll_event) * epcf->events, cycle->log);
    if (event_list == NULL) {
      return NGX_ERROR;
    }
  }

  // 將nevents更新為配置文件中指定的大小
  nevents = epcf->events;

  ngx_io = ngx_os_io;

  // 這裡將epoll相關的事件操作方法賦值給ngx_event_actions，也就是說後續有相關的事件發生則
  // 都會使用epoll相關的方法
  ngx_event_actions = ngx_epoll_module_ctx.actions; 


  // 這裡NGX_USE_CLEAR_EVENT指的是使用ET模式來使用epoll，默認使用ET模式，
  // 而NGX_USE_LEVEL_EVENT表示使用LE模式來使用epoll
#if (NGX_HAVE_CLEAR_EVENT)
  ngx_event_flags = NGX_USE_CLEAR_EVENT
                    #else
                    ngx_event_flags = NGX_USE_LEVEL_EVENT
                    #endif
                        // NGX_USE_GREEDY_EVENT表示每次拉取事件是都嘗試拉取最多的事件
                    | NGX_USE_GREEDY_EVENT
                    | NGX_USE_EPOLL_EVENT;

  return NGX_OK;
}/<code>

可以看到，這裡的ngx_epoll_init()方法主要的作用有兩個：a. 通過epoll_create()方法創建一個epoll句柄；b. 設置ngx_event_actions屬性所指向的方法的實現，從而確定ngx_add_event()等宏的實現方法。下面我們來看一下ngx_add_event()是如何將需要監聽的文件描述符添加到epoll句柄中的：

<code>static ngx_int_t ngx_epoll_add_event(ngx_event_t *ev, ngx_int_t event, ngx_uint_t flags) {
  int op;
  uint32_t events, prev;
  ngx_event_t *e;
  ngx_connection_t *c;
  struct epoll_event ee;

  // ev->data在使用的過程中存儲的是當前對應的ngx_connection_t，如果是free_connection，
  // 則存儲的是下一個節點的指針
  c = ev->data;

  // 事件類型
  events = (uint32_t) event;

  // 如果是讀事件
  if (event == NGX_READ_EVENT) { 

    e = c->write;
    prev = EPOLLOUT;
#if (NGX_READ_EVENT != EPOLLIN | EPOLLRDHUP)
    events = EPOLLIN | EPOLLRDHUP;  // 設置讀事件類型
#endif

  } else {
    e = c->read;
    prev = EPOLLIN | EPOLLRDHUP;
#if (NGX_WRITE_EVENT != EPOLLOUT)
    events = EPOLLOUT;  // 設置寫事件類型
#endif
  }

  // 根據active標誌位確定是否為活躍事件，以決定到底是修改還是添加事件
  if (e->active) {
    op = EPOLL_CTL_MOD; // 類型為修改事件
    events |= prev;

  } else {
    op = EPOLL_CTL_ADD; // 類型為添加事件
  }

#if (NGX_HAVE_EPOLLEXCLUSIVE && NGX_HAVE_EPOLLRDHUP)
  if (flags & NGX_EXCLUSIVE_EVENT) {
      events &= ~EPOLLRDHUP;
  }
#endif

  // 將flags參數指定的事件添加到監聽列表中
  ee.events = events | (uint32_t) flags;
  // 這裡是將connection指針的最後一位賦值為ev->instance，然後將其賦值給事件的ptr屬性，通過這種方式檢測事件是否過期
  ee.data.ptr = (void *) ((uintptr_t) c | ev->instance);

  ngx_log_debug3(NGX_LOG_DEBUG_EVENT, ev->log, 0,
                 "epoll add event: fd:%d op:%d ev:%08XD",
                 c->fd, op, ee.events);

  // 將事件添加到epoll句柄中 

  if (epoll_ctl(ep, op, c->fd, &ee) == -1) {
    ngx_log_error(NGX_LOG_ALERT, ev->log, ngx_errno,
                  "epoll_ctl(%d, %d) failed", op, c->fd);
    return NGX_ERROR;
  }

  // 將事件標記為活躍狀態
  ev->active = 1;
#if 0
  ev->oneshot = (flags & NGX_ONESHOT_EVENT) ? 1 : 0;
#endif

  return NGX_OK;
}/<code>

這裡的ngx_add_event()方法本質上是比較簡單的，就是將當前的ngx_event_t轉換為一個epoll_event結構體，並且會設置該結構體中需要監聽的事件類型，然後通過epoll_ctl()方法將當前epoll_event添加到epoll句柄中。

在前面的ngx_event_process_init()方法中，nginx通過ngx_add_event()方法將各個監聽的端口的描述符添加到epoll句柄中之後，就會開始監聽這些描述符上的accept連接事件，如果有客戶端連接請求，此時就會回調ngx_event_accept()方法處理該請求，我們來看一下該方法是如何處理客戶端建立連接的請求的：

<code>/**
 * 當客戶端有accept事件到達時，將調用此方法處理該事件
 */
void ngx_event_accept(ngx_event_t *ev) {
  socklen_t socklen;
  ngx_err_t err;
  ngx_log_t *log;
  ngx_uint_t level;
  ngx_socket_t s;
  ngx_event_t *rev, *wev;
  ngx_sockaddr_t sa; 

  ngx_listening_t *ls;
  ngx_connection_t *c, *lc;
  ngx_event_conf_t *ecf;
#if (NGX_HAVE_ACCEPT4)
  static ngx_uint_t  use_accept4 = 1;
#endif

  if (ev->timedout) {
    // 如果當前事件超時了，則繼續將其添加到epoll句柄中以監聽accept事件
    if (ngx_enable_accept_events((ngx_cycle_t *) ngx_cycle) != NGX_OK) {
      return;
    }

    ev->timedout = 0;
  }

  // 獲取解析event核心配置結構體
  ecf = ngx_event_get_conf(ngx_cycle->conf_ctx, ngx_event_core_module);

  if (!(ngx_event_flags & NGX_USE_KQUEUE_EVENT)) {
    ev->available = ecf->multi_accept;
  }

  lc = ev->data;
  ls = lc->listening;
  ev->ready = 0;

  do {
    socklen = sizeof(ngx_sockaddr_t);

#if (NGX_HAVE_ACCEPT4)
    if (use_accept4) {
        s = accept4(lc->fd, &sa.sockaddr, &socklen, SOCK_NONBLOCK);
    } else {
        s = accept(lc->fd, &sa.sockaddr, &socklen);
    }
#else
    // 這裡lc->fd指向的是監聽的文件句柄，調用accept()獲取客戶端的連接，並且將其存儲到sa.sockaddr中
    s = accept(lc->fd, &sa.sockaddr, &socklen);
#endif

    // 檢查當前進程獲取的連接個數是否超過了最大可用連接數的7/8，是則不再繼續接收連接 

    ngx_accept_disabled = ngx_cycle->connection_n / 8 - ngx_cycle->free_connection_n;

    // 獲取新的連接
    c = ngx_get_connection(s, ev->log);

    // 獲取連接失敗則直接返回
    if (c == NULL) {
      if (ngx_close_socket(s) == -1) {
        ngx_log_error(NGX_LOG_ALERT, ev->log, ngx_socket_errno,
                      ngx_close_socket_n
                          " failed");
      }

      return;
    }

    // 標記當前為TCP連接
    c->type = SOCK_STREAM;

    // 為當前連接創建連接池
    c->pool = ngx_create_pool(ls->pool_size, ev->log);
    if (c->pool == NULL) {
      ngx_close_accepted_connection(c);
      return;
    }

    // 更新socklen的長度
    if (socklen > (socklen_t) sizeof(ngx_sockaddr_t)) {
      socklen = sizeof(ngx_sockaddr_t);
    }

    // 為sockaddr申請內存空間，並且將客戶端連接地址複製到c->sockaddr中
    c->sockaddr = ngx_palloc(c->pool, socklen);
    if (c->sockaddr == NULL) {
      ngx_close_accepted_connection(c);
      return;
    }

    ngx_memcpy(c->sockaddr, &sa, socklen);

    // 申請ngx_log_t結構體的內存空間
    log = ngx_palloc(c->pool, sizeof(ngx_log_t));
    if (log == NULL) { 

      ngx_close_accepted_connection(c);
      return;
    }

    /* set a blocking mode for iocp and non-blocking mode for others */

    if (ngx_inherited_nonblocking) {
      if (ngx_event_flags & NGX_USE_IOCP_EVENT) {
        // 將連接設置為阻塞模式
        if (ngx_blocking(s) == -1) {
          ngx_log_error(NGX_LOG_ALERT, ev->log, ngx_socket_errno,
                        ngx_blocking_n
                            " failed");
          ngx_close_accepted_connection(c);
          return;
        }
      }

    } else {
      if (!(ngx_event_flags & NGX_USE_IOCP_EVENT)) {
        // 將連接設置為非阻塞模式
        if (ngx_nonblocking(s) == -1) {
          ngx_log_error(NGX_LOG_ALERT, ev->log, ngx_socket_errno,
                        ngx_nonblocking_n
                            " failed");
          ngx_close_accepted_connection(c);
          return;
        }
      }
    }

    *log = ls->log;

    // 設置連接的基本屬性
    c->recv = ngx_recv;
    c->send = ngx_send;
    c->recv_chain = ngx_recv_chain;
    c->send_chain = ngx_send_chain;

    c->log = log;
    c->pool->log = log;

    c->socklen = socklen;
    c->listening = ls;
    c->local_sockaddr = ls->sockaddr;
    c->local_socklen = ls->socklen;
 

#if (NGX_HAVE_UNIX_DOMAIN)
    if (c->sockaddr->sa_family == AF_UNIX) {
      c->tcp_nopush = NGX_TCP_NOPUSH_DISABLED;
      c->tcp_nodelay = NGX_TCP_NODELAY_DISABLED;
#if (NGX_SOLARIS)
      /* Solaris's sendfilev() supports AF_NCA, AF_INET, and AF_INET6 */
      c->sendfile = 0;
#endif
    }
#endif

    rev = c->read;
    wev = c->write;

    wev->ready = 1;

    if (ngx_event_flags & NGX_USE_IOCP_EVENT) {
      rev->ready = 1;
    }

    if (ev->deferred_accept) {
      rev->ready = 1;
#if (NGX_HAVE_KQUEUE || NGX_HAVE_EPOLLRDHUP)
      rev->available = 1;
#endif
    }

    rev->log = log;
    wev->log = log;

    // 更新連接使用次數
    c->number = ngx_atomic_fetch_add(ngx_connection_counter, 1);

    // 將網絡地址更新為字符串形式的地址
    if (ls->addr_ntop) {
      c->addr_text.data = ngx_pnalloc(c->pool, ls->addr_text_max_len);
      if (c->addr_text.data == NULL) {
        ngx_close_accepted_connection(c);
        return;
      }

      c->addr_text.len = ngx_sock_ntop(c->sockaddr, c->socklen,
                                       c->addr_text.data,
                                       ls->addr_text_max_len, 0);
      if (c->addr_text.len == 0) {
        ngx_close_accepted_connection(c);
        return;
      } 

    }

#if (NGX_DEBUG)
    {
    ngx_str_t  addr;
    u_char     text[NGX_SOCKADDR_STRLEN];

    ngx_debug_accepted_connection(ecf, c);

    if (log->log_level & NGX_LOG_DEBUG_EVENT) {
        addr.data = text;
        addr.len = ngx_sock_ntop(c->sockaddr, c->socklen, text,
                                 NGX_SOCKADDR_STRLEN, 1);

        ngx_log_debug3(NGX_LOG_DEBUG_EVENT, log, 0,
                       "*%uA accept: %V fd:%d", c->number, &addr, s);
    }

    }
#endif

    // 將當前連接添加到epoll句柄中進行監控
    if (ngx_add_conn && (ngx_event_flags & NGX_USE_EPOLL_EVENT) == 0) {
      if (ngx_add_conn(c) == NGX_ERROR) {
        ngx_close_accepted_connection(c);
        return;
      }
    }

    log->data = NULL;
    log->handler = NULL;

    // 建立新連接之後的回調方法
    ls->handler(c);

    if (ngx_event_flags & NGX_USE_KQUEUE_EVENT) {
      ev->available--;
    }

  } while (ev->available);
}/<code>

這裡客戶端連接的建立過程主要可以分為如下幾個步驟：

首先調用accept()方法獲取當前客戶端建立的連接，並且將其地址信息保存到結構體sa中；
接著通過調用ngx_get_connection()方法獲取一個ngx_connection_t結構體以對應當前獲取到的客戶端連接，並且會初始化該結構體的各個屬性；
調用ngx_add_conn()方法將當前方法添加到epoll句柄中，這裡的添加過程本質上就是通過epoll_ctl()方法將當前客戶端的連接的文件描述符添加到epoll句柄中，以監聽其讀寫事件；

如此我們就講解了從epoll句柄的創建，到指定的端口的監聽，接著處理客戶端連接，並且將客戶端連接對應的文件描述符繼續添加到epoll句柄中以監聽讀寫事件的流程。下面我們繼續來看一下nginx是如何等待所監聽的這些句柄上的事件的發生的，也即整個事件框架的驅動程序。worker進程對於事件的處理，主要在ngx_process_events_and_timers()方法中，如下是該方法的源碼：

<code>void ngx_process_events_and_timers(ngx_cycle_t *cycle) {
\t// 嘗試獲取共享鎖
  if (ngx_trylock_accept_mutex(cycle) == NGX_ERROR) {
    return;
  }

  // 這裡開始處理事件，對於kqueue模型，其指向的是ngx_kqueue_process_events()方法，
  // 而對於epoll模型，其指向的是ngx_epoll_process_events()方法
  // 這個方法的主要作用是，在對應的事件模型中獲取事件列表，然後將事件添加到ngx_posted_accept_events 

  // 隊列或者ngx_posted_events隊列中
  (void) ngx_process_events(cycle, timer, flags);

  // 這裡開始處理accept事件，將其交由ngx_event_accept.c的ngx_event_accept()方法處理；
  ngx_event_process_posted(cycle, &ngx_posted_accept_events);

  // 開始釋放鎖
  if (ngx_accept_mutex_held) {
    ngx_shmtx_unlock(&ngx_accept_mutex);
  }

  // 如果不需要在事件隊列中進行處理，則直接處理該事件
  // 對於事件的處理，如果是accept事件，則將其交由ngx_event_accept.c的ngx_event_accept()方法處理；
  // 如果是讀事件，則將其交由ngx_http_request.c的ngx_http_wait_request_handler()方法處理；
  // 對於處理完成的事件，最後會交由ngx_http_request.c的ngx_http_keepalive_handler()方法處理。

  // 這裡開始處理除accept事件外的其他事件
  ngx_event_process_posted(cycle, &ngx_posted_events);
}
/<code>

這裡的ngx_process_events_and_timers()方法我們省略了大部分代碼，只留下了主要的流程。簡而言之，其主要實現瞭如下幾個步驟的工作：

獲取共享鎖，以得到獲取客戶端連接的權限；
調用ngx_process_events()方法監聽epoll句柄中各個文件描述符的事件，並且處理這些事件。在前面我們講到，nginx在調用epoll模塊的init()方法時，初始化了ngx_event_actions屬性的值，將其指向了epoll模塊所實現的方法，這裡就包括ngx_process_events方法宏所對應的方法，也即ngx_epoll_process_events()方法，因而這裡其實就可以理解，ngx_epoll_process_events()方法本質上就是調用epoll_wait()方法等待epoll句柄上所監聽的事件的發生；
處理ngx_posted_accept_events隊列中的事件，這些事件其實就是前面講到的客戶端建立連接的事件，在ngx_epoll_process_events()方法中獲取到事件之後，會判斷其是accept事件還是讀寫事件，如果是accept事件，就會將其添加到ngx_posted_accept_events隊列中，如果是讀寫事件，就會將其添加到ngx_posted_events隊列中；
釋放共享鎖，以讓其他的worker進程可以獲取鎖，從而接收客戶端連接；
處理ngx_posted_events隊列中的事件，也即客戶端連接的讀寫事件。從這裡就可以看出nginx高性能的一個原因，其將accept事件和讀寫事件放到了兩個不同的隊列中，accept事件是必須在鎖內部處理的，而讀寫事件則可以異步於accept事件，這提高了nginx處理客戶端請求的能力。

下面我們來看一下ngx_epoll_process_events()方法是如何處理epoll句柄中的事件的：

<code>static ngx_int_t ngx_epoll_process_events(ngx_cycle_t *cycle, ngx_msec_t timer, ngx_uint_t flags) {
  int events;
  uint32_t revents;
  ngx_int_t instance, i;
  ngx_uint_t level;
  ngx_err_t err;
  ngx_event_t *rev, *wev;
  ngx_queue_t *queue;
  ngx_connection_t *c;

  /* NGX_TIMER_INFINITE == INFTIM */

  ngx_log_debug1(NGX_LOG_DEBUG_EVENT, cycle->log, 0,
                 "epoll timer: %M", timer);

  // 通過epoll_wait()方法進行事件的獲取，獲取到的事件將存放在event_list中，並且會將獲取的事件個數返回 

  events = epoll_wait(ep, event_list, (int) nevents, timer);

  err = (events == -1) ? ngx_errno : 0;

  // 這裡的ngx_event_timer_alarm是通過一個定時器任務來觸發的，在定時器中會將其置為1，
  // 從而實現定期更新nginx緩存的時間的目的
  if (flags & NGX_UPDATE_TIME || ngx_event_timer_alarm) {
    ngx_time_update();
  }

  if (err) {
    if (err == NGX_EINTR) {

      if (ngx_event_timer_alarm) {
        ngx_event_timer_alarm = 0;
        return NGX_OK;
      }

      level = NGX_LOG_INFO;

    } else {
      level = NGX_LOG_ALERT;
    }

    ngx_log_error(level, cycle->log, err, "epoll_wait() failed");
    return NGX_ERROR;
  }

  // 獲取的事件個數為0
  if (events == 0) {
    // 如果當前時間類型不為NGX_TIMER_INFINITE，說明獲取事件超時了，則直接返回
    if (timer != NGX_TIMER_INFINITE) {
      return NGX_OK;
    }

    // 這裡說明時間類型為NGX_TIMER_INFINITE，但是卻返回了0個事件，說明epoll_wait()調用出現了問題
    ngx_log_error(NGX_LOG_ALERT, cycle->log, 0,
                  "epoll_wait() returned no events without timeout");
    return NGX_ERROR;
  } 


  // 遍歷各個事件
  for (i = 0; i < events; i++) {
    // 每個事件的data.ptr中存儲了當前事件對應的connection對象
    c = event_list[i].data.ptr;

    // 獲取事件中存儲的instance的值
    instance = (uintptr_t) c & 1;
    // 獲取connection指針地址值
    c = (ngx_connection_t *) ((uintptr_t) c & (uintptr_t) ~1);

    // 獲取讀事件結構體
    rev = c->read;

    // 如果當前連接的文件描述符為-1，獲取其instance不等於當前事件的instance，
    // 說明該連接已經過期了，則不對該事件進行處理
    if (c->fd == -1 || rev->instance != instance) {

      /*
       * the stale event from a file descriptor
       * that was just closed in this iteration
       */

      ngx_log_debug1(NGX_LOG_DEBUG_EVENT, cycle->log, 0,
                     "epoll: stale event %p", c);
      continue;
    }

    // 獲取當前事件監聽的類型
    revents = event_list[i].events;

    ngx_log_debug3(NGX_LOG_DEBUG_EVENT, cycle->log, 0,
                   "epoll: fd:%d ev:%04XD d:%p",
                   c->fd, revents, event_list[i].data.ptr);

    // 如果事件發生錯誤，則打印相應的日誌
    if (revents & (EPOLLERR | EPOLLHUP)) {
      ngx_log_debug2(NGX_LOG_DEBUG_EVENT, cycle->log, 0, 

                     "epoll_wait() error on fd:%d ev:%04XD",
                     c->fd, revents);

      /*
       * if the error events were returned, add EPOLLIN and EPOLLOUT
       * to handle the events at least in one active handler
       */

      revents |= EPOLLIN | EPOLLOUT;
    }

#if 0
    if (revents & ~(EPOLLIN|EPOLLOUT|EPOLLERR|EPOLLHUP)) {
        ngx_log_error(NGX_LOG_ALERT, cycle->log, 0,
                      "strange epoll_wait() events fd:%d ev:%04XD",
                      c->fd, revents);
    }
#endif

    // 如果當前是讀事件，並且事件是活躍的
    if ((revents & EPOLLIN) && rev->active) {

#if (NGX_HAVE_EPOLLRDHUP)
      if (revents & EPOLLRDHUP) {
          rev->pending_eof = 1;
      }

      rev->available = 1;
#endif

      // 將事件標記為就緒狀態
      rev->ready = 1;

      // 默認是開啟了NGX_POST_EVENTS開關的
      if (flags & NGX_POST_EVENTS) {
        // 如果當前是accept事件，則將其添加到ngx_posted_accept_events隊列中，
        // 如果是讀寫事件，則將其添加到ngx_posted_events隊列中
        queue = rev->accept ? &ngx_posted_accept_events
                            : &ngx_posted_events;

        ngx_post_event(rev, queue);

      } else { 

        // 如果不需要分離accept和讀寫事件，則直接處理該事件
        rev->handler(rev);
      }
    }

    // 獲取寫事件結構體
    wev = c->write;

    if ((revents & EPOLLOUT) && wev->active) {

      // 如果當前連接的文件描述符為-1，獲取其instance不等於當前事件的instance，
      // 說明該連接已經過期了，則不對該事件進行處理
      if (c->fd == -1 || wev->instance != instance) {

        /*
         * the stale event from a file descriptor
         * that was just closed in this iteration
         */

        ngx_log_debug1(NGX_LOG_DEBUG_EVENT, cycle->log, 0,
                       "epoll: stale event %p", c);
        continue;
      }

      // 將當前事件標記為就緒狀態
      wev->ready = 1;
#if (NGX_THREADS)
      wev->complete = 1;
#endif

      // 由於是寫事件，並且需要標記為了NGX_POST_EVENTS狀態，
      // 因而將其直接添加到ngx_posted_events隊列中，否則直接處理該事件
      if (flags & NGX_POST_EVENTS) {
        ngx_post_event(wev, &ngx_posted_events);

      } else {
        wev->handler(wev);
      } 

    }
  }

  return NGX_OK;
}/<code>

這裡ngx_epoll_process_events()方法首先就是調用epoll_wait()方法獲取所監聽的句柄的事件，然後遍歷獲取的事件，根據事件的類型，如果是accept事件，則添加到ngx_posted_accept_events隊列中，如果是讀寫事件，則添加到ngx_posted_events隊列中，而隊列中事件的處理，則在上面介紹的ngx_process_events_and_timers()方法中進行。

4. 小結

本文首先對epoll模型的實現原理進行了講解，然後從源碼的層面對nginx是如何基於epoll模型實現事件驅動模式的原理進行了講解。

轉載自：https://my.oschina.net/zhangxufeng/blog/3158026

分享到:

閱讀更多 技術宅愛Java 的文章

關鍵字: Nginx 事件隊列

Nginx-包教包會-進階

nginx 配置https

Nginx 居然支持流量拷貝，一個牛X的功能！

Nginx 的配置指令

Nginx——負載均衡

nginx-htpasswd實現用戶登錄

Nginx 高可用集群解決方案 Nginx + Keepalived

Nginx 一個牛X的功能，流量拷貝！

nginx request body讀取流程詳解

nginx-安裝與啟動

Nginx 負載均衡

Nginx 關於rewrite的配置錯誤

前端必備 Nginx 配置

Nginx 又一個牛X的功能，流量拷貝

nginx 403 無法訪問圖片資源

nginx ssl證書錯誤處理方法

02.28 Nginx 又一牛X的功能！流量拷貝

02.27 Nginx 基本使用介紹

全面瞭解 Nginx 主要應用場景

01.06 全面瞭解 Nginx 主要應用場景

nginx 1.17.7 主線版發佈

11.29 Nginx+SpringBoot實現負載均衡

Nginx 限流常用模塊：限制併發和IP訪問頻率

nginx—web緩存問題探究

Nginx 實現灰度發佈的三種方法總結

nginx 配置服務啟動的教程詳解

Nginx 性能優化有這篇就夠了！

Nginx、Apache工作原理以及nginx為何比Apache高效

全面瞭解 Nginx 到底能做什麼

nginx+vue實現項目動靜分離

「Nginx」02節-Nginx location 匹配規則詳解

玩轉 Nginx 之：使用 Lua 擴展 Nginx 功能

Nginx 限流方法

nginx location在配置中的優先級

Nginx+FastDFS搭建圖片伺服器

Nginx 的內置變量匯總

Nginx 性能調優

nginx 代理 springboot 項目

從一份配置清單詳解 Nginx 服務器配置

06.24 Nginx 日誌和變量

Nginx+Tomcat關於Session的管理

NGINX HTTP服務器的SSL證書

04.29 17、Nginx-圖片防盜鏈的配置

Nginx 創建

NGINX 官方博客正式宣布 NGINX 支持原生的 gPRC

Nginx Web服務應用中URL地址重寫——Nginx rewrite

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"