SEER數據庫的數據構成

SEER數據庫的數據構成

小編在之前的一期中向大家簡單地介紹過如何安裝SEER數據庫,以及如何從SEER數據庫中下載數據。

教你輕鬆下載癌症數據——SEER數據庫的註冊和數據下載

這一期我們將一起來學習SEER數據庫的數據構成。

SEER數據庫從基於人群的癌症登記處收集癌症發病率數據,覆蓋約34.6%的美國人口。

該SEER登記處收集病人的人口統計資料,原發腫瘤部位,腫瘤形態,階段在診斷和治療的第一療程數據,他們也跟蹤了患者的生存和死亡的情況。

SEER數據庫主要由腫瘤發病率數據人口數據數據字典構成。

1. 腫瘤發病率數據

2019年SEER數據庫軟件更新到了SEER*Stat 8.3.6,本地數據庫也已經更新到了2016年。

本地數據庫包含了兩個版本:SEER18和SEER21。

從2018年11月的提交開始,SEER研究數據包括從1975年而不是1973年開始診斷的病例,並且在SEER 21數據庫中添加了三個新的註冊機構。

SEER數據庫的數據構成

SEER數據庫的數據構成

2.人口數據分年齡段的統計情況(Population)

以5年為一個年齡段跨度,共劃分為18個、19個和22個年齡段組。

以一年為一個年齡段跨度,從0歲至100歲以上,共劃分為101個年齡段組。

目錄中的數據文件與腫瘤發病率的數據文件相對應,分別收集了相應年份跨度和地區的基本的人口統計數據情況。

SEER數據庫的數據構成

SEER數據庫的數據構成

3.數據字典(Data dictionaries)

所謂數據字典,可以看作是數據庫中所有成分的定義和解釋的文字集合,描述了數據庫中每條記錄所包含的屬性意義和取值說明。對於不熟悉SEER數據庫的用戶就需要對數據的含義進行詳細的解讀,從而選擇出最需要的變量進行後期的分析。

因此,在數據字典中建立起嚴密一致的定義非常有助於用戶對於數據庫的理解和使用。

這個文件非常重要,尤其是對於用Python或者R軟件提取數據的用戶,因為轉換二進制成可以識別的文字無時無刻不用到這個。

注意:下載數據字典不需要註冊。

SEER數據庫的數據構成

SEER數據庫的數據構成


分享到:


相關文章: