解读《美国社会学评论》就定量论文方法问题的重要投稿建议

解读《美国社会学评论》就定量论文方法问题的重要投稿建议

文章原名:

十月社会学顶级期刊《美国社会学评论》ASR,首次对近年来社会学定量投稿论文中常见也最常被忽视的方法问题进行了讨论,并公布了权威性的编辑提示建议。其内容主要涉及定量分析的p值和单/双尾检验、中介效应、交互项分析、多元多变量、指标测量和方法章节等6个方面,值得引起学界的高度重视。

原文链接为:http://journals.sagepub.com/doi/pdf/10.1177/0003122418806282

从《定量群学》编辑团队所接触到的大量社会学英文和中文学术期刊论文来看,这些方法问题,虽已被处于学科前沿的部分中外学者所发现、解决和引介,但对于整个社会学甚至整个社会科学定量分析者群体而言,由于学术信息交流的滞后和方法自我更新的不足,尚未形成业内的共识和写作、审稿的规范。这些问题如果得不到重视,一方面不利于中国学者的定量研究进一步迈向国际舞台,另一方面,也使得我们现有的社会科学定量研究,在学科之间、学派之间、学者群体之间,呈现出方法和规范上的参差不齐,不利于透明、有效的学术交流。

鉴于此,《定量群学》委托剑桥大学社会学博士候选人

王森浒对该问题进行全文翻译(六个方面问题的序号系译者所加,关键性建议用下划线提示),并由陈云松、胡安宁、洪岩璧、李骏、许琪、叶华、贺光烨、许多多、缪佳和王森浒结合该文,就目前社会学定量论文写作中涉及到的相关方法问题的实战技巧进行解读与评论(见文中的红字部分),以此供广大定量社会学研究同仁和期刊编辑进行讨论。

正如ASR编辑开宗明义指出的,这类问题本质上并非是方法错误,而主要是因为方法前沿领域的不断深化和拓展,使得学界原有的一些方法性规范、惯例和认识,需要得到及时的更新。同时,我们也注意到,ASR对方法的重要建议,并非着眼于模型、数据的复杂性、新颖性,而是进一步强调基本概念、基本问题的科学性、逻辑性、规范性和严密性。我们深信,发现和解决这类问题,并非是对早期研究的苛求,而是在致敬前人的基础上,对当下学术共同体的未来发表,提出更为严格、合理和科学的标准与审查要求。这种自我要求的不断提升、不断更新,充分体现了社会学定量研究群体不断努力开拓研究新疆域的决心和不断反思的巨大勇气与科学品质。

解读《美国社会学评论》就定量论文方法问题的重要投稿建议

我们衷心期望ASR编辑组给出的投稿指南和《定量群学》对相关问题的初步讨论,能够引起从事定量分析的学者和学生们的重视,引发更多的讨论甚至专题学术论文,由此为学界达成相关共识奠定基础,为社会学定量论文写作、审稿和发表提供有价值的参考和依据。

在从事ASR编辑工作的近三年中,我们对投稿文章使用方法的深度和广度留下了深刻的印象。在定量研究论文中,方法和技术的种类多样性也得到充分展示。这个领域,从我们三人(ASR三位编辑Sarah A. Mustillo、Omar A. Lizardo和Rory M. McVeigh)还在研究生的时代直到现在,已历经长足的发展。我们在承担编辑工作期间,刊物所发表的论文,从固定效应、随机效应模型直到网络爬虫、文本分析等等不一而足,代表了定量领域的前沿。在我们的编辑短评中,我们重点关注了在我们所阅读过的上千篇论文中反复出现的一些问题。本质上这些问题并非错误,而是由于定量方法的早前惯例和当代方法前沿规则之间的差异和滞后所造成。鉴于这些问题出现的频率,我们感觉到很有必要在这个短评中,对未来将要投向ASR的论文提出一些建议。

第一p值、单尾和双尾检验

关于p值区间多见于科学文献。一方面,一些关注研究可重复性和科学发现标准的学者认为,应该把统计显著的标准降到0.05以下(Benjamin et al. 2018)。另一方面,也有学者认为我们甚至应该抛弃p值和零假设显著检验(McShane et al. 2017)。

我们在这场辩论不持立场,但我们的观点是:总体来说,

解读《美国社会学评论》就定量论文方法问题的重要投稿建议

值选取0.1作为统计显著标准和单尾检验,应该仅在非常特殊和必须有充分论证的情况下才能使用。很多文章尝试证明使用p<0.10显著标准是有意义的,认为这样可以让我们了解一个假设关系的方向。另一些人认为,用p<0.10的标准可以得到一些“提示性”的结论。我们并不认为第一个理由具有说服力。关于第二个理由,ASR是学科最顶级的期刊,所以我们只发表强大有说服力的证据而不仅仅是“提示性”的发现。

《定量群学》建议

1、在社会学定量分析中,除非在样本量很小的情况下应尽量避免使用0.1的

解读《美国社会学评论》就定量论文方法问题的重要投稿建议

值标准。

2、应尽量同时报告系数和标准误,或者系数和t值,不要只用*来标注系数。

3、对于单尾检验的使用,一般说来,某一效应只有在理论和前人研究中都存在一致的指向性时才可行,比如,理论和前人研究上一致认为,随着A的增加,B也会增加,且目前的研究也并未对此进行挑战;此时如果研究A对B的影响,我们可以考虑使用单尾检验。假设检验的零假设H0为Coef(A)=0,备择假设H1为Coef(A)>0。然而往往这样的情况仍在少数,且即便在之前的研究中A呈现正效应,在今天也可能发生变化。毕竟对于社会研究,社会情境的变化不容忽视。那么再从统计上看,我们将显著度设定在常用的0.05水平下,即,在只考虑z>0的情况下,对于双尾检验,对应的z值为1.96,而对于单尾检验,z为1.65。如果某假设落在双尾的拒绝域里,必然也落在单尾的拒绝域里。

4、作为频率学派p值的一个替代方案,贝叶斯方法可以直接建立参数的后验分布,在解释上也相比于p值更加直接。相关的应用可以参见胡安宁《社会》2017年的《统计模型的“不确定性”问题与倾向值方法》。

Z分布

解读《美国社会学评论》就定量论文方法问题的重要投稿建议

0

5、关于p值是否有意义的争论:有学科比如医学倾向于用更加严格的统计标准如p<0.01。我们认为,关于统计显著标准的选用应该根据不同学科和实际情况,而未必要用一样的标准。这是因为,正确评估第一类错误(Type I error, 即由于拒绝了一个实际上正确的零假设而造成的错误)和第二类错误(Type II error, 即由于接受了一个实际上错误的零假设而造成的错误),在不同学科和情况下具有不同的意义,而

解读《美国社会学评论》就定量论文方法问题的重要投稿建议

值的高低直接和错误一错误二有着密切的关系。现在的统计检验通常过多强调错误一的重要性,这样做法的原则是我们宁可忽略一些潜在的对的相关关系,也要避免得出错误的伪相关(一些情况下,错误二也是重要的。比如,一些中药对人体健康的提升显著程度是达不到统计显著,但是长期服用可以缓慢改善人体健康。在现有统计标准下,这样的药物可能不会进入市场,也不会让很多人受益。同样的,如果一种药物对人体的副作用达不到统计显著,也会被忽视,但是长期服用也会对人体有伤害)。此外,p值作为一个点的确忽略了很多有用的信息。所以可以尽可能报告置信区间,而不是简单的p值。运用置信区间,我们不去简单检验一个统计值显著与否,而是去看“正确”的统计值可能存在的范围(已有一些医学期刊不再要求报告p值,而是要求报告置信区间)。

6、 对于系数显著的解释要谨慎,除非进行了基于反事实的因果推断,尽量避免使用因果效应,以及隐含因果效应的词汇来描述X和Y的关系。

第二检验中介效应

我们收到很多稿件,试图利用Baron和Kenny(1986)方法的简化版本来检验中介效应。作者们通常是这样操作:他们通常先跑一个包含主要解释变量和控制变量的模型,然后在第二个模型加入中介变量,如果主要解释变量的系数变小或变得不显著,他们就得出结论认为存在中介效应。

这个方法的使用中存在几个问题。最经常发生的问题是,作者们没有检验两个模型系数大小的差异是否显著。而这一步对于检验中介效应是否发生是必要的:因为主要解释变量系数变小或者变得不显著,也有可能是由于偶然原因。正如Gelman和Stern(2006)所强调的,统计显著的变化本身并不一定是显著的。

部分作者会用统计检验比如Sobel(1986)检验来确定系数变化是否在统计上显著,这才是正确的步骤。最近,更多的基于Sobel(1986)检验方法发展出来的新的检验方法也被运用到了不同的软件中。其中一些方法被用到了非线性模型(比如logit,probit模型)的中介效应检验,来考察不同模型之间的系数大小差异。具体方法见MacKinnon (2008), Imai, Keele, and Tingley (2010), Karlson, Holm and Breen (2012), and Vanderweele (2015, 2016)。我们建议未来投ASR的文章使用适合的方法来检验中介效应。

《定量群学》建议

1、 线性模型解决方案:避免使用简单的嵌套对比方法得出结论,一般可使用Sobel方法。中文论文可以参见李骏在《社会学研究》2016的《城乡出身与积累优势》。复杂的可以用SEM,参考李忠路、邱泽奇《社会学研究》2016的《家庭背景如何影响儿童学业成就》。

2、 简单非线性模型解决方案:如果Y为二元变量,可以使用Stata命令medeff或者gformula。不过,不同的命令得出的结果目前来看不完全一致,读者可以谨慎使用或者测试多种命令,获得接近的结果。

3、复杂非线性模型解决方案:如果Y为多元或定序分类变量(目前似乎没有现成的stata命令),可以进行退而求其次的两步分析:第一步,进行简单嵌套对比,但必须使用khb方法(也即Karlson, Holm and Breen 2012提出的思路,解决加入中介变量后的新模型与原模型的残差尺度差异问题);一个应用实例为Hu, Anning & Xiaogang Wu. 2017. “Science or liberal arts? Culturalcapital and college major choice in China.” The British Journal of Sociology.doi:10.1111/1468-4446.12342.第二步,进行辅助分析,将Y视作连续变量,利用线性模型进行Sobel-Goodman检验。两步结合使用的实际可以参见陈云松等发表于BJS的Chen, Yunsong & Mark Williams. 2016.“Subjective Wellbeing in the New China: Religion, social capital, and socialstatus.” British Journal of Sociology 67(4):719-46.

4、中介效应原理可以参阅李骏所译的《中介作用分析》(Dawn Iacobucci著),格致出版社。

第三分类因变量模型中的交互项

还有些问题是关于在带有分类因变量的非线性模型中用交互项的Z统计值和p值来检验交互项的显著性。Allison (1999), Williams (2009), 以及其他作者都关注过类似的问题,比如不同样本的残差变异尺度差异;另一些学者如Mood (2010), Breen and Karlson (2013), and Long and Mustillo 关注其他问题的细节。总体来说现在这个问题已经无可争议:在非线性模型中,比如logit,probit,poisson等模型中,不能直接使用交互项系数去检验交互项的统计显著,重要原因在于这些模型所对应的概率密度函数并非线性。每个学者有检验非线性模型交互项显著的方法,我们建议未来投稿的学者根据自己情况使用合适的方法。

《定量群学》建议

1、关于非线性模型中样本不同、变量不同所导致的残差变化尺度以及实际论文中处理的方式,参阅洪岩璧2015年在《社会》发表的《Logistic模型的系数比较问题及解决策略:一个综述》;许琪2016年在《人口与经济》发表的《利用小普查数据对随机婚配假定的再检验》。

2、在非线性模型中进行交互项分析,特别是边际效应大小分析,没有太大的实际意义(margins命令只会给出变量的总体边际效应)。一个实用策略就是同时使用线性与非线性模型,并进行对照:利用线性模型来大致显示交互效应大小,而非线性模型中交互项的影响方向则可以与线性模型进行对比,一般情况下应该一致(非线性模型中各项目系数使用Mood或者KHB方法解决残差尺度变化问题)。实际写作可参考陈云松、范晓光2016年在《中国社会科学》发表的《阶层自我定位、不平等和流动感》。

3、对读者来说理解非线性模型中的交互效应不是那么容易,通过画图或者制表的方式来展示交互效应会更为直观和有效。例如:展示logistic模型中的交互效应,可以用发生比预测值、对数发生比预测值或者概率预测值绘图,它们都能展示出交互效应的作用。不过最直观的还是用对数发生比预测值作图,因为这样的图形是线性的,交互效应由不同斜率的直线表示。更多解释和展示logistic模型中交互变量的方法可以参见缪佳译的《逻辑斯蒂回归中的交互效应》(James Jaccard 著),格致出版社。

第四“多变量”和“多元”

尽管它们有着不同的含义,但很多学科的学者不对这两个概念作区分,社会学家也不例外。而不对它作区分,会导致人们对分析模型的种类产生误解。

简单回归(simple regression)指的是一个模型里只有一个自变量和一个因变量。多次回归(multiple regression)是指一个模型里有一个因变量和多个自变量。多次回归实际也就是“多元回归”(multivariable regression)。

多变量(multivariate)模型是完全不同的概念,指的是一个模型有多个因变量,比如因子分析,结构方程模型和潜在增长曲线分析。

由于这些概念在发表文章时经常混淆使用,很多人认为他们之间的区分只是随意的或修辞性的,但是我们认为区分他们很重要,因为多变量统计是统计学重要分支,也是很多学科的必修课程,在不同学科的使用也具有一致性。保持这种一致性很重要,因为ASR的读者不仅来自社会学,更来自整个社会科学。

《定量群学》建议

注意在英文论文中的规范使用:简单回归就是一元回归,多个控制变量就是多元回归,只有一个Y。而多个Y也即多个因变量的,中文最好用多因变量回归的说法,以避免混淆。

第五测 量

很多作者需要更加关注测量的问题。在我们收到的很多稿件中,关键变量的测量方法是作者临时创造的,而没有通过严格和精心的考虑。这一方法对于简单、直接的概念还可以,但是对于复杂的概念是不够的。

另一个问题:一些作者在使用经过验证的量表时经常擅自修改,使得使用的测量和原始经过验证的测量不一致。比如,一个经过验证的量表包含12个问题,每个问题从1到4,然后加总求出分数。

作者应该尽量遵循这样经过验证的量表,除非有很好的理由证明可以不这样做。在我们收到的稿件中,有很多作者自己擅自挑选测量指标,或者修改记分标准,比如,将原先1到5的记分改为1到3,进而得出测量分数,这样的做法在很大程度上破坏了量表的有效性。

《定量群学》建议

如果有所选择,必须给出强有力的理由;如果不是强有力的理由,起码应该做敏感性分析。

第六方法章节

我们对于未来稿件提出的最后一个建议是,更好的组织论文中方法的章节,以及提供更多关于方法的细节。很多收到的稿件没有提供关于数据收集过程的步骤,样本量,缺失值,哪些观测值被纳入或排除出样本,估计什么样的模型以及为什么,问卷访问回应率,选择效应,变量的测量等等。有时候,这些信息也都提供了,可是它们没有被很好安排在方法部分,而是被分散的写在文章的各个部分,比如方法,结果,或者附录。

最利于读者阅读的方式是把方法章节分成三部分:数据,变量和模型。

总体来说,社会学家在利用各种复杂定量方法理解社会方面做出了很大贡献。我们希望这些建议可以为学者在如何利用定量方法更好的展示结果方面有所帮助。

《定量群学》建议

1、在介绍方法的章节,应该按照数据、变量和模型三部分来写作。

2、在数据部分和变量部分增加样本缺失情况的介绍,在不进行缺失值插补的情况下(因为插补往往需要更多假设),最好对缺失值样本和分析样本之间的差异进行检验。尽量说明数据代表性可能存在的不足之处,使读者明白分析结论的适用范围。

.END.

参考文献:

1.Allison, Paul D. 1999. “Comparing Logit and Probit Coefficients across Groups.” Sociological Methods & Research 28(2):186–208.

2.Baron, Reuben M., and David A. Kenny. 1986. “Moderator-Mediator Variables Distinction in Social Psychological Research: Conceptual, Strategic, and Statistical Considerations.” Journal of Personality and Social Psychology 51(6):1173–82.

3.Benjamin, Daniel J., James O. Berger, Magnus Johannesson, Brian A. Nosek, E.-J. Wagenmakers, Richard Berk, Kenneth A. Bollen, et al. 2018. “Redefine Statistical Significance.” Nature Human Behaviour 2(1):6–10.

4.Breen, Richard, and Kristian Bernt Karlson. 2013. “Counterfactual Causal Analysis and Nonlinear Probability Models.” Pp. 167–87 in Handbook of Causal Analysis for Social Research. Dordrecht: Springer.

5.Imai, Kosuke, Luke Keele, and Dustin Tingley. 2010. “A General Approach to Causal Mediation Analysis.” Psychological Methods 15(4):309–334.

6.Gelman, Andrew, and Hal Stern. 2006. “The Difference between ‘Significant’ and ‘Not Significant’ Is Not Itself Statistically Significant.” The American Statistician 60(4):328–31.

7.Karlson, Kristian B., Anders Holm, and Richard Breen. 2012. “Comparing Regression Coefficients between Same-Sample Nested Models using Logit and Probit: A New Method.” Sociological Methodology 42(1):286–313.

8.Long, J. Scott, and Sarah A. Mustillo. Forthcoming. “Comparing Groups in Binary Regression Models Using Predictions.” Sociological Methods and Research. MacKinnon, David P. 2008. Introduction to Statistical Mediation Analysis. New York: Routledge.

9.McShane, Blakeley B., David Gal, Andrew Gelman, Christian Robert, and Jennifer L. Tackett. 2017. “Abandon Statistical Significance.” Unpublished Manuscript. Retrieved June 21, 2018 (http://www .stat.columbia.edu/~gelman/research/unpublished/ abandon.pdf).

10.Mood, Carina. 2010. “Logistic Regression: Why We Cannot Do What We Think We Can Do, and What We Can Do About It.” European Sociological Review 26(1):67–82. Sobel, Michael E. 1986. “Some New Results on Indirect Effects and Their Standard Errors in Covariance Structure Models.” Sociological Methodology 16:159–86.

11.VanderWeele, Tyler J. 2015. Explanation in Causal Inference: Methods for Mediation and Interaction. Oxford, UK: Oxford University Press.

12.VanderWeele, Tyler J. 2016. “Mediation Analysis: A Practitioner’s Guide.” Annual Review of Public Health 37:17–32.

13.Williams, Richard. 2009. “Using Heterogeneous Choice Models to Compare Logit and Probit Coefficients across Groups.” Sociological Methods & Research 37(4):531–59.

· · · · · ·

解读《美国社会学评论》就定量论文方法问题的重要投稿建议

规范科学做学问的正确姿势:社科研究方法第二轮正在报名!


分享到:


相關文章: