05.31 用StackOverflow访问数据实现主成分分析（PCA）

2018-05-31 15:50:04 大數據文摘

大数据文摘出品

编译：汪小七、张馨月、云舟

主成分分析（PCA：Principal Component Analysis）非常有助于我们理解高维数据，我利用Stack Overflow的每日访问数据对主成分分析进行了实践和探索，你可以在rstudio :: conf 2018上找到其中一篇演讲的录音。演讲的重点主要是我对于PCA的理解，而这篇文章中，我将主要介绍我是如何实现PCA的，以及我是如何制作演讲中使用到的图表的。

rstudio :: conf 2018

https://www.rstudio.com/resources/videos/understanding-pca-using-shiny-and-stack-overflow-data/

高维数据

此次分析使用的是去年Stack Overflow上注册用户访问量前500的标签数据。为了简化处理，本文只使用了10％的注册流量数据进行分析，但实际上我已经对所有流量数据进行了类似的分析，并获得了几乎相同的结果。

标签数据

https://stackoverflow.com/tags

现在，把每个注册用户都想象成高维空间中的一个点，空间的坐标轴是R、JavaScript、C++等技术。那么，在这个高维空间中，做相似工作的人对应的点就会彼此接近。接下来PCA会把这个高维空间转变成一个新的具有特殊特征的“特殊”高维空间。

在数据库中适当地抽取数据后，最开始的数据看起来就像下面这样：

library(tidyverse)
library(scales)
tag_percents
## # A tibble: 28,791,663 x 3
## User Tag Value
##   
## 1 1 exception-handling 0.000948
## 2 1 jsp 0.000948
## 3 1 merge 0.00284
## 4 1 casting 0.00569
## 5 1 io 0.000948
## 6 1 twitter-bootstrap-3 0.00569
## 7 1 sorting 0.00474
## 8 1 mysql 0.000948
## 9 1 svg 0.000948
## 10 1 model-view-controller 0.000948
## # ... with 28,791,653 more rows

可以看出，数据很干净，每行只有用户编号和技术标签。这里的User列是随机ID，而非Stack Overflow的标识符。在Stack Overflow中，我们公开了大量数据，但流量数据（即哪些用户访问过哪些问题）是没有公开的。

对高维数据进行真正的匿名化其实是非常困难的，而这里为了进行脱敏处理，我的做法是随机化数据顺序，并用数字替换Stack Overflow的标识符。Value列表示过去一年该用户对该标签的浏览量占该标签总浏览量的比例。

部分数据链接：

https://stackoverflow.blog/2010/06/13/introducing-stack-exchange-data-explorer/

https://cloud.google.com/bigquery/public-data/stackoverflow，

https://meta.stackexchange.com/questions/19579/where-are-the-stack-exchange-data-dumps

先不考虑脱敏的问题，我们首先看看用户主要浏览的技术标签有哪些，这张图表给了我们一个直观的概念。.

tag_percents %>%
 group_by(Tag) %>%
 summarise(Value = mean(Value)) %>%
 arrange(desc(Value)) %>%
 top_n(15) %>%
 mutate(Tag = reorder(Tag, Value)) %>%
 ggplot(aes(Tag, Value, label = Tag, fill = Tag)) +
 geom_col(alpha = 0.9, show.legend = FALSE) +
 geom_text(aes(Tag, 0.001), hjust = 0,
 color = "white", size = 4, family = "IBMPlexSans-Bold") +
 coord_flip() +
 labs(x = NULL, y = "Average % of a user's traffic") +
 scale_y_continuous(labels = percent_format(), expand = c(0.015,0)) +
theme(axis.text.y=element_blank())

实施PCA

我们喜欢干净的数据，一是因为它就是我们查询数据库的结果，二是因为它可用于实现PCA等机器学习算法的探索性数据分析。为了实现PCA，我们需要一个矩阵，在这个例子里稀疏矩阵（sparse matrix）就是最佳选择——因为大多数开发人员只访问一小部分技术标签，因此我们的矩阵中会有很多零。tidytext软件包中有一个函数cast_sparse()，它可以把上面的数据转换为稀疏矩阵。

sparse_tag_matrix %
tidytext::cast_sparse(User, Tag, Value)

R中有几个实现PCA的算法是体会不到稀疏矩阵的美感的，比如prcomp()——此算法的第一步就是将刚刚制作好的稀疏矩阵强制转换成一个常规矩阵，然后你要在那里干坐一辈子等它运行完，因为在它运行的时候电脑根本没有内存让你去做其他事了（别问我是怎么知道的）。当然，R中也有一个程序包利用了稀疏矩阵的优势——irlba。

在建立模型前，也别忘记先用scale()函数将你的矩阵规范化，这对于PCA的实现非常重要。

tags_scaled tags_pca

其中prcomp_irlba()函数的参数n代表我们想要得到的主成分个数。

那么这一步究竟发生了什么？我们会在接下来的章节中慢慢介绍。

class(tags_pca)
## [1] "irlba_prcomp" "prcomp"
names(tags_pca)
## [1] "scale" "totalvar" "sdev" "rotation" "center" "x"

PCA的结果分析

我喜欢处理数据框格式的数据，所以接下来我要用tidy()函数来整理我的PCA结果，以便用dplyr包处理输出结果和用ggplot2绘图。 broom包并不能完美地处理irlba的输出结果，所以我会将它们与我自己的数据框经过一点修整后合并到一起。

library(broom)
tidied_pca  tidy(tags_pca$rotation)) %>%
 gather(PC, Contribution, PC1:PC64)
tidied_pca
## # A tibble: 39,232 x 3
## Tag PC Contribution
##   
## 1 exception-handling PC1 -0.0512
## 2 jsp PC1 0.00767
## 3 merge PC1 -0.0343
## 4 casting PC1 -0.0609
## 5 io PC1 -0.0804
## 6 twitter-bootstrap-3 PC1 0.0855
## 7 sorting PC1 -0.0491
## 8 mysql PC1 0.0444
## 9 svg PC1 0.0409
## 10 model-view-controller PC1 0.0398
## # ... with 39,222 more rows

注意到这里我的数据框的每一行只有一个技术标签及它构成的主成分。

那么从整体来看，这些结果又是什么样子的呢？请见下图：

tidied_pca %>%
 filter(PC %in% paste0("PC", 1:6)) %>%
 ggplot(aes(Tag, Contribution, fill = Tag)) +
 geom_col(show.legend = FALSE, alpha = 0.8) +
 theme(axis.text.x = element_blank(),
 axis.ticks.x = element_blank(),
 panel.grid.major = element_blank(),
 panel.grid.minor = element_blank()) +
 labs(x = "Stack Overflow tags",
 y = "Relative importance in each principal component") +
facet_wrap(~ PC, ncol = 2)

很漂亮吧有木有！我们上面看的是前六个主成分，图中x轴上是按字母顺序排列的单个Stack Overflow标签，纵轴表示该技术标签对这一PC的贡献度。我们也可以看出有关联的技术可能是以相同的字母开头，故而会排列在一起，例如PC4中的橙色等。

下面让我们主要分析一下第一个主成分的构成。

tidied_pca %>%
 filter(PC == "PC1") %>%
 top_n(40, abs(Contribution)) %>%
 mutate(Tag = reorder(Tag, Contribution)) %>%
 ggplot(aes(Tag, Contribution, fill = Tag)) +
 geom_col(show.legend = FALSE, alpha = 0.8) +
 theme(axis.text.x = element_text(angle = 90, hjust = 1, vjust = 0.5),
 xis.ticks.x = element_blank()) +
 labs(x = "Stack Overflow tags",
 y = "Relative importance in principle component")

现在我们可以看到哪些技术标签对这个成分有贡献。从贡献为正的标签来看，主要有前端Web开发技术，如HTML、JavaScript、jQuery、CSS等。从贡献为负的标签来看，主要有Python，C ++以及低级技术词汇，如字符串（strings）、列表（lists）等。这意味着Stack Overflow的用户之间最大的差异在于他们是使用前端Web技术更多一些还是Python和一些低级技术更多一些。

那么第二个主成分又是怎样的呢？

tidied_pca %>%
 filter(PC == "PC2") %>%
 top_n(40, abs(Contribution)) %>%
 mutate(Tag = reorder(Tag, Contribution)) %>%
 ggplot(aes(Tag, Contribution, fill = Tag)) +
 geom_col(show.legend = FALSE, alpha = 0.8) +
 theme(axis.text.x = element_text(angle = 90, hjust = 1, vjust = 0.5),
 axis.ticks.x = element_blank()) +
 labs(x = "Stack Overflow tags",
 y = "Relative importance in principle component")

第一个主成分是两种软件工程的对比，但第二个主成分则更像是一个结果为是/否的二分类变量。它告诉了我们开发人员工作中是否使用C＃、.NET、Visual Studio和Microsoft技术堆栈的其余部分。这意味着Stack Overflow的用户之间的第二大差异在于他们是否访问了这些类型的微软技术问题。

我们可以继续研究其他的主成分，了解更多关于Stack Overflow技术生态系统的知识，但其实我已经在视频中进行了相关内容的讲解，也研究了那些与我们数据科学人员相关的技术。我还制作了一个名叫Shiny的应用程序，在上面你可以随意选择你想研究的主成分。而且我敢打赌，只要你用过一次Shiny，你就能想象到我是如何开始这项研究的！

高维平面的映射

PCA最酷的地方在于它能帮我们思考和推理高维数据，其中一项功能就是将高维数据映射到可绘图的二维平面上。接下来我们来看看它是如何做到这一点的。

其实这一步用broom :: augment()就能实现，并且还能计算出每个成分对整个数据集方差解释的百分比。

percent_variation augmented_pca  tidy(tags_pca$x)) 

augmented_pca
## # A tibble: 164,915 x 65
## User PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9
##          
## 1 1 2.16 5.70 1.63 0.967 0.0214 -1.37 -1.98 -2.94 -0.860
## 2 2 0.350 3.38 -6.12 -10.0 1.39 0.882 5.35 -3.30 -2.73
## 3 3 2.75 -3.91 0.801 1.73 1.24 -0.837 2.03 2.76 0.300
## 4 4 3.27 -3.37 -1.00 2.39 -3.59 -2.68 0.449 -2.82 -1.25
## 5 5 9.44 -4.24 3.88 -1.62 -2.96 4.01 -1.32 -3.54 3.25
## 6 6 5.47 -5.13 1.57 2.94 -0.170 0.342 3.34 6.09 1.72
## 7 7 4.30 -0.442 -1.52 0.329 -2.13 0.908 -3.30 -5.02 -1.39
## 8 8 -0.691 0.668 -1.76 -7.74 -2.94 -5.28 -9.71 5.28 0.732
## 9 9 3.84 -2.65 0.760 1.34 2.06 -0.927 1.35 5.11 -2.69
## 10 10 3.23 4.13 2.81 2.68 -1.12 -1.30 -0.319 -1.23 -0.723
## # ... with 164,905 more rows, and 55 more variables: PC10 ,
## # PC11 , PC12 , PC13 , PC14 , PC15 ,
## # PC16 , PC17 , PC18 , PC19 , PC20 ,
## # PC21 , PC22 , PC23 , PC24 , PC25 ,
## # PC26 , PC27 , PC28 , PC29 , PC30 , 

## # PC31 , PC32 , PC33 , PC34 , PC35 ,
## # PC36 , PC37 , PC38 , PC39 , PC40 ,
## # PC41 , PC42 , PC43 , PC44 , PC45 ,
## # PC46 , PC47 , PC48 , PC49 , PC50 ,
## # PC51 , PC52 , PC53 , PC54 , PC55 ,
## # PC56 , PC57 , PC58 , PC59 , PC60 ,
## # PC61 , PC62 , PC63 , PC64

注意到这里我其实有更广阔的数据框可供使用，并且我还没有使用gather()函数——为了便于绘图。对象percent_variation是一个矢量，它包含了每个主成分对整个数据集的方差解释的百分比。

augmented_pca %>%
 mutate(User = as.integer(User)) %>%
 filter(User %% 2 == 0) %>%
 ggplot(aes(PC1, PC2)) +
 geom_point(size = 1.3, color = "midnightblue", alpha = 0.1) +
 labs(x = paste0("Principal component 1 (", percent(percent_variation[1]), ")"),
 y = paste0("Principal component 2 (", percent(percent_variation[2]),")"),
 title = "Projection of Stack Overflow traffic on to the first two principal components",
 subtitle = "The very high dimensional space can be projected down onto components we have explored")

可以看出，为了尽量减少过度绘图，这个图里我把每两个人用一个点表示。还记得第一个主成分是前端开发人员到Python和低级技术人员的横向拓展，而第二个主成分则全部是关于微软技术堆栈的。由上我们可以看到描述Stack Overflow标签的高维数据是如何投影到前两个主成分的。可以注意到我已在每个轴中添加了方差百分比，同时这些数字并不是很高，这也与我们现实生活中的情况相吻合，即事实上Stack Overflow的用户之间差异很大，如果你想将这些主成分中的任意一个用于降维或作为模型中的预测变量，请慎重考虑。

应用

说到现实生活，我发现PCA非常有助于我们理解高维数据集。比如说，基于完全相同的数据，我最近在使用PCA探索的另一个问题是亚马逊可能考虑让哪些城市成为其第二总部。实际上，PCA给出的主成分结果以及不同技术对其的贡献率已经不尽相同——因为几个月已经过去了，而且用户们在高维空间中也不是完全静止的。如果你有任何问题或反馈，请及时联系我。

关于StackOverflow Flutter 的这个问题，这一篇就够了

Stack Overflow 自研 AI 系统标记不友好评论

Stack Overflow：最令人讨厌的编程语言

hammer.js的双指点击Tap事件如何识别及冲突解决

12个提高 JavaScript 技能的概念

03.05 12个提高 JavaScript 技能的概念

如何写一个好的测试？总结起来就这两点……

StackOverflow经典问题：代码中如何去掉烦人的“!=null"判空语句

03.02 StackOverflow经典问题：代码中如何去掉烦人的“!=null"判空语句

mv argument list too long错误

太赞了：《Java 编程思想》最新中文版开放下载

0.1f 改为 0 会使性能降低 10 倍，你信不信？

用Python的处理xml时的字符编码问题

使用提前返回or不使用提前返回，你的选择是什么？

StackOverflow: 你没见过的七个最好的Java答案

2019 年 stackoverflow 网站最受欢迎的 20 个 Python 问题

腾讯问我Java中boolean类型占几个字节？我说一个，面试官让我gun

Stack Overflow 188万浏览量的提问：Java 到底是值传递还是引用传递？

12.06 「真实」只有程序猿才懂的梗

Stack Overflow 上最火的一个问题：什么是 NullPointerException

Stack Overflow 上最火的一个问题：什么是 PointerException

Flutter即学即用系列博客—07 RenderFlex overflowed 引发的思考

@程序员，React 使用如何避坑？

Stack Overflow 2019程序员调查---最热门的不是Python

【安全】三分钟知道JWT被盗怎么办

【安全】如果您的JWT被盗，会发生什么？

Fiori应用全屏功能的实现

react 内存泄露常见问题解决方案

Java中的控制（耦合）反转

Stack Overflow 上最热门问题是什么？

为什么在密码问题上char[]优先于String？

Java高级：你没见过的七个最好的StackOverflow答案

2018年StackOverflow上最受关注的10个Python问题

01.22 Stackoverflow上人气最旺的10个Java问题

StackOverflow上我见过比较Java答案！

Stack Overflow 调查 10 万程序员后发现，Java 竟未上榜！

Python 的异步 IO之Asyncio 简介

你会是下一个程序员大牛吗？这7种能力你有几个？

05.07 想学编程？来测试一下，你是否适合做程序员吧！

05.07 你会是下一个程序员大牛吗？这7种能力你有几个？

想学编程？来测试一下，你是否适合做程序员吧！

04.10 干货：8个程序员经常逛的网站，助你工资快速上涨

Stack overflow 2018 开发者调查结果，你的开发语言过时了吗？

Java 常见的49个错误及避免方法！——3

Java 常见的49个错误及避免方法——2

第二章 IoC容器和Bean配置

bean是一个对象，它是由Spring

运算里不得不说的python模块—math

Help

Devops度量--DevOps 现状快速检查表

今天主要分享一个DevOps

SOP是什么（解读）

SOP不是单个的，是一个体系，虽然我们可以单独地定义每一个SOP，但真正从企业管理来看，SOP不可能只是单个的，必然是一个整体和体系，也是企业不可或缺的。

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

随着终端设备的越来越多，人工干预配置IP地址，不仅工作效率低，而且，还很容易导致IP冲突，影响正常的网络访问。到此已经完成了，DHCP服务的配置了，我们可以在终端验证。

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

这两天分析了一下头条文章网页的源文件，现在将分析的结果分享给大家。首先以一篇文章为例，其网址如下：https://www.toutiao.com/i6822245428176617998/如上图网页所示，文章中包含文字和图片。

DNS侦查工具

我们只需要打开浏览器输入例如:www.baidu.com就可以解析到该网站.为了便于记住不需要输入长长的IP地址去访问这就是DNS域名解析.关于域名域名的层次划分用点来分割这时DNS把相对应的域名解析成IP地址高的在右边.例如:www. NS简介访问某网站的时候最低在左边

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

Create

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

最后一个要介绍的命令是

（必收藏系列）Linux面试题——命令集

关注，后台私信【Linux】分享Linux入门到进阶电子书、Linux入门到精通视频教程（免费）。文件管理命令cat

五分钟学会如何在 IPFS 上部署网站

原文标题:五分钟学会如何在

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

1）实验平台：【正点原子】

小白怎么学Web前端开发如何成为技术达人

Web前端开发工程师已经成为了很多年轻人心中的理想工作，不仅入行门槛低、而且薪资待遇和发展前景都不错，自然吸引了大批人加入行业。

如何开发一个web静态服务器

我们都知道如今的web服务器有很多，比如著名的有apache，有nginx，有tomcat，有resin服务器，有sphere，有iis服务器等等，这些服务器都能提供web服务，并且几乎都能和多种语言进行搭配使用，那么一个web服务器都需要那些功能，开发一个web服务器都需要那些

学Java编程还有前景吗如何才能拿到高薪

需求大、薪资高似乎是Java开发人员的标签，不过学Java编程还有前景吗？它架构在操作系统之上，屏蔽了底层的差异，真正实现了“Writeonce run

Python网络爬虫之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的运行效率太低？几行代码快速提升！

return的就是是你所需要的结果2.3、运行这一步就是最后一步了，只要像下面一样输入上述函数名，赋予参数值，点击运行Run，就能得到你想要的结果arg1=5

python的优点是什么？最新Python400集视频（附教程）

2020，最新Python零基础到精通资料教材，干货分享，新基础Python教材，稳稳找到过万工作，看这里，这里有你想要的所有资源哦，最强笔记，教你怎么入门提升！获取方式：私信小编“

MySQL中OOM故障应如何下手-爱可生

作者：孙祚龙爱可生南区分公司交付服务部成员，实习工程师。负责公司产品问题排查及日常运维工作。本文来源：原创投稿*爱可生开源社区出品，原创内容未经授权不得随意使用，转载请联系小编并注明来源。

像专家一样使用 panic

|go

30种不同的编程语言怎么写“Hello, World”

printfn

percona QAN 介绍

一、背景QAN慢查询日志分析工具是PMM

面试官：你可以用纯CSS判断鼠标进入的方向吗？

虽然没什么软用，但是对付面试官应该是够用了。感谢面试官提出的问题，让我实现了这个功能，对CSS

网络工程师职业生涯中，哪两点是最重要的？

网络工程师最重要的技能是扎实的基础和非常开放的思维，微观知识扎实、宏观能力突出。项目经验也会让网络工程师基础更牢靠，网络工程师是要实战的，要避免纸上谈兵，我认为对基础理论的理解，比你清楚配置更重要。

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

有关以太坊2.0

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

yuminstall

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

今天的你捉住IPFS机遇了吗？我们都知道在Filecoin网络中作为一名存储矿工，信誉对于我们是非常重要的——信誉越高，爆块几率越大。那么信誉系统现在怎么样了呢？

Hive分桶表

fieldsterminated

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

编辑Exchange

$【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库$

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

在阿里云控制台，我们能下载的文件是一个压缩包，解压之后，是.idb和.frm文件，你可能要问了，我可以直接把解压好的问题件覆盖到MySQL的data目录下吗？

NLP算法入门系列：隐含马尔可夫链(HMM)模型的简单介绍

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度学习这样实现人脸的年龄检测

前期的文章我们分享了人脸的识别以及如何进行人脸数据的训练，本期文章我们结合人脸识别的模型进行人脸年龄的检测人脸年龄的检测步骤1、首先需要进行人脸的检测2、把检测到的人脸数据给年龄检测模型去检测3、把检测结果呈现到图片上人脸年龄检测import

嵌入式linux网络编程之——5年程序员给你深度讲解socket套接字

图8-1

深入了解ProcessFunction的状态操作(Flink-1.10)

先反思为何会有上述疑惑上述疑惑产生的原因，应该是受到平时使用HashMap的影响，HashMap获取值就是在调用get方法时指定key，设置值也是在put时指定key，所以看到state.value，看懂了这些，其实也是在了解DataStream/DataSetAPI的设计思路：

Redis内存分析工具--rdr安装与使用

分析Redis

资深架构师教你源码讲解zookeeper实现分布式锁以及集群搭建步骤

//getData发现前一个子节点被删除，抛出异常

一行代码提升迁移性能

论文原址：https://arxiv.org/pdf/2003.12237.pdf开源地址：https://github.com/cuishuhao/BNM在发表在CVPR2020

利用相似几何信息，做可泛化3D形状分割模型

更具体的有以下三种典型的分割方案：FullyConvolutional-Like

这么好用的开源计算器SpeedCrunch，没有不尝试一下的道理

介绍SpeedCrunch是一款高精度科学计算器，具有快速，键盘驱动的用户界面。获取方式在GitHub上搜索SpeedCrunch，就可以去到

分布式缓存，真香

他是前易宝支付架构师、阿里云MVP、腾讯云

特征工程的力量

在本文中，我希望教给您一些有关特征工程的知识，以及如何使用它来对非线性决策边界进行建模。为了说明这一点，假设恢复时间与身高和体重具有以下关系：Y=β₀+β₁+β2+β₃+noise从第三项来看，我们可以看到Y与身高和体重没有线性关系。

java架构：天天写面向接口编程，你考虑过性能吗？大神都是这么写

public

SpringBoot如何优雅的使用RocketMQ

源码编译需要Maven3.2x，JDK8在根目录进行打包:Copymvn-Prelease-all

css代码规范工具stylelint

"mixin"