不加载任何包，手撕一个R语言版BP神经网络模型

2018-12-19 15:10:31 天善智能

欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞定！

对商业智能BI、大数据分析挖掘、机器学习，python，R等数据领域感兴趣的同学加微信：tstoutiao，邀请你进入数据爱好者交流群，数据爱好者们都在这儿。

知乎ID：https://www.zhihu.com/people/liang-kai-77-98

前言

大家好，很久没写文章了，这段时间俗事缠身，忙于俗事，愧对于自己的研究，抛开精虫上脑般的资本，对于一个立志于发展新技术新科技，乃至立志于理论研究的人来说，只有勤勤恳恳，埋头苦干的做好理论研究，把研究转化为技术才是人工智能发展的正道，而不是一心想搞个大新闻，吸引点融资然后不了了之。本人还是认为未来是AI的世界，AI everywhere，但是也不像个别媒体打了鸡血般的吹上了天，脚踏实地的为这个新科技做点贡献才是我辈中人该做的。好了废话不多说，今天为大家带来的是不加载任何包，手撕一个神经网络，实验数据集是用烂了的波士顿房价。python版的神经网络网上有很多，但是R版的很少，在这里需要感谢，中科院自动化研究所钱鸿博士和清华大学张阳阳博士的倾情答疑，神经网络的基本知识这里就不再重复讲了，BP算法也不着重讲了，这里主要讲解怎样用R语言不加载任何包的情况下，构建一个神经网络，代码结构是基于python版本的，但是是用R重构的，通过这样的对比能让各位更加清晰的了解BP神经网络，以及R与python的不同点和各自的优缺点。好了下面开始讲解代码。

R和python不一样，R更倾向于科学计算语言函数编程，对于python的类class来说R模块化通常用函数来表示。

1.定义激活函数

#首先定义激活函数
##############这里我们暂时定义两个激活函数sigmoid和tanh函数
#############R本来就是科学计算语言不像python是万金油，python科学计算要用到numpy，而R你可以直接##############把它看成是numpy，所以它包含了tanh函数这里我们就可以不用定义Tanh函数了，但是我们
##############还是要定义tanh的导数
sigmoid 1/(1+exp(x))
 }
########以下是激活函数导数的定义。
sigmoid_derivative sigmoid(x)*(1-sigmoid(x))
 }
tanh_derivative 1-tanh(x)^2
 }

2.模块的初始化

接下来我们的模块便是初始化，这里的初始化最主要的目的有两个第一是定义激活函数函数,第二是初始化每层的权重，在这里需要注意的是对于权重来说输出层没有权重，所以从网络结构来说，例如5层（包含输出层）的权重只有四层。其次需要在输入层加上bias，也就是说以波士顿房价为例，输入层有13个，但是加上bias便是有14个输入，而且除了输出层以外每一层都必须加上各自的阈值，就和我们理论上一样每一层隐藏层都必须减去阈值。

###函数的输入有两个，layers和activation，layers就是你需要自定义的网络结构
###R中网络结构输入为一组一维数组如C（13，3，1）就表示有输入层13个节点，和一个隐藏层3个节点还有1####个输出层1个节点，这里要注意的是我们面临的问题是回归问题所以只有一个输出。你也可以根据自己的需####要添加自己想要的网络结构如我就用c(13,3,3,2,1)这种网络结构表示1个输入层13个节点和1个输出层，另####外有3层隐藏层，他们分别的节点为3，3，2.
init if(activation =='tanh'){activation< activation_prime < if(activation =='sigmoid'){activation < activation_prime < ###以上是选择使用哪种激活函数，你也可以自己添加激活函数
 init_weights ###这里我们依照我们刚讲过的输出层没有权重所以必须减一
 length(init_weights) ###这里加一是因为每层有自己的阈值
 for(i in 1:(length(layers)-2)){
 nrow ncol layer_matrixweight###这里我们必须要说的是R语言比较python最大的优点便是数据格式多样化，这里我们用list格式就可以建立###十分方便的三维数据，也可以用matrix格式轻易建立矩阵，这里我们用runif随机从-1到1之间筛选初始值
 init_weights[[i]] }
 ###最后一层因为没有阈值所以结构上我们必须把他单独列出来这也就是last_ncol没有加一的原因
 last_nrow=layers[length(init_weights)]+1
 last_ncol=layers[length(init_weights)+1]
 init_weights[[length(init_weights)]] #####这里我们为了区分用init_weights建立初始权重并把它赋予全局变量以便后面的函数调用 

 init_weights< }

3.拟合函数的编写

下面我们进行拟合函数模块的编写，从理论上我们可以证明函数的梯度就是最佳的优化方向，所以这里我们就需要层层的求出输出值，然后用输出值倒推出每一层的delta,然后再更新权重。

###这里的X和Y是训练样本
fit weights old_colname #加入一列1，作为bais
 x #######修改列名（可选）
 colnames(x) for(i in 1:epochs){
 ####随机梯度下降方法SGD
 n calculate_weights length(calculate_weights) #######计算权重
 for( k in 1:length(weights)){
 dot_value activation_value calculate_weights[[k+1]] } 
 error ############从输出层反向递推计算delta
 deltas for( j in (length(calculate_weights)-1):2){
 length(deltas) deltas[[length(deltas)]] }
 ############倒转 deltas
 deltas_reverse length(deltas_reverse) num for(m in 1:length(deltas)){
 deltas_reverse[[m]] num }
 ############逐层更新权重
 for(t in 1:length(weights)){
 layer delta weights_new weights[[t]] }
 } 
 print(weights) 
 #######训练好的权重用fit_weights来表示
 fit_weights< }

4.预测函数的编写

接下来就是预测函数，这里我们先写一个对每一个测试样本计算预测值的函数predict，再用apply函数写一个函数predict_total对所有的测试集并行矩阵计算预测值。

 predict for(i in 1:length(fit_weights)){
 dot_predict activation_predict x }
 return(x)
 }
 predict_total new_x_test predict_values< print(predict_values)
 }

5.归一化

以上神经网络主体部分就已经写好了，接下来我们需要对data进行预处理，读取数据，随机选取训练集和测试机，然后进行归一化，这里介绍了标准化归一化和极差归一化。

#读取数据 
data###随机抽取训练集和测试集（这里取百分之七十训练集）
sample_numdata_traindata_testx_trainy_trainx_testy_test###标准化归一
x_trainy_trainx_testy_test###极差化归一（可选）
#x_train#x_test#y_train#y_test

6.预测

我们经过一系列计算来得到训练后的权重进行预测，评价标准为MSE和MAE。

init(c(13,3,3,2,1),"tanh")
fit(x_train,y_train,0.001,20000)
predict_total(x_test)

最后再啰嗦几句，这里我们求得的预测值是标准化过后的，所以我们必须要根据公式对归一化的数据进行还原，python可以用sklearn包，但R不加载任何包可以自己写,以标准化归一为例。

公式为：

其中μ为所有样本数据的均值，δ为所有样本数据的标准差，所以可以求得：

7.预测数据还原

###注意这里我们因为还原预测数据所以对应的就是y_train,其实y_train_inverse就等于原始的 

###y_train值同理y_test也等于归一化之前的y_test
y_train_inversey_test_inversepredict_inversemsemae

8.结果

mse[1] 29.52206> mae[1] 4.212332

结论：

可以看出结果不是很理想，但是我们可以继续调参或者做另外的trick，另外我们的程序也可以写得更快写，少些for循环多写矩阵计算，下次我们将更改程序，使它更加强大。

回复爬虫爬虫三大案例实战

回复 Python 1小时破冰入门

回复数据挖掘 R语言入门及数据挖掘

回复人工智能三个月入门人工智能

回复数据分析师数据分析师成长之路

回复机器学习机器学习的商业应用

回复数据科学数据科学实战

回复常用算法常用数据挖掘算法

分享到:

閱讀更多 天善智能 的文章

關鍵字: Python 人工智能编程语言

TIOBE 4月榜单出炉：Python进前三，少儿编程语言Scratch进TOP 20

授人以渔，如何全面学习Origin作图？

12.24 使用“pdpipe”，通过Pandas快速建立管道

启动物联网项目所需的一切：关于流处理

手把手教你用Python玩转时序数据，从采样、预测到聚类，含代码

创始人头发多少决定编程难度？这十大编程语言，C++只排第二？

我和我的闺蜜们都在聊什么？

R语言ETL系列：创建字段（mutate）

“IT男等级”对照表｜找找你在哪？

R语言自然语言处理：词性标注与命名实体识别

主成分分析：你为什么还是单身？

R语言基于S3的面向对象编程

R语言信用评分卡：探索性数据分析

R语言ETL系列：过滤（filter）

R+ECharts2Shiny实现web动态交互式可视化数据(上)

windows定时自动运行R脚本的正确姿势

我与R语言的相识与相知

逻辑斯蒂回归：家庭买私家车的概率

R语言ETL工程系列：排序（arrange）

R语言轻巧的时间包hms

R可视化：图片为背景的气泡地图

送几套样机，让你的 PPT 更有逼格

用R语言实现密度聚类dbscan （下）

用R语言实现密度聚类dbscan (上)

当文科生遇见R语言，照样玩得转

探索性数据分析：银行信贷数据集

R速成指南-时间序列重采样

R语言模拟：Cross Validation

大数据开发常用的编程语言有哪些？

这些常见的机器学习工具，不知道的快来补课

Python与R的争锋相对：大数据小白该怎样选？

09.01 人生苦短，请用Python

用R语言进行用户特征分析

MIT发布史上最强科学计算编程语言？

大数据教程分享：R语言从初级到进阶全套视频教程，评论免费送

处理数据有哪几种编程语言，主要有什么区别？

Python VS R语言：你的下一个ML项目会选谁？

MIT正式发布编程语言Julia 1.0：Python、R、C++三合一

大数据处理编程语言，作为数据分析师你经常用哪种！

为什么说统计学在机器学习中占有重要作用

2018年最流行的十大编程语言，其中包括你用的语言吗？

您期待的人工智能课程正式上线！

数据预处理——数据清洗

上海R语言数据分析，数据可视化，机器学习培训班，周末现场班！

R语言数据挖掘实践——五个场景全面读懂支持向量机

07.12 免费学习视频：利用R语言进行游戏数据分析

机器学习和数据分析中，R和Python的对比

小米太无耻了。

小米高管不只口嗨了，在国内拳打友商，在国外却开始下跪了。下一步，我猜小米会喊，高通爸爸，人家爱死你了，人家已经五体投地了哟。

蹭热点！说说我理解的手机包装盒事件。

今早醒来刷头条，发现大批米系自媒体铺天盖地发文嘲讽华为系自媒体，忍不住好奇了解了一下情况，原来是刚发布的一加8 海外版手机的手机包装盒上面印了一句话:with easy access to the Google apps you use most.而这句话也印在前段时间发布的小

苹果公司正式发布iPhone SE二代手机

新品名为“iPhoneSE”，拥有跟iPhone 8相似的外观，搭载了苹果当前最新的A13仿生芯片，具备IP67级别防水防尘能力，配备4.7英寸LCD材质屏幕，支持原彩显示，配备了Touch ID指纹识别。

华为河图、麒麟芯片和鸿蒙OS三驾马车并行？华为生态建设布局深远

至于受很多人关注的华为河图全面落地问题，官方有消息称，2020年第二季度会提供100个华为河图测试点，测试点到第四季度会增加至1000个，测试覆盖空间包括智慧园区、旅游景点、高铁站和机场等。

小米高管表示，四千毫安时 5G 手机，和三千多毫安时 4G 手机一样

小米科技高管卢伟冰在近日表示，5G旗舰手机如果5G网络全开，功耗会比4G手机高20%，4000mAh的5G手机大约等于4G手机的3200mAH；今年Redmi坚持把5G手机的容量控制在4500mAh以上，也是考虑到5G网络耗电大的原因，今年很多5G智能手机均采用大电池的设计。

5G画风变了：麒麟985落地首跑，荣耀坐上开往高端的「地铁」

荣耀30Pro/30 Pro+同时搭载麒麟990 5G SoC，相应的其它配置更高：Wi-Fi6+，支持红外遥控，USB 3.0 Type-C接口。

旗舰手机标配Wifi 6 换Wifi 6路由器的时机到了吗？

现在，家庭宽带都在500M左右，大部分手机也不支持Wifi6标准，换Wifi 6无线路由器有点早，因为换了Wifi 6无线路由器网速也不会变快。

2020年5G手机卖不动？继苹果砍单25%之后，华为小米纷纷跟砍？

都说苹果手机卖不动了，可我看想买iPhone手机的人还是那么多，不然之前苹果公司怎么会限购？数据显示，3月份在国内的 iPhone 销量比 2 月份激增 416%，达到约 250 万部。

干翻华为P40系列荣耀30也玩中

而今天的华为发布会上，荣耀30、30 Pro、30 Pro +3个版本中、大、特大杯齐亮相，又一片全新5G SOC，麒麟985也要登场。

程序员辞互联网工作，跨行传统上市公司，上班第1天就蒙了

原来男子是从事互联网工作，后面觉得是互联网寒冬来了，就坚决辞去互联网工作，跨行选择了一个教育传统上市公司，可是第1天上班就蒙了，公司让做的活儿太死板了，没有发挥空间，同事一点都不友善，领导不放权，而且管理线超级单一，氛围一点都不一样，所以想离职。

苹果发布新款iPhoneSE，3299元起售

北京时间4月15日晚，苹果正式发布了新款iPhone SE，搭载了A13仿生芯片，支持最新的iOS 13系统，支持 18W快充，也支持Qi无线充电。SE机型苹果到目前为止只发布了两款，这是iPhone产品体系里小屏和低价的典型机器。

我很纠结：我究竟适不适合做亚马逊电商？看了这三条你就知道了

请仔细阅读，关于跨境电商你想知道的都在这儿

政府对于跨境电商行业的大力支持给咱们广大跨境电商卖家吃了一颗“定心丸”。我们所做的跨境电商事业在一定程度上不再是为个人谋利益，而是成为了中国产品走向世界，为国家赚取外汇的主力军。

骗子手段太“精明”：商家赔了货物又赔款，亚马逊平台骗术大揭秘

在开始文章的干货分享之前，先给大家讲一个商家被用户勒索的案例。有一位朋友刚刚加入亚马逊跨境电商平台两个多月，在这期间有位美国用户在他店铺里面购买了一个毛巾架。

做跨境电商这么多年，今天才知道给国外客户发文件原来这么简单

做过跨境电商朋友肯定知道，很多国外客户对于有些商品看不懂说明书，想索要商品使用视频教程，毕竟视频信息量大，容易理解和快速上手。

值得收藏！三类卖家三种选品方案，总有适合你的一个……

网上很多所谓的“大佬”喜欢吹嘘用某某工具就可以迅速选品效率，迅速取得很高效率等等，其实这类人就是在卖软件，收培训费用…

万万没想到！亚马逊平台上面卖床单竟营收一个亿！你还在等什么？

做店铺这么多年，今天才知道我的listing突然被封，竟是因为……

亚马逊小白看过来！请采纳这些：亚马逊选品和运营的小建议

亚马逊卖家如何爆单？跨境精细化运营攻略必看

不收保证金、入住费、年费，还免三个月佣金，我也想入驻这个平台

咱们今天不说主打欧美市场的亚马逊，只谈一下以东南亚市场为主的Shopee。好多人都听说过，但是没有真正了解过，好多人想加入Shopee但是顾虑重重，今天我来给大家普及一下关于Shopee小秘密。

马云终于要辞职了，留下的话句句触动人心

去年，在教师节这天，阿里巴巴集团创始人马云今天公开信宣布：一年后的阿里巴巴20周年之际，即2019年9月10日，也就是今天，他将不再担任集团董事局主席，却留下句句触动心灵的话！！

等等，明年5G手机将迎来大降价

11月26日下午，联发科技（MediaTek）在深圳举办“联发科技 5G方案发布暨全球合作伙伴大会”，正式发布了全新的5G新芯片品牌——“天玑”，同时带来了首款集成式旗舰级5G移动平台——天玑1000。

微信公开课PRO版2019正在进行时，往届各自都有什么黑科技

微信公开课pro版2019，为期两天微信大会正在广州火热进行中，本次会议主题为：同行WITHUS。微信这一款超级应用，已经深入到我们生活的方方面面，所以这48小时的未来盛宴必将吸引无数眼球。

推出「信任分」升级「闪购」，美团本地生活这盘棋有多大？

小海按：美团的超级App梦想更近了？Tech星球文 | 马微冰陈桥辉头图 | IC Photo王兴曾说，“太多人关注边界，而不关注核心。”

5G我们超越了6G我们也将领先! 美国为什么会害怕失去5G领导地位呢

而且在我们国内和美企中，有相当一部分觉得我们研发不了5G，更特说超越他们了。由于，我们在科技领域一直是，装备一代，研发一代，探索一代。

界读｜华为：帮助英国共渡疫情难关，无端批评令英国蒙受损失

前段时间，英国首相呼吁员工在家办公的第二天，英国网络就出现大面积崩溃现象，不仅无法正常上网，而且电话也不能打、短信也不能发，给用户造成了很大的困扰。

为什么华为今天可以傲视群雄，在世界上立于不败之地？

为什么华为今天可以傲视群雄，在世界上立于不败之地？因为五年内没有人能超过整个5G领域，所以美国人无法超越，为什么？

血战「在线办公」，阿里、腾讯、字节、华为的底牌与大杀器

小海按：前端杀手级应用，后端云服务，在线办公「四小龙」之战开启。本来，在线办公更多的是阿里巴巴的主场。

2020年最强拍照旗舰来了华为P40系列多项业界首创香！

原来华为P40Pro+在上一代P30 Pro潜望式镜头横置长焦镜头模组和感光器件基础之上，进一步采用全新的多反射潜望式光路折叠技术，实现5次反射光路，光程比上一代潜望式长焦提升178%。

今天聊一聊直播

今天聊一聊直播突然谈到这个话题，是因为后知后觉的我，突然发现几乎所有大互联网公司都进军了网络直播行业，或者正在准备进军直播领域。

通过直播赚钱不容易，既要豁得出去，又要端得起来

今天咱们继续聊一聊直播吧当下，像头条、网易、百度等公司，看上去和直播八竿子打不着的公司，也开始涉足直播了。

AI和自动化技术联手，最终会让60%的工人失去现有的饭碗。

并非危言耸听，AI和自动化结合，势必会把数十亿人类踢出劳动力市场，数量巨大的失业工人，将会构成一个规模庞大的新阶级。AI最终会让60%的工人失去现有的饭碗。

这个网还能不能好好上了？今日全球IPv4地址正式耗尽

长期以来，一直令人担心的IPv4地址耗尽的问题，今天这一刻终于发生——所有43亿个IPv4地址已分配完毕，这意味着没有更多的IPv4地址可以分配给ISP和其他大型网络基础设施提供商。

12306系统不行？内行人告诉你它有多牛，阿里腾讯高手去了也膜拜

很多人认为12306系统很不好，之前我也是这么认为的，因为我觉得像双十一这么大流量，阿里都能承受住，为什么12306不行，这其实是误解，12306拥有着神一般的架构设计，平时的压力比淘宝大的多。

有内幕？美国防部授与微软百亿云合同，亚马逊不满发起诉讼

据路透社消息，10月25日，美国防部将高达100亿美元的十年期战略合同授予微软公司，这一举动引起亚马逊的不满。

未来之芯--RISC-V总部从美国迁往瑞士，华为、阿里是其成员

北京时间26日消息，国际开源芯片技术组织RISC-V基金会周一宣布，由于担心美国的贸易限制，计划将总部从美国特拉华州迁往瑞士。该基金会首席执行官卡利丝塔-雷蒙德（Calista Redmond）表示，希望确保美国以外的大学、政府和企业能够帮助开发其开源技术。

神话还能继续吗？几度过山车，比特币半年来首次跌破7000美元

比特币价格今年如同坐上过山车，年初的3000美元到最高13861.9美元，今天跌破7000美元，算是这半年来的最低点了。说起比特币，给人印象最深刻的，莫过于2017年末到2018年初的暴涨了吧。

刘强东卸任后，突然宣布一个“好消息”，让马云措手不及！

苹果的疯狂其实从未停止，AirPower或将重新启航

可是，苹果事实上一直都在推动终端产品进入全面无线时代，所以他们是不太可能在真正意义上放弃这款产品。有外媒称，苹果目前正准备重新启动AirPower项目。

曾保护近4亿中国人的电脑，却因得罪阿里、腾讯，惨遭市场淘汰

曾保护近4亿中国人的电脑，却因得罪阿里、腾讯，惨遭市场淘汰随着网络的不断发展，如何确保网络信息安全成为人们十分重视的问题。

互联网流量需求增大希腊民众“宅生活”考验网速

英国咨询公司Tech4i2报告指出，在疫情期间，希腊的互联网流量需求至少增长50%，但网速仅下降1.2%，而在大多数欧洲国家，网速平均下降了5%-7%。

互联网科技企业，传统办公模式该走向何处?

　　纽约，处于美国疫情震中的城市，工作模式大多是使用公司发放的电脑进行远程办公，而在这之前，部分互联网企业本来默认每周三为在家办公日，所以大家对在线办公可以说驾轻就熟。

微信又悄悄上线一新功能～网友却开始担心

备注后的群聊名称仅自己可见往后再也不用为分清乱糟糟的微信群聊而困扰不过从目前来看只有iOS端上线了这一新功能安卓用户还需要再等等并且此次更新为后台更新无需到AppStore更新即可看到这个新功能该功能上线后网友们纷纷站队但也有网友视野开阔担心起另一件事对于微信新功能群备注你觉得实

正式确认！孙正义退出市值5959亿阿里，20年与马云成就彼此

文：小娜说到孙正义这个名字，我们很多人都知道他是日本软银集团的创始人兼总裁，但他除此之外也有另外的身份，那就是阿里巴巴最大的董事之一。阿里之所以成为今天的阿里，与孙正义的投资是分不开的。当时，马云和孙正义仅仅交谈了五分钟，孙正义当即就决定投资阿里，而且一下就投资2000万美元。

科技添柴“非接触经济”升温

新华社记者王全超摄中国同拉美和加勒比国家举行视频工作会议，就新冠肺炎疫情防控开展交流。亚历山大·培尼亚摄在中国科学技术大学附属第一医院，乘客用“无接触电梯按钮”操作电梯。

好像在哪见过？华为nova7官宣余承东:何必只有一点点

全新iPhoneSE根据此前爆料，此次华为nova7系列将有nova7 SE、nova7和nova7 Pro三个版本，可能会采用“麒麟985+麒麟990”或“麒麟820+麒麟985+麒麟990”两种芯片组合。

行业红利、资本涌入，疫情后的在线教育聚师网如何“涅槃”

2018年，线下培训机构受到了相关部门政策的影响，整体发展势头趋降，然而市场上对于教育的需求却在不断增加，于是，大量学员开始把需求放到了线上，其中，职业教育在这方面的变化尤其明显。

数字货币真的来了？首吃螃蟹者传出，碰一碰功能露脸

苏州相城区政府相关人士对此未予置评，区金融局人士表示“不便答复”，其他多个当地机关单位称尚不知情，央行苏州市中心支行表示“以总行口径为准”，央行总行方面未予确认。新京报记者程维妙陈鹏编辑岳彩周校对薛京宁

实例 | 200 SMART运动控制基本指令详解

C_Dir:表示电机的当前方向信号状态，0 = 正向 1 = 反向。 START:触发开始发脉冲信号，必须要在运动轴空闲时发送一次信号，必须用边沿触发。