浅谈强化学习原理（附代码&链接）

2019-11-27 19:55:00 THU數據派

翻译：王琦

校对：王雨桐

本文约4900字，建议阅读15分钟。

本文介绍了强化学习的基本原理，并通过代码实例来讲解如何找到最优策略。

Google在2017年年底发布了AlphaZero，这个零基础的AI系统能够在4小时内自学并掌握国际象棋、围棋和将棋。

极短的训练时间是 AlphaZero击败世界顶级国际象棋程序的致命武器。

Andriy Popov / Alamy Stock 照片

最近，OpenAI 展示了强化学习不是一个仅限于虚拟任务的工具。Dactyl的类人机械手已经学会了如何独立解魔方(见下面链接)。

附链接：https://openai.com/blog/solving-rubiks-cube/

Google AlphaZero和OpenAI Dactyl的本质都是强化学习算法，它不基于任何相关领域的知识，我们只需要给定游戏的规则。一些AI专家认为这是实现人类或超人类的通用人工智能的最可行方法。

我们之前的文章介绍了强化学习的基础概念（见下面链接）。

附链接：

https://towardsdatascience.com/dont-ever-ignore-reinforcement-learning-again-4d026ee81371

现在让我们继续深入AI智能体的工作原理，探索它是如何通过自学来采取恰当的行动流程，从而实现全局最优的目标。

什么是策略？

让我们假设一个OpenAI冰湖的简单情景，在此环境下智能体能够控制一个人物在坐标格上运动。网格里的一些是可走的，其他格子则意味着人物将掉进冰洞里。当智能体发现一条可走的并且能达到目标地点（图中黄色星星）的路径时，它就会得到奖励。

在这种很简单的环境下，我们可以有很多策略。比如说，智能体可以一直向前移动，或者随机选择一个方向移动，还可以通过前车之鉴来学习如何绕过障碍，甚至可以原地转圈来娱乐。

从直观上来讲，策略可以被定义为一些能够控制智能体行为的规则集合。不同的策略会给我们不同的收益，因此找到一个好的策略很重要。

策略的正式定义是每个可能状态下采取的行为的概率分布：

最优策略

能够最大化预期的值函数 V：

区分于短期收益，值函数 V(s) 是状态s下含折扣的预期长期收益，它表示智能体所处状态的好坏。对一个从该状态开始的智能体来说，这相当于预期的总收益。换言之，这就是在状态s下采取行动a这一步的总收益，被定义为 V(s)。

如何选择最好的行动？

值函数取决于智能体选择行动所用的策略。学习最优策略需要使用所谓的Bellman方程。

让我们通过下面的例子来直观地了解一下Bellman方程。智能体能够执行行动1, 2, …, N，这会让它转移到未来的状态S1, S2, …, SN，从而分别得到相应的收益 r1, r2, …, rN。对于未来各个状态来说，预期的长期收益是V1, V2, …, VN。

如果智能体采取行动 a=i，当其在状态S0时，对状态S0来说，预期的长期收益或价值可以用下面的方程来表示，方程中的γ 是常数。

最优策略能够帮助智能体选择最佳的可能行动。为了达到目的，智能体需要计算每个可能行动 a=1, 2, …, N所产生的收益。然后，我们会选择可能性最大的结果。

上面的方程被称为确定的Bellman方程。对一个给定的行动，如果智能体能够以不同的概率转移到多个未来状态，它就变成了一个随机方程。下图解释了这种情况。

对于这种一般情况，所得的随机Bellman方程如下所示。

我们提供了一种对Bellman方程的实现，这种实现可以在给定的状态 s 下选择最好的可能行动。此函数计算了每个行动的所得值并选择可能性最大的结果。在一切开始之前，你需要加载一些我们之前文章谈到的库（见下面链接）。

附链接：

https://towardsdatascience.com/dont-ever-ignore-reinforcement-learning-again-4d026ee81371

1. # using the Bellman equation, we find the action providing the highest value for the given state s. 2. # V is the list of values of all states 3. def choose_best_action(env, V, s, gamma): 4. a_best = None 5. q_best = float('-inf') 6. nb_actions = env.action_space.n 7. for a in range (0, nb_actions): 8. env.env.s = s # go to state s 9. s_next, r, done, info = env.step(a) #take the action a 10. q = r + gamma * V[s_next] # compute the value future value after taking action a 11. if q > q_best: 12. q_best = q 13. a_best = a 14. return a_best

AI智能体如何通过值迭代来学习？

我们已经解释了如何找到获得最大长期价值的最佳行为。如果我们对所有状态使用这个方法，就会得到值函数。我们也能知道在每个状态(最优状态)下应该采取什么行动。这个算法被称为值迭代。

值迭代算法随机选择一个初始值函数。然后在迭代过程中计算新的改进值函数，直到找到一个最优的值函数。最后，我们可以从最优的值函数中得到最优的策略。

在一个 4×4的冰湖环境下，值迭代算法会在16个状态下进行循环并采取4个可能的行动来探索给定行动的收益。此外，它还会计算可能性最大的行动/收益并将其存储在向量 V[s]中，持续迭代这个算法直到 V[s] 不再有显著的改进。

最优策略 P 每次会采取能够转移到最大V值状态的行动。

下面的函数实现了在 4×4的冰湖环境下的值迭代算法。

1. # value iteration algorithm 2. def compute_value_iteration(env = gym.make('FrozenLakeNotSlippery-v0'), 3. gamma=.9, v_delta_threshold=.01, 4. V = None, verbose=True): 5. env.reset() 6. nb_actions = env.action_space.n 7. nb_states = env.observation_space.n 8. # values vector 9. if V == None: 10. V = np.zeros([nb_states]) 11. # policy vector 12. P = np.zeros([nb_states], dtype=int) 13. iteration = 0 14. while True: 15. 16. v_delta = 0 17. for s in range (0, nb_states): 18. v_previous = V[s] 19. a_best = choose_best_action(env, V, s, gamma) # find an action with the highest future reward 20. env.env.s = s # go to the state s 21. s_next, r, done, info = env.step(a_best) #take the best action 22. V[s] = r + gamma * V[s_next] # update the value of the state 23. P[s] = a_best # store the best action in the policy vector for the state 24. v_delta = max(v_delta, np.abs(v_previous - V[s])) # calculate the rate of value improvment for the state 25. iteration += 1 26. if v_delta < v_delta_threshold: 27. if verbose: 28. print (iteration,' iterations done') 29. break 30. return V, P 31. 32.# compute values for a 4x4 board 33.V_4, P_4 = compute_value_iteration() 34.V_4

上面所得的数组解释了值迭代函数是如何成功地计算出16个状态的长期收益。此算法迭代了7次。

表示冰洞（H）的状态值为0，那些表示冰面的格子（F）的状态有更大的值，尤其是那些处在有希望到达目标G的路径上的格子。

下面的函数绘制了热力图将结果可视化。箭头展示了使用最优策略 P来获得最佳总收益的行动流程。

1. # function for displaying a heatmap 2. def display_value_iteration(P, env = gym.make('FrozenLakeNotSlippery-v0')): 3. nb_states = env.observation_space.n 4. visited_states = np.zeros(nb_states).astype(bool) 5. visited_states[0] = 1 6. states_labels = np.where(P==0, '', 8. np.where(P==2, 'v', 9. np.where(P==3, '^', P) 10. ) 11. ) 12. ) 13. desc = env.unwrapped.desc.ravel().astype(str) 14. colors = np.where(desc=='S','y',np.where(desc=='F','b',np.where(desc=='H','r',np.where(desc=='G','g',desc)))) 15. states_labels = np.zeros(nb_states).astype(str) 16. states_labels[:] = '' 17. total_reward = 0 18. s = env.reset() 19. #env.render() 20. done = False 21. while done != True: 22. best_a = P[s] # select the best next action from the policy 23. states_labels[s] = '^' if best_a==0 else ('v' if best_a==1 else ('>' if best_a==2 else ' 
下面我们在8×8的冰湖环境下运行了值迭代算法。
1. V_8, P_8 = compute_value_iteration(env = gym.make('FrozenLake8x8NotSlippery-v0')) 2. V_8 3. display_value_iteration(P_8, env = gym.make('FrozenLake8x8NotSlippery-v0'))
 
AI 智能体如何通过策略迭代来学习？
在前一小节，我们已经展示了值迭代算法并解释了一个智能体如何走过一个有洞的冰湖来达到目标。
在策略迭代的算法中，一开始我们使用的是一个随机策略而不是随机值函数，得到了该策略的值函数。接下来，我们可以基于之前的值函数得到新的(改进的)策略。经过多次迭代后，我们会得到一个最优策略。
 
下面的函数实现了策略迭代算法。
1. # function for performing policy iteration 2. def compute_policy_iteration(env = gym.make('FrozenLakeNotSlippery-v0'), 3. gamma=.9, v_delta_threshold=.01, 4. P = None, verbose=True): 5. env.reset() 6. nb_actions = env.action_space.n 7. nb_states = env.observation_space.n 8. # values vector 9. V = np.zeros([nb_states]) 10. # policy vector 11. if P == None: 12. P = np.random.choice(nb_actions, size=nb_states) 13. 14. max_iterations = 200000 15. iteration = 0 16. for i in range(max_iterations): 17. 18. # policy evaluation 19. while True: 20. v_delta = 0 21. for s in range (0, nb_states): 22. v_previous = V[s] 23. env.env.s = s # go to state s 24. s_next, r, done, info = env.step(P[s]) #take the action recommended by policy 25. V[s] = r + gamma * V[s_next] # update value after applying policy 26. v_delta = max(v_delta, np.abs(v_previous - V[s])) # calculate the rate of value improvment for the state 27. if v_delta < v_delta_threshold: 28. break 29. 30. # policy improvement 31. policy_stable = True 32. for s in range (0, nb_states): 33. a_old = P[s] # ask policy for action to perform 34. a_best = choose_best_action(env, V, s, gamma) # find an action with the highest future reward 35. P[s] = a_best # store the best action in the policy vector for the state 36. if a_old != a_best: 37. policy_stable = False 38. 39. if policy_stable: 40. break 41. 442. iteration += 1 43. if verbose: 44. print (iteration,' iterations done') 45. return V, P 46. 47. Vp_4, Pp_4 = compute_policy_iteration() 48. Vp_4 49. display_value_iteration(Pp_4) 
 
正如我们所看到的那样，两个算法的结果相同。值迭代算法在每次迭代中不断地改进值
函数，直到值函数收敛。策略改进理论让我们确信策略迭代算法发现的策略比最初的随机策略要好。
两种方法都能实现相同的目标，但策略迭代的计算效率更高。
如何调整 AI 智能体的学习率？
值迭代算法和策略迭代算法都依赖于超参数γ(gamma)，γ定义了值更新或策略更新的学习率。
让我们试试不同的gamma 值并讨论一下gamma值对训练的影响。
1. # function for performing value and policy iterations for given gamma 2. def gammas_training(method='value_iteration', 3. gammas = np.arange(0, 1, 0.1), 4. env=gym.make('FrozenLakeNotSlippery-v0')):5. df = pd.DataFrame(columns=['gamma','state','value']) 6. for gamma in gammas: 7. if method == 'value_iteration': 8. V, P = compute_value_iteration(env=env, gamma=gamma, verbose=False) 9. else: 10. V, P = compute_policy_iteration(env=env, gamma=gamma, verbose=False) 11. df = df.append(pd.DataFrame({'gamma':[gamma for i in range(0,env.observation_space.n)], 12. 'state':[i for i in range(0,env.observation_space.n)], 13. 'value': V})) 14. df.state=df.state.astype(int) 15. return df 16. 17. 18. # display the values for multiple gammas 19. 20. fig, ax = plt.subplots(2,2, figsize=(20,10)) 21. 22. df_4_v = gammas_training(method='value_iteration', env=gym.make('FrozenLakeNotSlippery-v0')) 23. sns.lineplot(data=df_4_v, x='gamma', y='value', hue='state', ax=ax[0][0]) 24. ax[0][0].set_title('4x4 - VALUE ITERATION - Values per gamma') 25. 26. df_4_i = gammas_training(method='policy_iteration', env=gym.make('FrozenLakeNotSlippery-v0')) 27. sns.lineplot(data=df_4_i, x='gamma', y='value', hue='state', ax=ax[0][1]) 28. ax[0][1].set_title('4x4 - POLICY ITERATION - Values per gamma') 29. 30. df_8_v = gammas_training(method='value_iteration', env=gym.make('FrozenLake8x8NotSlippery-v0')) 31. sns.lineplot(data=df_8_v, x='gamma', y='value', hue='state', ax=ax[1][0]) 32. ax[1][0].set_title('8x8 - VALUE ITERATION - Values per gamma') 33. 34. df_8_i = gammas_training(method='policy_iteration', env=gym.make('FrozenLake8x8NotSlippery-v0')) 35. sns.lineplot(data=df_8_i, x='gamma', y='value', hue='state', ax=ax[1][1]) 36. ax[1][1].set_title('8x8 - POLICY ITERATION - Values per gamma'); 
 
这些图展示了当gamma增加时，价值是如何增加的。不同的gamma值(0-10) 会产生不同的策略。较小的gamma值会赋予短期收益更多的权重，然而较大的gamma 值会给长期收益更多的权重。
Gamma的最优值取决于任务的领域。在冰湖的情况下，寻求短期收益是不合理的(例如：即使惩罚相同，但相比于走了很长的路但没掉进冰洞，掉进洞里导致的负面收益毫无意义)。因此，我们尽可能地将眼光放长远。
结论
在这篇文章中，我们介绍了强化学习中能够找到最优策略的值迭代和策略迭代算法的实践技术。
Andrej Kaparthy写的这个帖子提供了更好的见解（见下面链接）。
附链接：https://cs.stanford.edu/people/karpathy/reinforcejs/gridworld_dp.html
当智能体知道充足的与环境模型相关的信息时，值迭代算法和策略迭代算法都是有效的。在自动驾驶、医疗或股票交易等多种情况下，学习或提供一个转移模型（transition model）可能会很困难。在这种情况下，免模型（model-free）方法更合适，本文不细谈这个概念。 
Q-学习是一种免模型学习，其适用于智能体不了解环境模型但又必须利用其与环境互动的历史进行反复试验来发现策略的情况。
SARSA (State–action–reward–state–action)是另一种智能体能够与环境互动并基于已采取的行动来更新策略的算法。这篇文章（见下面链接）提供了有关免模型算法的其他有趣见解。
附链接：
https://studywolf.wordpress.com/2013/07/01/reinforcement-learning-sarsa-vs-q-learning/
看得不过瘾？你可以在下面链接中查看我对深度学习最全面，最简单的介绍。
附链接：https://towardsdatascience.com/why-deep-learning-works-289f17cab01a
原文标题：
This Is How Reinforcement Learning Works
原文链接：
https://towardsdatascience.com/this-is-how-reinforcement-learning-works-5080b3a335d6
译者简介
 
王琦，中国科学院大学研一在读，研究方向是机器学习与数据挖掘。喜欢探索新事物，是一个热爱学习的人。 
— 完 —
关注清华-青岛数据科学研究院官方微信公众平台“THU数据派”及姊妹号“数据派THU”获取更多讲座福利及优质内容。
— 完 —
关注清华-青岛数据科学研究院官方微信公众平台“THU数据派”及姊妹号“数据派THU”获取更多讲座福利及优质内容。
"

分享到:

閱讀更多 THU數據派 的文章

關鍵字: 浅谈人工智能算法

小程序定制开发报价要考虑什么？

三问微软低代码开发平台Power Platform

腾讯“代码”战疫开辟海外救助新战场多国发来致谢电

Java8-关于Optional的那些事

浅谈：腾讯音乐霸主的坎坷路

UML-"类图"

iOS 14 代码：iPhone 12P取消刘海上边框变宽

【答疑】关于锁存器问题的讨论

微软开源社区GitHub拟收购代码分发公司NPM 加强开发生态建设

「通达信」BOLL色带之天上人间

无需代码搭建平台，你了解吗

这次的记录与发声，动用了区块链、代码、乐谱、希伯来语……

外媒分析 iOS 14 代码！或有一波新功能即将出现在新系统中

大佬3 行 Python 代码 5 秒抠图的 AI 神器，根本无需 PS，附教程

AIZOO 开源人脸口罩检测数据+模型+代码+在线网页体验，通通开源

这段 Python 代码，可以让你脱单

01.15 谷歌收购无代码应用开发平台AppSheet

无需代码，自己做个WX小程序

01.02 无需代码，自己做个WX小程序

浅谈：为什么现在没有了换机的强烈欲望？

12.26 浅谈“华为爱国论”

只用这 6 个字符，就可以写出任意 JavaScript 代码

12.24 实践总结：八点建议写出优雅的 Java 代码

给不懂编程代码的朋友，CNC编程代码

NLP、CV、语音相关面试问题、代码、简历、知识点等资源整理分享

ML、DL、NLP面试常考知识点、代码、算法理论基础汇总分享

干数控编程这么多年，还不知道什么叫模态代码，操机都白干了

「简单教程」小程序支付功能开发实战：附送前后端源码！

太空、代码、大数据原来可以这么有趣

比特币社区权力游戏：代码、算力、用户，谁才是社区决策权力机构

浅谈：进程和线程

[下载]GNU Linux-libre 5.0正式发布：不包含任何专有代码

谷歌开源可扩展的TensorFlow库，可用于排名学习｜论文+代码

2018.11.27—ICCID漏洞代码，89014104

浅谈，所谓的产业互联网

pos机支付工具好还是不好？浅谈

浅谈：未来五年大数据发展的趋势统计分析

浅谈：比特币的生态系统

浅谈：物联网在产业园区的技术实践

浅谈“疫苗上链”

浅谈如何看待金立手机重组？

7步代码详解SpringCloud框架下集成第三方注册中心实现微服务管理

浅谈：如何策划小程序拼团活动？

MOSEC议题解读｜Bread——接踵而来的短信诈骗

03.14 小程序开放插件功能，逆天大招释放！

WP8.1 GDR1升级版IE11浏览器详解

小米太无耻了。

小米高管不只口嗨了，在国内拳打友商，在国外却开始下跪了。下一步，我猜小米会喊，高通爸爸，人家爱死你了，人家已经五体投地了哟。

蹭热点！说说我理解的手机包装盒事件。

今早醒来刷头条，发现大批米系自媒体铺天盖地发文嘲讽华为系自媒体，忍不住好奇了解了一下情况，原来是刚发布的一加8 海外版手机的手机包装盒上面印了一句话:with easy access to the Google apps you use most.而这句话也印在前段时间发布的小

苹果公司正式发布iPhone SE二代手机

新品名为“iPhoneSE”，拥有跟iPhone 8相似的外观，搭载了苹果当前最新的A13仿生芯片，具备IP67级别防水防尘能力，配备4.7英寸LCD材质屏幕，支持原彩显示，配备了Touch ID指纹识别。

华为河图、麒麟芯片和鸿蒙OS三驾马车并行？华为生态建设布局深远

至于受很多人关注的华为河图全面落地问题，官方有消息称，2020年第二季度会提供100个华为河图测试点，测试点到第四季度会增加至1000个，测试覆盖空间包括智慧园区、旅游景点、高铁站和机场等。

小米高管表示，四千毫安时 5G 手机，和三千多毫安时 4G 手机一样

小米科技高管卢伟冰在近日表示，5G旗舰手机如果5G网络全开，功耗会比4G手机高20%，4000mAh的5G手机大约等于4G手机的3200mAH；今年Redmi坚持把5G手机的容量控制在4500mAh以上，也是考虑到5G网络耗电大的原因，今年很多5G智能手机均采用大电池的设计。

5G画风变了：麒麟985落地首跑，荣耀坐上开往高端的「地铁」

荣耀30Pro/30 Pro+同时搭载麒麟990 5G SoC，相应的其它配置更高：Wi-Fi6+，支持红外遥控，USB 3.0 Type-C接口。

旗舰手机标配Wifi 6 换Wifi 6路由器的时机到了吗？

现在，家庭宽带都在500M左右，大部分手机也不支持Wifi6标准，换Wifi 6无线路由器有点早，因为换了Wifi 6无线路由器网速也不会变快。

2020年5G手机卖不动？继苹果砍单25%之后，华为小米纷纷跟砍？

都说苹果手机卖不动了，可我看想买iPhone手机的人还是那么多，不然之前苹果公司怎么会限购？数据显示，3月份在国内的 iPhone 销量比 2 月份激增 416%，达到约 250 万部。

干翻华为P40系列荣耀30也玩中

而今天的华为发布会上，荣耀30、30 Pro、30 Pro +3个版本中、大、特大杯齐亮相，又一片全新5G SOC，麒麟985也要登场。

程序员辞互联网工作，跨行传统上市公司，上班第1天就蒙了

原来男子是从事互联网工作，后面觉得是互联网寒冬来了，就坚决辞去互联网工作，跨行选择了一个教育传统上市公司，可是第1天上班就蒙了，公司让做的活儿太死板了，没有发挥空间，同事一点都不友善，领导不放权，而且管理线超级单一，氛围一点都不一样，所以想离职。

苹果发布新款iPhoneSE，3299元起售

北京时间4月15日晚，苹果正式发布了新款iPhone SE，搭载了A13仿生芯片，支持最新的iOS 13系统，支持 18W快充，也支持Qi无线充电。SE机型苹果到目前为止只发布了两款，这是iPhone产品体系里小屏和低价的典型机器。

我很纠结：我究竟适不适合做亚马逊电商？看了这三条你就知道了

请仔细阅读，关于跨境电商你想知道的都在这儿

政府对于跨境电商行业的大力支持给咱们广大跨境电商卖家吃了一颗“定心丸”。我们所做的跨境电商事业在一定程度上不再是为个人谋利益，而是成为了中国产品走向世界，为国家赚取外汇的主力军。

骗子手段太“精明”：商家赔了货物又赔款，亚马逊平台骗术大揭秘

在开始文章的干货分享之前，先给大家讲一个商家被用户勒索的案例。有一位朋友刚刚加入亚马逊跨境电商平台两个多月，在这期间有位美国用户在他店铺里面购买了一个毛巾架。

做跨境电商这么多年，今天才知道给国外客户发文件原来这么简单

做过跨境电商朋友肯定知道，很多国外客户对于有些商品看不懂说明书，想索要商品使用视频教程，毕竟视频信息量大，容易理解和快速上手。

值得收藏！三类卖家三种选品方案，总有适合你的一个……

网上很多所谓的“大佬”喜欢吹嘘用某某工具就可以迅速选品效率，迅速取得很高效率等等，其实这类人就是在卖软件，收培训费用…

万万没想到！亚马逊平台上面卖床单竟营收一个亿！你还在等什么？

做店铺这么多年，今天才知道我的listing突然被封，竟是因为……

亚马逊小白看过来！请采纳这些：亚马逊选品和运营的小建议

亚马逊卖家如何爆单？跨境精细化运营攻略必看

不收保证金、入住费、年费，还免三个月佣金，我也想入驻这个平台

咱们今天不说主打欧美市场的亚马逊，只谈一下以东南亚市场为主的Shopee。好多人都听说过，但是没有真正了解过，好多人想加入Shopee但是顾虑重重，今天我来给大家普及一下关于Shopee小秘密。

马云终于要辞职了，留下的话句句触动人心

去年，在教师节这天，阿里巴巴集团创始人马云今天公开信宣布：一年后的阿里巴巴20周年之际，即2019年9月10日，也就是今天，他将不再担任集团董事局主席，却留下句句触动心灵的话！！

等等，明年5G手机将迎来大降价

11月26日下午，联发科技（MediaTek）在深圳举办“联发科技 5G方案发布暨全球合作伙伴大会”，正式发布了全新的5G新芯片品牌——“天玑”，同时带来了首款集成式旗舰级5G移动平台——天玑1000。

微信公开课PRO版2019正在进行时，往届各自都有什么黑科技

微信公开课pro版2019，为期两天微信大会正在广州火热进行中，本次会议主题为：同行WITHUS。微信这一款超级应用，已经深入到我们生活的方方面面，所以这48小时的未来盛宴必将吸引无数眼球。

推出「信任分」升级「闪购」，美团本地生活这盘棋有多大？

小海按：美团的超级App梦想更近了？Tech星球文 | 马微冰陈桥辉头图 | IC Photo王兴曾说，“太多人关注边界，而不关注核心。”

5G我们超越了6G我们也将领先! 美国为什么会害怕失去5G领导地位呢

而且在我们国内和美企中，有相当一部分觉得我们研发不了5G，更特说超越他们了。由于，我们在科技领域一直是，装备一代，研发一代，探索一代。

界读｜华为：帮助英国共渡疫情难关，无端批评令英国蒙受损失

前段时间，英国首相呼吁员工在家办公的第二天，英国网络就出现大面积崩溃现象，不仅无法正常上网，而且电话也不能打、短信也不能发，给用户造成了很大的困扰。

为什么华为今天可以傲视群雄，在世界上立于不败之地？

为什么华为今天可以傲视群雄，在世界上立于不败之地？因为五年内没有人能超过整个5G领域，所以美国人无法超越，为什么？

血战「在线办公」，阿里、腾讯、字节、华为的底牌与大杀器

小海按：前端杀手级应用，后端云服务，在线办公「四小龙」之战开启。本来，在线办公更多的是阿里巴巴的主场。

2020年最强拍照旗舰来了华为P40系列多项业界首创香！

原来华为P40Pro+在上一代P30 Pro潜望式镜头横置长焦镜头模组和感光器件基础之上，进一步采用全新的多反射潜望式光路折叠技术，实现5次反射光路，光程比上一代潜望式长焦提升178%。

今天聊一聊直播

今天聊一聊直播突然谈到这个话题，是因为后知后觉的我，突然发现几乎所有大互联网公司都进军了网络直播行业，或者正在准备进军直播领域。

通过直播赚钱不容易，既要豁得出去，又要端得起来

今天咱们继续聊一聊直播吧当下，像头条、网易、百度等公司，看上去和直播八竿子打不着的公司，也开始涉足直播了。

AI和自动化技术联手，最终会让60%的工人失去现有的饭碗。

并非危言耸听，AI和自动化结合，势必会把数十亿人类踢出劳动力市场，数量巨大的失业工人，将会构成一个规模庞大的新阶级。AI最终会让60%的工人失去现有的饭碗。

这个网还能不能好好上了？今日全球IPv4地址正式耗尽

长期以来，一直令人担心的IPv4地址耗尽的问题，今天这一刻终于发生——所有43亿个IPv4地址已分配完毕，这意味着没有更多的IPv4地址可以分配给ISP和其他大型网络基础设施提供商。

12306系统不行？内行人告诉你它有多牛，阿里腾讯高手去了也膜拜

很多人认为12306系统很不好，之前我也是这么认为的，因为我觉得像双十一这么大流量，阿里都能承受住，为什么12306不行，这其实是误解，12306拥有着神一般的架构设计，平时的压力比淘宝大的多。

有内幕？美国防部授与微软百亿云合同，亚马逊不满发起诉讼

据路透社消息，10月25日，美国防部将高达100亿美元的十年期战略合同授予微软公司，这一举动引起亚马逊的不满。

未来之芯--RISC-V总部从美国迁往瑞士，华为、阿里是其成员

北京时间26日消息，国际开源芯片技术组织RISC-V基金会周一宣布，由于担心美国的贸易限制，计划将总部从美国特拉华州迁往瑞士。该基金会首席执行官卡利丝塔-雷蒙德（Calista Redmond）表示，希望确保美国以外的大学、政府和企业能够帮助开发其开源技术。

神话还能继续吗？几度过山车，比特币半年来首次跌破7000美元

比特币价格今年如同坐上过山车，年初的3000美元到最高13861.9美元，今天跌破7000美元，算是这半年来的最低点了。说起比特币，给人印象最深刻的，莫过于2017年末到2018年初的暴涨了吧。

刘强东卸任后，突然宣布一个“好消息”，让马云措手不及！

苹果的疯狂其实从未停止，AirPower或将重新启航

可是，苹果事实上一直都在推动终端产品进入全面无线时代，所以他们是不太可能在真正意义上放弃这款产品。有外媒称，苹果目前正准备重新启动AirPower项目。

曾保护近4亿中国人的电脑，却因得罪阿里、腾讯，惨遭市场淘汰

曾保护近4亿中国人的电脑，却因得罪阿里、腾讯，惨遭市场淘汰随着网络的不断发展，如何确保网络信息安全成为人们十分重视的问题。

互联网流量需求增大希腊民众“宅生活”考验网速

英国咨询公司Tech4i2报告指出，在疫情期间，希腊的互联网流量需求至少增长50%，但网速仅下降1.2%，而在大多数欧洲国家，网速平均下降了5%-7%。

互联网科技企业，传统办公模式该走向何处?

　　纽约，处于美国疫情震中的城市，工作模式大多是使用公司发放的电脑进行远程办公，而在这之前，部分互联网企业本来默认每周三为在家办公日，所以大家对在线办公可以说驾轻就熟。

微信又悄悄上线一新功能～网友却开始担心

备注后的群聊名称仅自己可见往后再也不用为分清乱糟糟的微信群聊而困扰不过从目前来看只有iOS端上线了这一新功能安卓用户还需要再等等并且此次更新为后台更新无需到AppStore更新即可看到这个新功能该功能上线后网友们纷纷站队但也有网友视野开阔担心起另一件事对于微信新功能群备注你觉得实

正式确认！孙正义退出市值5959亿阿里，20年与马云成就彼此

文：小娜说到孙正义这个名字，我们很多人都知道他是日本软银集团的创始人兼总裁，但他除此之外也有另外的身份，那就是阿里巴巴最大的董事之一。阿里之所以成为今天的阿里，与孙正义的投资是分不开的。当时，马云和孙正义仅仅交谈了五分钟，孙正义当即就决定投资阿里，而且一下就投资2000万美元。

科技添柴“非接触经济”升温

新华社记者王全超摄中国同拉美和加勒比国家举行视频工作会议，就新冠肺炎疫情防控开展交流。亚历山大·培尼亚摄在中国科学技术大学附属第一医院，乘客用“无接触电梯按钮”操作电梯。

好像在哪见过？华为nova7官宣余承东:何必只有一点点

全新iPhoneSE根据此前爆料，此次华为nova7系列将有nova7 SE、nova7和nova7 Pro三个版本，可能会采用“麒麟985+麒麟990”或“麒麟820+麒麟985+麒麟990”两种芯片组合。

行业红利、资本涌入，疫情后的在线教育聚师网如何“涅槃”

2018年，线下培训机构受到了相关部门政策的影响，整体发展势头趋降，然而市场上对于教育的需求却在不断增加，于是，大量学员开始把需求放到了线上，其中，职业教育在这方面的变化尤其明显。

数字货币真的来了？首吃螃蟹者传出，碰一碰功能露脸

苏州相城区政府相关人士对此未予置评，区金融局人士表示“不便答复”，其他多个当地机关单位称尚不知情，央行苏州市中心支行表示“以总行口径为准”，央行总行方面未予确认。新京报记者程维妙陈鹏编辑岳彩周校对薛京宁

实例 | 200 SMART运动控制基本指令详解

C_Dir:表示电机的当前方向信号状态，0 = 正向 1 = 反向。 START:触发开始发脉冲信号，必须要在运动轴空闲时发送一次信号，必须用边沿触发。