Python中有趣却鲜为人知的特性

2020-04-12 17:24:59 Python集結號

Python是一个基于C语言实现的解释型高级语言, 提供了很多舒适的功能特性，使用起来非常方便。但有的时候, Python的输出结果，让我们感觉一头雾水，其中原因自然是Python语言内部实现导致的，下面我们就给大家总结一些难以理解和反人类直觉的例子。

奇妙的字符串

普通相同字符

<code>a = 'small_tom'
id(a)

# 输出： 140232182302576/<code>

<code>b = 'small' + '_' + 'tom'
id(b)
# 输出：140232182302576/<code>

<code>id(a) == id(b)
# 输出： True/<code>

包含特殊字符

<code>a = 'tom'
b = 'tom'
a is b
# 输出：True/<code>

<code>a = 'tom!'
b = 'tom!'
a is b
# 输出：False/<code>

<code>a, b = 'tom!', 'tom!'
a is b
# 输出：False   Python3.7以下为True/<code>

<code>'a' * 20 is 'aaaaaaaaaaaaaaaaaaaa'
# 输出：True
'a' * 21 is 'aaaaaaaaaaaaaaaaaaaaa'
# 输出：True   Python3.7以下为False/<code>

<code>a = 'tom'
b = ''.join(['t', 'o', 'm'])
a is b
# 输出：/<code>

为什么会出现以上的现象呢？因为编译器的优化特性（很多语言的不同编译器都有相应的优化策略），对于不可变对象，在某些情况下并不会创建新的对象，而是会尝试使用已存在的对象，从而节省内存，可以称之为**字符串驻留**。字符串的驻留是隐式的，不受我们控制，但是我们可以根据一些规律来猜测是否发生字符串驻留：

所有长度为 0 和长度为 1 的字符串都被驻留

字符串中只包含字母，数字或下划线时将会驻留。所以 'tom!' 由于包含 ! 而未被驻留。

'tom'将被驻留，而''.join(['t', 'o', 'm'])不被驻留

当在同一行将 a 和 b 的值设置为 "tom!" 的时候, Python 解释器会创建一个新对象, 然后同时引用第二个变量(译: 仅适用于3.7以下). 如果你在不同的行上进行赋值操作, 它就不会“知道”已经有一个 wtf！对象 (因为 "wtf!" 不是按照上面提到的方式被隐式驻留的). 它是一种编译器优化, 特别适用于交互式环境

当在同一行将 a 和 b 的值设置为 "tom!" 的时候, Python 解释器会创建一个新对象, 然后同时引用第二个变量(仅适用于3.7以下). 如果你在不同的行上进行赋值操作, 它就不会“知道”已经有一个 tom！对象 (因为 "tom!" 不是按照上面提到的方式被隐式驻留的). 它是一种编译器优化, 特别适用于交互式环境.

常量折叠(constant folding) 是 Python 中的一种窥孔优化(peephole optimization) 技术. 这意味着在编译时表达式 'a'*20 会被替换为 'aaaaaaaaaaaaaaaaaaaa' 以减少运行时的时钟周期. 只有长度小于 20 的字符串才会发生常量折叠. 为什么呢？想象一下由于表达式 'a'*10**10 而生成的.pyc 文件的大小)。

**PS**：如果是在Python3.7中会发现部分执行结果会不一样，因为3.7版本中常量折叠已经从窥孔优化器迁移至新的AST优化器，后者可以以更高的一致性来执行优化。但是在3.8中结果又不一样了，他们都是用了AST优化器，可能是3.8中有一些其他的调整。

字典的魔法

<code>some_dict = {}
some_dict[5.5] = "Ruby"
some_dict[5.0] = "JavaScript"
some_dict[5] = "Python"/<code>

<code>some_dict[5.5]
# 输出：Ruby
some_dict[5.0]
# 输出：Python
some_dict[5]
# 输出：Python/<code>

Python字典通过检查键值是否相等和比较哈希值来确定两个键是否相同
具有相同值的不可变对象在Python中始终具有相同的哈希值

虽然5.0和5好像是不一样，但实际上是一样的，在python中是不存在整型和浮点型的，只有一个数值型

<code>5 == 5.0
# 输出：True
hash(5) == hash(5.0)
# 输出：True/<code>

注意: 具有不同值的对象也可能具有相同的哈希值（哈希冲突）

当执行 some_dict[5] = "Python" 语句时, 因为Python将5和5.0识别为some_dict 的同一个键, 所以已有值 "JavaScript" 就被 "Python" 覆盖了.

到处都返回

<code>def some_func():
    try:
        return 'from_try'
    finally:
        return 'from_finally'
some_func()
# 始终输出：from_finally/<code>

这是一个非常严重的问题，而且也非常常见，也很长用到，需要格外的注意。在异常捕获的时候，我们经常会用到finally来执行异常捕获后必须执行的处理。但是return在很多语言当中表示跳出当前的执行模块，但是在这里就有些颠覆我们的认知了，所以必须重点关注。

当在 "try...finally" 语句的 try 中执行 return, break 或 continue 后, finally 子句依然会执行.

函数的返回值由最后执行的 return 语句决定. 由于 finally 子句一定会执行, 所以 finally 子句中的 return 将始终是最后执行的语句

出人意料的is

下面是一个在网上非常有名的例子.

<code>a = 256
b = 256
a is b
# 输出：True

a = 257
b = 257
a is b
# 输出：False

a = 257; b = 257
a is b
# 输出：True

a, b = 257, 257
a is b
# 输出：True/<code>

1.我们要说一下is和==的区别

is 运算符检查两个运算对象是否引用自同一对象 (即, 它检查两个运算对象地址是否相同)
==运算符比较两个运算对象的值是否相等

<code>a = 257
b = 257
a is b
# 输出：False
a == b
# 输出：True/<code>

2.为什么256和257的结果不一样？

当你启动Python的时候, 数值为-5到256 的对象就已经被分配好了. 这些数字因为经常被使用, 所以会被提前准备好。Python通过这种创建小整数池的方式来避免小整数频繁的申请和销毁内存空间，从而造成内存泄漏和碎片。

3.当a和b在同一行中使用相同的值初始化时，会指向同一个对象.

<code>a, b = 257, 257
id(a)
# 输出：4391026960
id(b)
# 输出：4391026960

a = 257 
b = 257
id(a)
# 输出：140232163575152
id(b)
# 输出：140232163574768/<code>

当 a 和 b 在同一行中被设置为 257 时, Python 解释器会创建一个新对象, 然后同时引用第二个变量. 如果你在不同的行上进行, 它就不会 "知道" 已经存在一个 257 对象
必须要注意的是这是一种特别为交互式环境做的编译器优化. 当你在实时解释器中输入两行的时候, 他们会单独编译, 因此也会单独进行优化. 如果你在 .py 文件中尝试这个例子, 则不会看到相同的行为, 因为文件是一次性编译的，如果是运行py文件将得到不同的结果

test.py

<code>a, b = 257, 257
print(id(a))
print(id(b))
# 输出：
/<code>

列表复制

<code>row = [""]*3
# 并创建一个变量board
board = [row]*3
print(row)
print(board)
# 输出：['', '', '']
# 输出：[['', '', ''], ['', '', ''], ['', '', '']]

board[0][0] = 'X'
print(board)
# 输出：[['X', '', ''], ['X', '', ''], ['X', '', '']]/<code>

当我们初始化 row 变量时, 下面这张图展示了内存中的情况。

而当通过对 row 做乘法来初始化 board 时, 内存中的情况则如下图所示 (每个元素 board[0], board[1] 和 board[2] 都和 row 一样引用了同一列表.)

我们可以通过不使用变量 row 生成 board 来避免这种情况

<code>board = [['']*3 for _ in range(3)]
board[0][0] = "X"
board
# 输出：[['X', '', ''], ['', '', ''], ['', '', '']]/<code>

这样就会创建三个[''] * 3，而不是把[''] * 3标记三次

闭包

<code>funcs = []
results = []
for x in range(7):
    def some_func():
        return x
    funcs.append(some_func)
    results.append(some_func()) # 注意这里函数被执行了

funcs_results = [func() for func in funcs]
print(results)
print(funcs_results)
# 输出：[0, 1, 2, 3, 4, 5, 6]
# 输出：[6, 6, 6, 6, 6, 6, 6]/<code>

即使每次在迭代中some_func中的x值都不相同，所有的函数还是都返回6.

<code>powers_of_x = [lambda x: x**i for i in range(10)]
[f(2) for f in powers_of_x]
# 输出：[512, 512, 512, 512, 512, 512, 512, 512, 512, 512]/<code>

当在循环内部定义一个函数时, 如果该函数在其主体中使用了循环变量, 则闭包函数将与循环变量绑定, 而不是它的值.
因此, 所有的函数都是使用最后分配给变量的值来进行计算的

可以通过将循环变量作为命名变量传递给函数来获得预期的结果. 为什么这样可行? 因为这会在函数内再次定义一个局部变量

<code>funcs = []
for x in range(7):
    def some_func(x=x):
        return x
    funcs.append(some_func)
funcs_results = [func() for func in funcs]
print(funcs_results)
# 输出：[0, 1, 2, 3, 4, 5, 6]/<code>

is not ... 不是 is (not ...)

<code>'something' is not None
# 输出：True
'something' is (not None)
# 输出：False/<code>

is not 是个单独的二元运算符, 与分别使用 is 和 not 不同.

如果操作符两侧的变量指向同一个对象, 则 is not 的结果为 False, 否则结果为 True.

不存在的零点

<code>from datetime import datetime

midnight = datetime(2018, 1, 1, 0, 0)
midnight_time = midnight.time()

noon = datetime(2018, 1, 1, 12, 0)
noon_time = noon.time()
 

if midnight_time:
    print("Time at midnight is", midnight_time)

if noon_time:
    print("Time at noon is", noon_time)
# 输出：Time at midnight is 00:00:00
# 输出：Time at noon is 12:00:00/<code>

以上代码如果是在python3.5之前的版本，只会输出Time at noon is 12:00:00，在Python 3.5之前, 如果 datetime.time 对象存储的UTC的午夜时间(译: 就是 00:00), 那么它的布尔值会被认为是 False. 当使用 if obj: 语句来检查 obj 是否为 null 或者某些“空”值的时候, 很容易出错.

类属性和实例属性

<code>class A:
    x = 1

class B(A):
    pass

class C(A):
    pass
print(A.x, B.x, C.x)
# 输出：1 1 1

B.x = 2
print(A.x, B.x, C.x)
# 输出：1 2 1

A.x = 3
print(A.x, B.x, C.x)
# 输出：3 2 3

a = A()
print(a.x, A.x)
# 输出：3 3

a.x += 1
print(a.x, A.x)
# 输出：4 3\t/<code>

<code>class SomeClass: 

    some_var = 15
    some_list = [5]
    another_list = [5]
    def __init__(self, x):
        self.some_var = x + 1
        self.some_list = self.some_list + [x]
        self.another_list += [x]

some_obj = SomeClass(420)
print(some_obj.some_list)

print(some_obj.another_list)
another_obj = SomeClass(111)
print(another_obj.some_list)
print(another_obj.another_list)
print(another_obj.another_list is SomeClass.another_list)
print(another_obj.another_list is some_obj.another_list)/<code>

类变量和实例变量在内部是通过类对象的字典来处理. 如果在当前类的字典中找不到的话就去它的父类中寻找

+= 运算符会在原地修改可变对象, 而不是创建新对象. 因此, 在这种情况下, 修改一个实例的属性会影响其他实例和类属性.

从有到无

<code>some_list = [1, 2, 3]
some_dict = {
  "key_1": 1,
  "key_2": 2,
  "key_3": 3
}

some_list = some_list.append(4)
some_dict = some_dict.update({"key_4": 4})
print(some_list)
print(some_dict)
# 输出：None 

# 输出：None/<code>

不知道有没有人能一眼看出问题所在，这是一个写法错误，并不是特殊用法。因为列表和字典的操作函数，比如list.append、list.extend、dict.update等都是原地修改变量，不创建也不返还新的变量

子类继承关系

<code>from collections import Hashable
print(issubclass(list, object))
print(issubclass(object, Hashable))
print(issubclass(list, Hashable))
# 输出：True
# 输出：True
# 输出：False/<code>

子类关系是可以传递的，A是B的子类，B是C的子类，那么A应该也是C的子类，但是在python中就不一定了，因为在python中使用__subclasscheck__函数进行判断，而任何人都可以定义自己的__subclasscheck__函数

当 issubclass(cls, Hashable) 被调用时, 它只是在 cls 中寻找 __hash__ 方法或者从继承的父类中寻找 __hash__ 方法.
由于 object is 可散列的(hashable), 但是 list 是不可散列的, 所以它打破了这种传递关系

<code>class MyMetaClass(type):
    def __subclasscheck__(cls, subclass):
        print("Whateva, I do what I want!")
        import random
        return random.choice([True, False])

 

class MyClass(metaclass=MyMetaClass):
    pass

print(issubclass(list, MyClass))
# 输出：Whateva, I do what I want!
# 输出：True 或者 False    因为是随机取的/<code>

元类在python中是比较深入的知识点，后面我们有时间再讲

斗转星移

<code>import numpy as np

def energy_send(x):
    # 初始化一个 numpy 数组    
    np.array([float(x)])

def energy_receive():
    # 返回一个空的 numpy 数组    
    return np.empty((), dtype=np.float).tolist()

energy_send(123.456)
print(energy_receive())
# 输出：123.456/<code>

这到底是无中生有还是斗转星移呢？energy_receive函数我们返回了一个空的对象，但是结果是上一个数组的值，为什么呢？

在energy_send函数中创建的numpy数组并没有返回, 因此内存空间被释放并可以被重新分配.

numpy.empty()直接返回下一段空闲内存，而不重新初始化. 而这个内存点恰好就是刚刚释放的那个但是这并不是绝对的.

分享到:

閱讀更多 Python集結號 的文章

關鍵字: Ruby Python 特性

第二章 IoC容器和Bean配置

bean是一个对象，它是由Spring

运算里不得不说的python模块—math

Help

Devops度量--DevOps 现状快速检查表

今天主要分享一个DevOps

SOP是什么（解读）

SOP不是单个的，是一个体系，虽然我们可以单独地定义每一个SOP，但真正从企业管理来看，SOP不可能只是单个的，必然是一个整体和体系，也是企业不可或缺的。

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

随着终端设备的越来越多，人工干预配置IP地址，不仅工作效率低，而且，还很容易导致IP冲突，影响正常的网络访问。到此已经完成了，DHCP服务的配置了，我们可以在终端验证。

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

这两天分析了一下头条文章网页的源文件，现在将分析的结果分享给大家。首先以一篇文章为例，其网址如下：https://www.toutiao.com/i6822245428176617998/如上图网页所示，文章中包含文字和图片。

DNS侦查工具

我们只需要打开浏览器输入例如:www.baidu.com就可以解析到该网站.为了便于记住不需要输入长长的IP地址去访问这就是DNS域名解析.关于域名域名的层次划分用点来分割这时DNS把相对应的域名解析成IP地址高的在右边.例如:www. NS简介访问某网站的时候最低在左边

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

Create

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

最后一个要介绍的命令是

（必收藏系列）Linux面试题——命令集

关注，后台私信【Linux】分享Linux入门到进阶电子书、Linux入门到精通视频教程（免费）。文件管理命令cat

五分钟学会如何在 IPFS 上部署网站

原文标题:五分钟学会如何在

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

1）实验平台：【正点原子】

小白怎么学Web前端开发如何成为技术达人

Web前端开发工程师已经成为了很多年轻人心中的理想工作，不仅入行门槛低、而且薪资待遇和发展前景都不错，自然吸引了大批人加入行业。

如何开发一个web静态服务器

我们都知道如今的web服务器有很多，比如著名的有apache，有nginx，有tomcat，有resin服务器，有sphere，有iis服务器等等，这些服务器都能提供web服务，并且几乎都能和多种语言进行搭配使用，那么一个web服务器都需要那些功能，开发一个web服务器都需要那些

学Java编程还有前景吗如何才能拿到高薪

需求大、薪资高似乎是Java开发人员的标签，不过学Java编程还有前景吗？它架构在操作系统之上，屏蔽了底层的差异，真正实现了“Writeonce run

Python网络爬虫之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的运行效率太低？几行代码快速提升！

return的就是是你所需要的结果2.3、运行这一步就是最后一步了，只要像下面一样输入上述函数名，赋予参数值，点击运行Run，就能得到你想要的结果arg1=5

python的优点是什么？最新Python400集视频（附教程）

2020，最新Python零基础到精通资料教材，干货分享，新基础Python教材，稳稳找到过万工作，看这里，这里有你想要的所有资源哦，最强笔记，教你怎么入门提升！获取方式：私信小编“

MySQL中OOM故障应如何下手-爱可生

作者：孙祚龙爱可生南区分公司交付服务部成员，实习工程师。负责公司产品问题排查及日常运维工作。本文来源：原创投稿*爱可生开源社区出品，原创内容未经授权不得随意使用，转载请联系小编并注明来源。

像专家一样使用 panic

|go

30种不同的编程语言怎么写“Hello, World”

printfn

percona QAN 介绍

一、背景QAN慢查询日志分析工具是PMM

面试官：你可以用纯CSS判断鼠标进入的方向吗？

虽然没什么软用，但是对付面试官应该是够用了。感谢面试官提出的问题，让我实现了这个功能，对CSS

网络工程师职业生涯中，哪两点是最重要的？

网络工程师最重要的技能是扎实的基础和非常开放的思维，微观知识扎实、宏观能力突出。项目经验也会让网络工程师基础更牢靠，网络工程师是要实战的，要避免纸上谈兵，我认为对基础理论的理解，比你清楚配置更重要。

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

有关以太坊2.0

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

yuminstall

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

今天的你捉住IPFS机遇了吗？我们都知道在Filecoin网络中作为一名存储矿工，信誉对于我们是非常重要的——信誉越高，爆块几率越大。那么信誉系统现在怎么样了呢？

Hive分桶表

fieldsterminated

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

编辑Exchange

$【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库$

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

在阿里云控制台，我们能下载的文件是一个压缩包，解压之后，是.idb和.frm文件，你可能要问了，我可以直接把解压好的问题件覆盖到MySQL的data目录下吗？

NLP算法入门系列：隐含马尔可夫链(HMM)模型的简单介绍

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度学习这样实现人脸的年龄检测

前期的文章我们分享了人脸的识别以及如何进行人脸数据的训练，本期文章我们结合人脸识别的模型进行人脸年龄的检测人脸年龄的检测步骤1、首先需要进行人脸的检测2、把检测到的人脸数据给年龄检测模型去检测3、把检测结果呈现到图片上人脸年龄检测import

嵌入式linux网络编程之——5年程序员给你深度讲解socket套接字

图8-1

深入了解ProcessFunction的状态操作(Flink-1.10)

先反思为何会有上述疑惑上述疑惑产生的原因，应该是受到平时使用HashMap的影响，HashMap获取值就是在调用get方法时指定key，设置值也是在put时指定key，所以看到state.value，看懂了这些，其实也是在了解DataStream/DataSetAPI的设计思路：

Redis内存分析工具--rdr安装与使用

分析Redis

资深架构师教你源码讲解zookeeper实现分布式锁以及集群搭建步骤

//getData发现前一个子节点被删除，抛出异常

一行代码提升迁移性能

论文原址：https://arxiv.org/pdf/2003.12237.pdf开源地址：https://github.com/cuishuhao/BNM在发表在CVPR2020

利用相似几何信息，做可泛化3D形状分割模型

更具体的有以下三种典型的分割方案：FullyConvolutional-Like

这么好用的开源计算器SpeedCrunch，没有不尝试一下的道理

介绍SpeedCrunch是一款高精度科学计算器，具有快速，键盘驱动的用户界面。获取方式在GitHub上搜索SpeedCrunch，就可以去到

分布式缓存，真香

他是前易宝支付架构师、阿里云MVP、腾讯云

特征工程的力量

在本文中，我希望教给您一些有关特征工程的知识，以及如何使用它来对非线性决策边界进行建模。为了说明这一点，假设恢复时间与身高和体重具有以下关系：Y=β₀+β₁+β2+β₃+noise从第三项来看，我们可以看到Y与身高和体重没有线性关系。

java架构：天天写面向接口编程，你考虑过性能吗？大神都是这么写

public

SpringBoot如何优雅的使用RocketMQ

源码编译需要Maven3.2x，JDK8在根目录进行打包:Copymvn-Prelease-all

css代码规范工具stylelint

"mixin"