Python 模块 CSV

Python 模块 CSV

csv 模块负责读取和写入逗号分隔的文件csv(comma separated files)。

csv 文件一般是从电子表格程序(spreadsheets)或者数据库(databases)导出来的文本格式的文件。它包含很多记录(records)和字段(fields)。记录是指一行数据,它由不同的字段构成,字段之间用逗号分隔。

读取(Reading)


Python 模块 CSV

执行:

Python 模块 CSV

查看输出,把每行记录转换成了字符串序列。

reader() 的第一个参数是使用 open() 函数打开的文件对象,也可以是可迭代的对象。这里是一个文件对象。

文件 user.csv 是一个 csv 文件。使用 cat 命令查看它的内容,有三行,就是有三条记录,每行有四个字段,用逗号隔开,第一行是每个字段的说明。

Python 模块 CSV

解析器会处理字符串内的换行符,我们新建一个文件 user-linebreak.csv,文件内容如下:

Python 模块 CSV

执行:

Python 模块 CSV

查看输出,字段内的换行符也能被正确的解析。

写入(Writing)


写入csv文件和读取一样简单,使用 writer() 函数获取一个写入对象,然后调用对象的 writerow() 方法。

Python 模块 CSV

执行:

Python 模块 CSV

写入完成后,最后打印了文件的内容。

引用(Quoting)


上面的例子中,生成的字段没有引号,默认 writer() 函数的行为是不会加的。可以传入第二个参数更改默认行为。

Python 模块 CSV

第二个参数 quoating,传入 QUOTE_NONNUMERIC,不是数字的字段加引号。

Python 模块 CSV

有4个不同的引用(quoting)选项,他们是定义在 csv 模块里的常量(constants):

  • QUOTE_ALL 不管什么类型,都加引用
  • QUOTE_MINIMAL 智能为字段加引用,这个默认的选项
  • QUOTE_NONNUMERIC 不是整数或者浮点数,加引用
  • QUOTE_NONE 不引用任何字段

方言(Dialects)


因为 csv 格式没有标准,所以解析器需要更加的灵活(flexible),灵活性(flexibility)意味着有一些参数可以控制解析器的行为,控制他们怎么读取数据和写入数据。这些参数组装到一个对象 dialect 中,只需要调用 reader() 和 writer() 函数的时候传入 dialect 对象。

Python 标准库定义了3中方言,可以通过函数 list_dialects() 查看。

Python 模块 CSV

excel 可以用于 Microsoft Excel 导出的格式,或者是 LibreOffice 导出的。

unix 使用双引号包含所有的字段,换行符 '\n' 作为分隔符。

创建方言(Dialects)


也可以不用逗号分隔字段,例如可以使用管道符 | 分隔:

Python 模块 CSV

我们需要创建一个方言,然后标明使用字段分隔符(delimiter)为 |

Python 模块 CSV

执行:

Python 模块 CSV

使用 register_dialect() 函数创建了方言 pipes,使用字段分隔符 |,成功读取了文件。

方言的参数


方言(dialect)指定了所有的标记用来解析文件,下面列举了方言的所有标记:

  • delimiter 字段分隔符,默认为 ,(fields separator)
  • doublequote 字段是否使用双引号,默认为 True
  • escapechar 转义字符,默认为 None
  • lineterminator 行分隔符,默认为回车换行 \r\n
  • quotechar 包围字段的单字符,默认为 ''
  • quoting 字段引用,上面有描述,默认为 QUOTE_MINIMAL
  • skipinitalspace 是否忽略字段分隔符后的空白,默认为 False

使用字段名称


默认使用 reader() 函数返回的是一个列表,csv 模块提供了 DictReader 和 DictWriter 使返回的每一条记录变成一个字典,方便访问。字典的键可以传入,也可以使用文件的第一行作为键。

Python 模块 CSV

执行:

Python 模块 CSV

默认 DictReader 使用第一行作为字典的键(key)。

使用 DictWriter 时,必须要提供一个字段名称的序列。它才能知道数据怎么在文件中排序。

Python 模块 CSV

执行:

Python 模块 CSV

初始化 DictWriter 时,传入字段序列 fieldnames,然后使用 writeheader()方法写入标题,最后写入数据,writerow() 函数接收的是一个对象。


分享到:


相關文章: