Python3爬蟲基礎:正則表達式爬取貓眼信息寫入txt,csv

前言

正則表達式是對字符串的一種邏輯公式,用事先定義好的一些特定字符、及這些特定字符的組合,組成一個“規則的字符串”,此字符串用來表示對字符串的一種“過濾”邏輯。正在在很多開發語言中都存在,而非python獨有。對其知識點進行總結後,會寫一個demo。

有需要Python學習資料的小夥伴嗎?小編整理【一套Python資料、源碼和PDF】,感興趣者可以關注小編後私信學習資料(是關注後私信哦)反正閒著也是閒著呢,不如學點東西啦

Python3爬蟲基礎:正則表達式爬取貓眼信息寫入txt,csv

1.正則表達式

python是自1.5開始引進re模塊進行處理正則的。我先把正則的匹配規則總結一下,再總結re模塊相應的方法。

1.1匹配規則

Python3爬蟲基礎:正則表達式爬取貓眼信息寫入txt,csv

對於一個特殊字符在正則表達式中是不能正常識別的,如果接觸過其他語言我們就這到有一個叫做轉移字符的東西的存在,在特殊字符前加用反斜槓接口。比如\n換行\\為反斜槓,在這不再累述。下面來介紹一下re這個模塊。

1.2.re模塊

此模塊主要方法如下

re.match()#嘗試從字符串的起始位置匹配一個模式(pattern),如果不是起始位置匹配成功的話,match()就返回None
re.search()#函數會在字符串內查找模式匹配,只要找到第一個匹配然後返回,如果字符串沒有匹配,則返回None。
re.findall()#遍歷匹配,可以獲取字符串中所有匹配的字符串,返回一個列表。
re.compile()#編譯正則表達式模式,返回一個對象的模式。(可以把那些常用的正則表達式編譯成正則表達式對象,這樣可以提高一點效率。)
re.sub()#使用re替換string中每一個匹配的子串後返回替換後的字符串。
re.subn()#返回替換次數
re.split()#按照能夠匹配的子串將string分割後返回列表。

1.2.1.re.match()

方法: re.match(pattern, string, flags=0) # pattern:正則表達式(或者正則表達式對象)string:要匹配的字符串flags:修飾符

先看一個最簡單的用法

import re
content ='Hello 123 4567 wangyanling REDome'
print(len(content))
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}.*Dome$', content)
print(result)
print(result.group())
print(result.span())

結果:

Python3爬蟲基礎:正則表達式爬取貓眼信息寫入txt,csv

匹配規則就不在累述,以上需要注意的是

(1) .group() 表示的是返回正則匹配的結果

(2) .span() 表示返回正則匹配的範圍

使用:

以上我們已經知道re.matcha()的具體方法,那麼接下我來看一下具體使用,對此我們要理解以下幾種匹配的感念。

1.泛匹配(.*):匹配所有字符

import re
content ='Hello 123 4567 wangyanling REDome'
result = re.match('^Hello.*Dome$', content)
print(result)
print(result.group())
print(result.span())

它的結果是和上面的輸出結果完全一樣的。

2.目標匹配(()):將需要的字符匹配出來

import re
content ='Hello 123 4567 wangyanling REDome'
result = re.match('^Hello\s\d\d(\d)\s\d{4}\s\w{10}.*Dome$', content)
print(result)
print(result.group(1))
import re
content ='Hello 123 4567 wangyanling REDome'
result = re.match('^Hello\s(\d+)\s\d{4}\s\w{10}.*Dome$', content)
print(result)
print(result.group(1))

結果

Python3爬蟲基礎:正則表達式爬取貓眼信息寫入txt,csv

以上可以看出:

(1) () 匹配括號內的表達式,也表示一個組

(2) + 匹配1個或多個的表達式

*匹配0個或多個的表達式

(3) .group(1) —輸出第一個帶有()的目標

3.貪婪匹配(.*()):匹配儘可能少的的結果

import re
content ='Hello 123 4567 wangyanling REDome'
result = re.match('^H.*(\d+).*Dome$', content)
print(result)
print(result.group(1))

結果

Python3爬蟲基礎:正則表達式爬取貓眼信息寫入txt,csv

4.貪婪匹配(.*?()):匹配儘可能多的結果

import re
content ='Hello 123 4567 wangyanling REDome'
result = re.match('^H.*?(\d+).*?Dome$', content)
print(result)
print(result.group(1))

結果

Python3爬蟲基礎:正則表達式爬取貓眼信息寫入txt,csv

以上3,4兩個匹配方式請儘量採用非貪婪匹配

5.其他

換行:

import re
content ='''Hello 123 4567
wangyanling REDome'''
result = re.match('^H.*?(\d+).*?Dome$', content,re.S)#re.S
print(result.group(1))
result = re.match('^H.*?(\d+).*?Dome$', content)
print(result.group(1))

結果:

Python3爬蟲基礎:正則表達式爬取貓眼信息寫入txt,csv

轉義字符:

import re
content = 'price is $5.00'
result = re.match('price is $5.00', content)
print(result)
result = re.match('price is \$5\.00', content)
print(result)

結果:

Python3爬蟲基礎:正則表達式爬取貓眼信息寫入txt,csv

其中re.I使匹配對大小不敏感,re.S匹配包括換行符在內的所有字符,\進行處理轉義字符。匹配規則中有詳細介紹。

1.2.2.re.search()

方法:

re.search(pattern, string, flags=0)#pattern:正則表達式(或者正則表達式對象)string:要匹配的字符串flags:修飾符
#re.match()和re.search()用法類似唯一的區別在於re.match()從字符串頭開始匹配,若頭匹配不成功,則返回None

對比一下與match()

import re
content ='Hello 123 4567 wangyanling REDome'
result = re.match('(\d+)\s\d{4}\s\w{10}.*Dome$', content)
print(result)#從開頭開始查找,不能匹配返回None
result = re.search('(\d+)\s\d{4}\s\w{10}.*Dome$', content)
print(result)
print(result.group())

結果:

Python3爬蟲基礎:正則表達式爬取貓眼信息寫入txt,csv

可以看出兩個使用基本一致,search從頭開始匹配,如果匹配不到就返回none.

1.2.3.re.findall()

方法: re.finditer(pattern, string, flags=0) # pattern:正則表達式(或者正則表達式對象)string:要匹配的字符串flags:修飾符

與re.search()類似區別在於re.findall()搜索string,返回一個順序訪問每一個匹配結果(Match對象)的迭代器。找到 RE 匹配的所有子串,並把它們作為一個迭代器返回。

import re
html = '''




  • 謝謝支持

  • '''
    regex_4='(.*?)'
    results=re.findall(regex_4,html,re.S)
    print(results)
    for result in results:
    print(result)

    結果:

    Python3爬蟲基礎:正則表達式爬取貓眼信息寫入txt,csv

    1.2.4.re.compile()

    編譯正則表達式模式,返回一個對象的模式。

    方法: re.compile(pattern,flags=0) # pattern:正則表達式(或者正則表達式對象);flags:修飾符

    看一個demo

    import re
    content ='Hello 123 4567 wangyanling REDome wangyanling 那小子很帥'
    rr = re.compile(r'\w*wang\w*')
    result =rr.findall(content)

    print(result)

    結果:

    Python3爬蟲基礎:正則表達式爬取貓眼信息寫入txt,csv

    我們可以看出compile 我們可以把它理解為封裝了一個公用的正則,類似於方法,然後功用。

    1.2.5.其他

    re.sub 替換字符

    方法: re.sub(pattern, repl, string, count=0, flags=0) # pattern:正則表達式(或者正則表達式對象)repl:替換的字符串string:要匹配的字符串count:要替換的個數flags:修飾符

    re.subn 替換次數

    方法: re.subn(pattern, repl, string, count=0, flags=0) # pattern:正則表達式(或者正則表達式對象)repl:替換的字符串string:要匹配的字符串count:要替換的個數flags:修飾符

    re.split()分隔字符

    方法

    re.split(pattern, string,[maxsplit])#正則表達式(或者正則表達式對象)string:要匹配的字符串;maxsplit:用於指定最大分割次數,不指定將全部分割
    Python3爬蟲基礎:正則表達式爬取貓眼信息寫入txt,csv

    2.案例:爬取貓眼信息,寫入txt,csv,下載圖片

    2.1.獲取單頁面信息

    def get_one_page(html):
    pattern= re.compile('
    .*?board-index.*?>(\d+).*?data-class="lazy" data-original="(.*?)".*?name">(.*?).*?star">(.*?).*?releasetime'
    + '.*?>(.*?).*?score.*?integer">(.*?).*?>(.*?).*?
    ',re.S)#這裡就用到了我們上述提到的一些知識點,非貪婪匹配,對象匹配,修飾符
    items = re.findall(pattern,html)
    for item in items:
    yield {
    'rank' :item[0],
    'img': item[1],
    'title':item[2],
    'actor':item[3].strip()[3:] if len(item[3])>3 else '',
    'time' :item[4].strip()[5:] if len(item[4])>5 else '',
    'score':item[5] + item[6]
    }

    對於上面的信息我們可以看出是存到一個對象中那麼接下來我們應該把它們存到文件當中去。

    2.2.保存文件

    我寫了兩種方式保存到txt和csv這些在python都有涉及,不懂得可以去翻看一下。

    2.2.1.保存到txt

    def write_txtfile(content):
    with open("Maoyan.txt",'a',encoding='utf-8') as f:
    #要引入json,利用json.dumps()方法將字典序列化,存入中文要把ensure_ascii編碼方式關掉
    f.write(json.dumps(content,ensure_ascii=False) + "\n")
    f.close()

    結果:

    Python3爬蟲基礎:正則表達式爬取貓眼信息寫入txt,csv


    以上看到並非按順序排列因為我用的是多線程。

    2.2.2.保存到csv

    def write_csvRows(content,fieldnames):
    '''寫入csv文件內容'''
    with open("Maoyao.csv",'a',encoding='gb18030',newline='') as f:
    #將字段名傳給Dictwriter來初始化一個字典寫入對象
    writer = csv.DictWriter(f,fieldnames=fieldnames)
    #調用writeheader方法寫入字段名
    writer.writerows(content)
    f.close()

    結果:

    Python3爬蟲基礎:正則表達式爬取貓眼信息寫入txt,csv

    那麼還有一部就是我們要把圖片下載下來。

    2.2.3.下載圖片

    def download_img(title,url):
    r=requests.get(url)
    with open(title+".jpg",'wb') as f:
    f.write(r.content)
    Python3爬蟲基礎:正則表達式爬取貓眼信息寫入txt,csv

    2.3.整體代碼

    這裡面又到了多線程在這不在敘述後面會有相關介紹。這個demo僅做一案例,主要是對正則能有個認知。上面寫的知識點有不足的地方望大家多多指教。

    #抓取貓眼電影TOP100榜
    from multiprocessing import Pool
    from requests.exceptions import RequestException
    import requests
    import json
    import time
    import csv
    import re
    def get_one_page(url):
    '''獲取單頁源碼'''
    try:
    headers = {
    "User-Agent":"Mozilla/5.0(WindowsNT6.3;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/68.0.3440.106Safari/537.36"
    }
    res = requests.get(url, headers=headers)
    # 判斷響應是否成功,若成功打印響應內容,否則返回None
    if res.status_code == 200:
    return res.text
    return None
    except RequestException:
    return None
    def parse_one_page(html):
    '''解析單頁源碼'''
    pattern = re.compile('
    .*?board-index.*?>(\d+).*?data-class="lazy" data-original="(.*?)".*?name">(.*?).*?star">(.*?).*?releasetime'
    + '.*?>(.*?).*?score.*?integer">(.*?).*?>(.*?).*?
    ',re.S)
    items = re.findall(pattern,html)
    #採用遍歷的方式提取信息
    for item in items:
    yield {
    'rank' :item[0],
    'img': item[1],
    'title':item[2],

    'actor':item[3].strip()[3:] if len(item[3])>3 else '', #判斷是否大於3個字符
    'time' :item[4].strip()[5:] if len(item[4])>5 else '',
    'score':item[5] + item[6]
    }
    def write_txtfile(content):
    with open("Maoyan.txt",'a',encoding='utf-8') as f:
    #要引入json,利用json.dumps()方法將字典序列化,存入中文要把ensure_ascii編碼方式關掉
    f.write(json.dumps(content,ensure_ascii=False) + "\n")
    f.close()
    def write_csvRows(content,fieldnames):
    '''寫入csv文件內容'''
    with open("Maoyao.csv",'a',encoding='gb18030',newline='') as f:
    #將字段名傳給Dictwriter來初始化一個字典寫入對象
    writer = csv.DictWriter(f,fieldnames=fieldnames)
    #調用writeheader方法寫入字段名
    #writer.writeheader() ###這裡寫入字段的話會造成在抓取多個時重複.
    writer.writerows(content)
    f.close()
    def download_img(title,url):
    r=requests.get(url)
    with open(title+".jpg",'wb') as f:
    f.write(r.content)
    def main(offset):
    fieldnames = ["rank","img", "title", "actor", "time", "score"]
    url = "http://maoyan.com/board/4?offset={0}".format(offset)
    html = get_one_page(url)
    rows = []
    for item in parse_one_page(html):
    #download_img(item['rank']+item['title'],item['img'])
    write_txtfile(item)
    rows.append(item)
    write_csvRows(rows,fieldnames)
    if __name__ == '__main__':
    pool = Pool()
    #map方法會把每個元素當做函數的參數,創建一個個進程,在進程池中運行.
    pool.map(main,[i*10 for i in range(10)])

    有需要Python學習資料的小夥伴嗎?小編整理【一套Python資料、源碼和PDF】,感興趣者可以關注小編後私信學習資料(是關注後私信哦)反正閒著也是閒著呢,不如學點東西啦


    分享到:


    相關文章: