前段時間安裝了一個慕課網app,發現不用註冊就可以在線看其中的視頻,就有了想爬取其中的視頻,用來在電腦上學習。
決定花兩天時間用學了一段時間的python做一做。
我使用的是pycharm進行開發,使用BeautifulSoup模塊解析html,整個代碼進行了比較詳細的註釋。
整個工程結構:
----entity
--------__init__.py
--------fileinfor.py用來描述視頻文件信息
----filedeal
--------__init__.py
--------file_downloader.py用於視頻文件的下載
----spider 爬蟲的核心內容
--------__init__.py
--------html_downloader.py html下載器
--------html_parser.py html解析器
--------spiderman.py 爬蟲核心邏輯
----test test文件夾主要是用來測試一些用例,不參與整個程序運行
----conf.py 一些全局變量
----index.py 程序啟動入口
運行環境:
python 2.7.X
需要安裝的支持模塊:
BeautifulSoup (pip install或者下載源代碼包setup.py),下載鏈接:https://pypi.python.org/pypi/beautifulsoup4/4.3.2
運行:在windows上直接雙擊start.bat,linux上沒試
現在將程序運行起來,雙擊start.bat:
輸入課程號,選擇視頻品質:
等到顯示100%時,會將視頻下載到當前目錄下
下面是為初學者們準備的python電子書籍資料和python入門教程!
請關注+私信回覆:“學習”就可以拿到一份我為大家準備的Python學習資料!
閱讀更多 程序猿小雅 的文章