Python 網路爬蟲講義與範例程式碼
- 通則
- 「結業前」可提問、討論,要把多餘時間和資源,留給當前上課的學員。
- 寫信
- E-mail:
[email protected]
- 信件標題寫上你的班別和姓名,或是在哪裡參與我的課程,例如
[資展 BDSEXX / 臺大計中 / 聯成]
你的主旨 ○○○。 - 提問的內容要與本專案有關,其它課程的部分,去請益原本授課的老師。
- 不要把程式碼寄給我,可能沒時間看,討論儘量以解決問題的方向為主。
- 不符合以上幾點,將直接刪除,敬請見諒。
- E-mail:
- 僅限授課學員。
- 同學之間可以互相討論,但千萬不要抄襲。
- 使用
requests
和BeautifulSoup
,或是selenium
來爬取網站資料。- Project Gutenberg
- 爬取 中文 書籍資料 (注意: 只要取得中文字,不要英文字。)
- 可使用選擇器
li.pgdbetext > a[href]
來檢視相關連結數量。 - 取得中文字的正規表示式: 正則表達式-全型英數中文字、常用符號unicode對照表
- 可使用選擇器
80
分條件- 新增
project_gutenberg
資料夾,並將每一本書的中文內容存入 txt 檔,txt 的檔名是超連結名稱,例如豆棚閒話.txt
。- 注意:每一個 txt 都會被存在
project_gutenberg
資料夾內。
- 注意:每一個 txt 都會被存在
錄製
執行過程,並提供影片連結
,可以放在YouTube
或是Google Drive
,影片當中要隨機打開 3 個 .txt
,驗證內容是否是純中文字 (不要英文字)。- 至少要有
200
本,少 1 本扣 1 分,要在影片中顯示 .txt 的數量
,例如在檔案總管的某一個角落,有寫著檔案總數。 - 不用給我看程式碼,也不用邊寫邊執行,錄製的時候直接執行程式、直接爬取資料到
project_gutenberg
即可。 - 參考影片: 古騰堡計劃(Project Gutenberg)中文電子書爬取
- 新增
100
分條件 (基於80
分條件)- 使用
GitHub
平台來提交作業,並且將github repo 連結
以及影片連結
連結寄給我。- Git 與 GitHub 使用教學: 程式與網頁開發者必備技能!Git 和 GitHub 零基礎快速上手,輕鬆掌握版本控制的要訣!
- Markdown 語法: 如何使用 Markdown 語言撰寫技術文件
repository
裡面至少要有project_gutenberg
資料夾,還有你的.py
或.ipynb
檔案,以及README.md
。project_gutenberg/ project_gutenberg.ipynb (或 .py) README.md
README.md
要有說明 (用.py
執行要額外說明執行指令或方法),例如:# Project Gutenberg 爬取中文書籍,共 xxx 本。 ## 安裝套件 - requests (版本號) - beautifulsoup4 (版本號) - selenium (版本號) ... (版本號可用 pip list,或是 conda list 來檢視) ... ## 成果 ![](執行過程的擷圖或說明圖片) ... [影片名稱或其它標題](你的影片連結) ... ## 其它你想要補充標題和內容 ... ...
- 可以參考以前學長的 README 撰寫方式: FaceBook FanPage Scraper with selenium
- 使用
- 沒交:
0
分。
- 爬取 中文 書籍資料 (注意: 只要取得中文字,不要英文字。)
- Project Gutenberg
- 繳交時間
- 原則上最後一堂課結束後 2 週內,準確時間上課說明。