python_web_scraping

Python 網路爬蟲講義與範例程式碼

提問

通則
- 「結業前」可提問、討論，要把多餘時間和資源，留給當前上課的學員。
寫信
- E-mail: [email protected]
- 信件標題寫上你的班別和姓名，或是在哪裡參與我的課程，例如 [資展 BDSEXX / 臺大計中 / 聯成] 你的主旨 ○○○。
- 提問的內容要與本專案有關，其它課程的部分，去請益原本授課的老師。
- 不要把程式碼寄給我，可能沒時間看，討論儘量以解決問題的方向為主。
- 不符合以上幾點，將直接刪除，敬請見諒。

作業

僅限授課學員。
同學之間可以互相討論，但千萬不要抄襲。
使用 requests 和 BeautifulSoup，或是 selenium 來爬取網站資料。
- Project Gutenberg
  - 爬取中文書籍資料 (注意: 只要取得中文字，不要英文字。)
    - 可使用選擇器 li.pgdbetext > a[href] 來檢視相關連結數量。
    - 取得中文字的正規表示式: 正則表達式-全型英數中文字、常用符號unicode對照表
  - 80 分條件
    - 新增 project_gutenberg 資料夾，並將每一本書的中文內容存入 txt 檔，txt 的檔名是超連結名稱，例如 豆棚閒話.txt。
      - 注意：每一個 txt 都會被存在 project_gutenberg 資料夾內。
    - 錄製執行過程，並提供影片連結，可以放在 YouTube 或是 Google Drive，影片當中要隨機打開 3 個 .txt，驗證內容是否是純中文字 (不要英文字)。
    - 至少要有 200 本，少 1 本扣 1 分，要在影片中顯示 .txt 的數量，例如在檔案總管的某一個角落，有寫著檔案總數。
    - 不用給我看程式碼，也不用邊寫邊執行，錄製的時候直接執行程式、直接爬取資料到 project_gutenberg 即可。
    - 參考影片: 古騰堡計劃（Project Gutenberg）中文電子書爬取
  - 100 分條件 (基於 80 分條件)
    - 使用 GitHub 平台來提交作業，並且將 github repo 連結 以及 影片連結 連結寄給我。
      - Git 與 GitHub 使用教學: 程式與網頁開發者必備技能！Git 和 GitHub 零基礎快速上手，輕鬆掌握版本控制的要訣！
      - Markdown 語法: 如何使用 Markdown 語言撰寫技術文件
    - repository 裡面至少要有 project_gutenberg 資料夾，還有你的 .py 或 .ipynb 檔案，以及 README.md。
      project_gutenberg/ project_gutenberg.ipynb (或 .py) README.md
    - README.md 要有說明 (用 .py 執行要額外說明執行指令或方法)，例如:
      # Project Gutenberg 爬取中文書籍，共 xxx 本。 ## 安裝套件 - requests (版本號) - beautifulsoup4 (版本號) - selenium (版本號) ... (版本號可用 pip list，或是 conda list 來檢視) ... ## 成果 ![](執行過程的擷圖或說明圖片) ... [影片名稱或其它標題](你的影片連結) ... ## 其它你想要補充標題和內容 ... ...
    - 可以參考以前學長的 README 撰寫方式: FaceBook FanPage Scraper with selenium
  - 沒交：0 分。
繳交時間
- 原則上最後一堂課結束後 2 週內，準確時間上課說明。

Name		Name	Last commit message	Last commit date
Latest commit History 358 Commits
cases		cases
html		html
.gitignore		.gitignore
10 selenium 套件.ipynb		10 selenium 套件.ipynb
11 selenium 瀏覽器自動化測試.ipynb		11 selenium 瀏覽器自動化測試.ipynb
12 selenium 等待.ipynb		12 selenium 等待.ipynb
13 ActionChains.ipynb		13 ActionChains.ipynb
2 正規表達式.ipynb		2 正規表達式.ipynb
5 requests 套件.ipynb		5 requests 套件.ipynb
7 beautifulsoup 套件.ipynb		7 beautifulsoup 套件.ipynb
8 cookie 用於 requests.ipynb		8 cookie 用於 requests.ipynb
9 PTT_NBA_看板主頁與內頁.ipynb		9 PTT_NBA_看板主頁與內頁.ipynb
GPT2-Chinese.md		GPT2-Chinese.md
README.md		README.md
python_web_scraping.docx		python_web_scraping.docx
python_web_scraping.pdf		python_web_scraping.pdf
turingcerts.jpg		turingcerts.jpg
yt-dlp_and_ffmpeg.docx		yt-dlp_and_ffmpeg.docx

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

python_web_scraping

提問

作業

教學參考影片

延伸應用

About

Releases

Packages

Languages

telunyang/python_web_scraping

Folders and files

Latest commit

History

Repository files navigation

python_web_scraping

提問

作業

教學參考影片

延伸應用

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages