Skip to content

telunyang/python_web_scraping

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

python_web_scraping

Python 網路爬蟲講義與範例程式碼

提問

  • 通則
    • 「結業前」可提問、討論,要把多餘時間和資源,留給當前上課的學員。
  • 寫信
    • E-mail: [email protected]
    • 信件標題寫上你的班別和姓名,或是在哪裡參與我的課程,例如 [資展 BDSEXX / 臺大計中 / 聯成] 你的主旨 ○○○。
    • 提問的內容要與本專案有關,其它課程的部分,去請益原本授課的老師
    • 不要把程式碼寄給我,可能沒時間看,討論儘量以解決問題的方向為主。
    • 不符合以上幾點,將直接刪除,敬請見諒。

作業

  • 僅限授課學員。
  • 同學之間可以互相討論,但千萬不要抄襲。
  • 使用 requestsBeautifulSoup,或是 selenium 來爬取網站資料。
    • Project Gutenberg
      • 爬取 中文 書籍資料 (注意: 只要取得中文字,不要英文字。)
      • 80 分條件
        • 新增 project_gutenberg 資料夾,並將每一本書的中文內容存入 txt 檔,txt 的檔名是超連結名稱,例如 豆棚閒話.txt
          • 注意:每一個 txt 都會被存在 project_gutenberg 資料夾內。
        • 錄製執行過程,並提供影片連結,可以放在 YouTube 或是 Google Drive,影片當中要隨機打開 3 個 .txt,驗證內容是否是純中文字 (不要英文字)。
        • 至少要有 200 本,少 1 本扣 1 分,要在影片中顯示 .txt 的數量,例如在檔案總管的某一個角落,有寫著檔案總數。
        • 不用給我看程式碼,也不用邊寫邊執行,錄製的時候直接執行程式、直接爬取資料到 project_gutenberg 即可。
        • 參考影片: 古騰堡計劃(Project Gutenberg)中文電子書爬取
      • 100 分條件 (基於 80 分條件)
        • 使用 GitHub 平台來提交作業,並且將 github repo 連結 以及 影片連結 連結寄給我。
        • repository 裡面至少要有 project_gutenberg 資料夾,還有你的 .py.ipynb 檔案,以及 README.md
          project_gutenberg/
          project_gutenberg.ipynb (或 .py)
          README.md
          
        • README.md 要有說明 (用 .py 執行要額外說明執行指令或方法),例如:
          # Project Gutenberg
          爬取中文書籍,共 xxx 本。
          
          ## 安裝套件
          - requests (版本號)
          - beautifulsoup4 (版本號)
          - selenium (版本號)
          ...
          (版本號可用 pip list,或是 conda list 來檢視)
          ...
          
          ## 成果
          ![](執行過程的擷圖或說明圖片)
          ...
          [影片名稱或其它標題](你的影片連結)
          ...
          
          ## 其它你想要補充標題和內容
          ...
          ...
        • 可以參考以前學長的 README 撰寫方式: FaceBook FanPage Scraper with selenium
      • 沒交:0 分。
  • 繳交時間
    • 原則上最後一堂課結束後 2 週內,準確時間上課說明。

教學參考影片

延伸應用

Releases

No releases published

Packages

No packages published

Languages