Monday, January 11, 2021

Python學習筆記:是否該學爬蟲

         今天聊一個可能會讓有些人不高興的論點是否該學爬蟲

         這幾年常常聽到機器學習、人工智慧、大數據,以至於很多沒有接觸過寫程式的朋友連自己要學的目的,或是以及該學哪一個領域這些關鍵問題都還沒弄清,一開口就要說要學python。先不說需要大量數學基礎的人工智慧、機器學習。這篇先來談談比較多人入門接觸的爬蟲。

         先說說我的故事,我一開始接觸爬蟲是工作上有需要爬一些查詢資料,那時候經濟部對於公司查詢沒有任何限制,也沒有圖形認證這類的captcha,excel寫個很簡單的巨集就能抓回幾萬筆的公司資料。我目前頂多用python去get一些公司內部PAAS平台的數據。對於爬蟲這一塊,我早早就放棄了,公司內部自然有專業爬蟲團隊來處理

         先說結論:先認清你產出的價值在哪塊。除非你是專業做這領域的商業應用,否則建議不用學爬蟲了。這樣的結論主要來自兩點:難的你學不會,簡單的有現成的。

         先說說簡單的有現成的這塊。最簡單的爬蟲在Google Sheet或是Excel裡面都有power query,能把網頁中的表格數據導入到Excel。需要點擊、翻頁這類動作或是條件動作爬蟲,則有八爪魚這樣的免費軟體,拖拉點選就完成了。如果你超過每日下載筆數限制、加速爬取或是需要proxy避免被反爬蟲時,你才需要支付費用。


         再說說難的你學不會這塊。爬蟲難的其實是從進網站到日後的維護。這包括一開始查詢前的captcha圖像識別、簡訊認證、查詢中的反偵測技術、被爬網站持續性的網頁調整等等,每一個領域的難度都夠你退卻。除非你真的是專業從事這領域的,請仔細想想你是否值得要學習爬蟲。



?:,


No comments:

Post a Comment