𝔏ℑ𝔑'𝔖 𝔅𝔏𝔒𝔊
crawler
2020-08-28
1 / 1
R
Crawler for delay load web page
Hermit
/
2020-04-20
這禮拜也有同網站的內容要爬(https://heavenlyfood.cn/books/index.php?id=4000) ,其主要結構與上星期的篇章雷同,因此沿用上星期的code,只是在最後抓取文章文件的時候,有遇到一些問題,如下圖: 如果有爬蟲經驗的人應該可以看出他文章主要是在一個名稱叫做div#c 這個nodes下存放,而我在整頁結構確認後,便使用R去執行html_nodes去抓這些節點,但經由文字提取的函數,卻抓不到任何文字。 後來發現,文章文字的內容,並不在文章的這個連結內,而是頁面結構先載入,而後內容才進行加載,這個一般稱為delay-load的問題,主要指我們想爬取的內容並非第…
R
Buliding a Crawler for UserAgent website
Hermit
/
2020-04-13
現在有許多網站使用UserAgent,主要是向用戶端發送用戶代理請求,讓用戶端提交一個特定的字串來標示自己的身份,以及相關的訊息,例如裝置、作業系統、應用程式,來表明使用的身份。而服務端一接收到這樣的身份識別後,就可以做出相對應的動作,例如為PC與mobile使用者,導向至給適合你裝置類型的網頁,進而提升使用者體驗。而在Chrome裡面,輸入chrome://version/ 就會看到類似如下代碼:使用者代理程式 Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko)。 問題就…
R
Using Rvest Crawler On Simple Chiness Web
Hermit
/
2019-12-04
在之前的文章裡(link:https://hermitlin.netlify.com/post/2019/05/23/web-crawler-on-simple-chinese-web/) ,我只抓取了該本書的八個章節,而最近我需要將其改為能對於該網站(link: https://heavenlyfood.cn/books/menu.php?id=2021) 的各本書進行相同的爬取,並且須以該書名建立資料夾,儲存該本書各章節的內容。同樣的,我使用了rvest與ropencc這兩個package幫我完成爬蟲以及簡轉繁的工作。 […] if…
Python
The Crawler Code in my internship.
Hermit
/
2019-11-28
In this summer vacation, I was become a intern engineer in a internet service company. In fact, our company is an eshops price comparison platform. Here is the website link:https://biggo.com.tw/ . They crawler the products information in different eshops like Amazon, PChome etc. Build a SQL system…
Python
Using pandas to craw MLB team data
Hermit
/
2019-07-27
這次參與工研院資料科學的課程,課程中分配的小組必須進行一個完整資料分析的報告,題目自訂。 因為球類的open data相對完整,基本上較少遺失值的問體,因此我們決定以mlb的球隊資料來當分析對象。 而主要分析目標則分為兩大類:第一、對例行賽勝率進行迴歸分析找出影響勝率的主因;第二、對”明年是否進入季後賽”做二項分類的預測。 這篇文章主要是介紹如何爬取並建立可分析的csv檔案。 主要使用pandas套件,並透過for迴圈去進行多個網頁的爬取,最後合併多年的投打資料,並以csv格式輸出。 因2004-2005之間有球隊更換隊名,因此為了”方便”資料合…
R
Web crawler on simple Chinese web
Hermit
/
2019-05-23
我會在這次使用R-package:“rvest”來執行網路爬蟲。 這次要爬取的網站: https://heavenlyfood.cn/books/menu.php?id=2021 (国度的操练为着教会的建造) 這個網頁是用簡體中文寫的,所以我會將最後輸出的語言轉換為繁體中文。 我將使用R-package:“ropencc”來完成這項工作,它可以在Github上下載“ropencc”。 最後後將章節的故事輸出到每個txt文本文件,並且以章節名稱為檔案命名。 […] if (!require(rvest))install.packages("rvest")…