𝔏ℑ𝔑'𝔖 𝔅𝔏𝔒𝔊
Lin's Blog
2020-08-28
7 / 8
R
2019 THU Big Data Preliminary
Hermit
/
2019-08-11
I participated in the 2019 Donghae University Big Data Competition. In this article, I will show waht kind of the problem we should do and how I finish the work. ※There is contest Description: 1.訓練數據(用於建立模型) 此數據為建模用,數據為熱壓爐成化加工過程所量測的溫度數據,總共有 8 個 群組的數據。群組內的每一個檔案為同一機台在一段連續時間內所量測數據, 8 個群組共有紀錄 230 個量測數據檔…
R
MLB win rate regression
Hermit
/
2019-08-06
Last time we build a mlb team data by python. So this time we will bulid a suitable model for our data. And now we want to focus on win rate, so I let the team win rate be the response. In this time, I will read the data at first. Then bulid the full model and check whether it collinear or not. 上次我們…
Python
Using pandas to craw MLB team data
Hermit
/
2019-07-27
這次參與工研院資料科學的課程,課程中分配的小組必須進行一個完整資料分析的報告,題目自訂。 因為球類的open data相對完整,基本上較少遺失值的問體,因此我們決定以mlb的球隊資料來當分析對象。 而主要分析目標則分為兩大類:第一、對例行賽勝率進行迴歸分析找出影響勝率的主因;第二、對”明年是否進入季後賽”做二項分類的預測。 這篇文章主要是介紹如何爬取並建立可分析的csv檔案。 主要使用pandas套件,並透過for迴圈去進行多個網頁的爬取,最後合併多年的投打資料,並以csv格式輸出。 因2004-2005之間有球隊更換隊名,因此為了”方便”資料合…
machine-learning
Data Analysis Run-Down
Hermit
/
2019-06-23
日前看到一份有關資料分析流程以及方法的圖片,但因未提及結構化資料以及時間序列等,因此我將它們增加到表上,以此來釐清各分析方法的順序。 (此表不一定正確,僅供參考)
R
Web crawler on simple Chinese web
Hermit
/
2019-05-23
我會在這次使用R-package:“rvest”來執行網路爬蟲。 這次要爬取的網站: https://heavenlyfood.cn/books/menu.php?id=2021 (国度的操练为着教会的建造) 這個網頁是用簡體中文寫的,所以我會將最後輸出的語言轉換為繁體中文。 我將使用R-package:“ropencc”來完成這項工作,它可以在Github上下載“ropencc”。 最後後將章節的故事輸出到每個txt文本文件,並且以章節名稱為檔案命名。 […] if (!require(rvest))install.packages("rvest")…
R
CRE Bacteria Data Analysis
Hermit
/
2019-04-24
在這個資料中,我們有兩種細菌。前面的46個觀察值是CRE,後面的49個則不是。 我們希望將資料分類為是否為 CRE。Peak是蛋白質的名稱,而P_value是各蛋白質的重要程度,較低的p_value意味著對是否為CRE的影響更大。因此, 我們將選取較低的p_value變數來構建分類器。 資料是水平資料。因此我們先將資料轉置成一個95個觀測值與1471個變數的格式,標記何者為CRE, 然後使用機器學習方法對資料進行分類。最後,使用Leave-One-Out交叉驗證來比較各方法的測試精準度。 In this data, we have two types bacteria. The front…
««
«
1
2
3
…
6
7
8
»
»»