𝔏ℑ𝔑'𝔖 𝔅𝔏𝔒𝔊
machine-learning
2020-08-28
2 / 4
machine-learning
CRE features selection
Hermit
/
2020-02-14
This time I will use the scikit-learn module to bulid the classifiers,and I will use the randomforest’s importance to choose the explanatory variables. […] import pandas as pd import numpy as np df = pd.read_csv('C:/Users/User/OneDrive -…
Python
CRE data features selection
Hermit
/
2020-02-10
這次僅針對CRE data的模型變數選擇,主要以下面python的forward backward selection的方式進行挑選,主要方式為:將所有資料的百分之六十切出,進行變數篩選,並使用loocv的方式比較不同變數模型的準確度差異。 […] import pandas as pd import numpy as np df = pd.read_csv('C:/Users/User/OneDrive - student.nsysu.edu.tw/Educations/NSYSU/fu_chung/bacterial/123.csv') from…
machine-learning
Paper Review [LOTUS:Logistic Tree with Unbiased Selection]
Hermit
/
2019-12-26
因為修統計書報的關係,這次也被分配要報告一個章節,雖然那本書是工具書取向,但是發現該作者有在2004年寫了一篇有關logistic regression的演算法,他稱之為LOTUS,主要是希望可以解決當時logistic regression的一些問題。 Logistic Regression主要優勢是在他算法快、存處資源低;缺點是如果模型存在共線性、非線性、或交互作用存在,則模型並不好解釋。 為了克服以上問題,作者提出了一種模型:LOTUS(Logistic Regression with Unbiasd Selection) 通過樹狀分割數據並且fit不同的Logistic…
machine-learning
Fix The R Function
Hermit
/
2019-12-12
這禮拜我做的那個function執行順序上跟老師所要求的有所不同,因此這次將結果修改為老師所要的執行方式。 原先我以為是要先將所有資料的變數進行pca轉換後再進行分類器leave one out的訓練,因此是將訓練以及測試的資料同時PCA轉換,大致流程為下圖: 因此訓練資料的正交化與測試資料的正交是同時進行的,因此與老師所要求的流程上不同。 老師是希望先將資料切分為1:ALL-1,並以ALL-1的Training Set 來進行PCA轉換、訓練分類器,最後將測試資料乘上訓練用的PCA轉換矩陣,並將其結果帶入分類器上來驗證分類預測結果,以此循環進行LOOCV,流程大致如下圖: 因此最大的差別…
R
The R Function Definition for CRE Bacteria Data Analysis
Hermit
/
2019-12-10
這次是跟上次使用相同的資料,只是變成要定義一個規定格式的function,剛好上次的code裡面logistic regression的分類器有寫錯的部分,因此可以順便趁這次的機會修改之前錯誤的地方,部分內容可參考以前那篇blog(CRE Bacteria Data Analysis: https://hermitlin.netlify.com/post/2019/04/24/cre-bacteria-data-analysis/) 一樣我會將資料先進行倒轉,並且為前46個樣本上cre的標籤,後49則上非cre的標籤。 主要差異為,這次要進行pca,因此再倒轉資料時,並未挑選重要的前50個變…
deep-learning
GAN Sampling Versus Other Sampling Method On Credit Card Fraud Detection Data
Hermit
/
2019-11-19
這次,我將使用一個來自kaggle的不平衡數據資料(link:https://www.kaggle.com/mlg-ulb/creditcardfraud/version/1). 該數據集包含了歐洲持卡人2013年9月通過信用卡進行的交易。這些交易發生在兩天之內,在這裡我們有492筆詐騙資料以及284807正常交易資料。該數據集是非常不平衡的,其中陰性樣本(詐欺)佔所有交易的0.172%。它的變量包含數值輸入變量後PCA變換的結果。不幸的是,由於保密問題我們不能得到原始數據的更多背景信息。特徵V1,V2,…… V28與PCA獲得的主成分,還沒有被轉化與PCA的變量是“交易時間”和“交易金額”。…
««
«
1
2
3
4
»
»»