𝔏ℑ𝔑'𝔖 𝔅𝔏𝔒𝔊
Python
2020-08-28
2 / 4
machine-learning
Find The Special Sample in CRE data
Hermit
/
2020-02-19
上次在挑選變數並建立分類模型的loocv時(link :https://hermitlin.netlify.com/post/2020/02/14/cre-features-selection/) ,最高的準確率來自adaboost的結果,且落在使用60~70個randomforest importance的變數,但當時多個模型準確率為0.989473684,即存在一個樣本預測錯誤,因此想知道是否在這些模型中,預測錯誤的皆為同一筆樣本。本次將預測的結果先行挑出,並將錯誤的樣本index建立成表,以方便觀察多為那些樣本為容易預測失敗的樣本。 […] 先讀入資料與之前R…
gan
Compare to OCGAN & SMOTE & ADASYN in breast cancer data Simulation
Hermit
/
2020-02-18
這次我使用sklearn內建的資料集breast-cancer(原始資料來源:https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)) ,先將原資料以7:3比例建立一個的資料分類器出來,之後把其中一個類別挑出,並使用各種oversampling的方法來模擬樣本,並最終將模擬後的資料套回最初的模型當中,比較各方法產生的樣本能否在分類器當中回到原本的類別當中。 […] 讀取sklearn的資料並轉為dataframe: import pandas as pd import numpy…
machine-learning
CRE features selection
Hermit
/
2020-02-14
This time I will use the scikit-learn module to bulid the classifiers,and I will use the randomforest’s importance to choose the explanatory variables. […] import pandas as pd import numpy as np df = pd.read_csv('C:/Users/User/OneDrive -…
Python
CRE data features selection
Hermit
/
2020-02-10
這次僅針對CRE data的模型變數選擇,主要以下面python的forward backward selection的方式進行挑選,主要方式為:將所有資料的百分之六十切出,進行變數篩選,並使用loocv的方式比較不同變數模型的準確度差異。 […] import pandas as pd import numpy as np df = pd.read_csv('C:/Users/User/OneDrive - student.nsysu.edu.tw/Educations/NSYSU/fu_chung/bacterial/123.csv') from…
gan
OCGAN Pratice: CRE Bateria data
Hermit
/
2020-02-04
這次使用之前分析過的CRE資料,來嘗試使用OCGAN,但因原先資料CRE:NON比數為46:49,為了達到不平衡的效果,因此最後採用16:49的比例,從46個CRE中取隨機16個,而資料的訓練集以及驗證集比例為下: Train Set(CRE:Non): 6:19 Validation Set(CRE:Non): 10:30 接著我們將分為有使用OCGAN平衡數據集的資料以及未平衡數據集的資料進行分別建模,兩者皆使用SVM的方式建模,並且先透過LOOCV的方式在數據集Tuning模型,最後套入驗證集計算總準確率、f1 score、auc等,比較有無平衡的效果。 […]…
gan
OCGAN Tuning
Hermit
/
2020-01-16
基本上生成樣本已經是可以達成的事情,目前就是調整gan各處的結構,如優化器、激活函數、損失函數等等,目前嘗試皆以randomforest(n=100)當作統一的模型。下圖是一般神經網路的結構: 而生成對抗網路則有生成器與判別器兩個神經網路的串接,因此排列組合十分多種,且echo的次數與每個組合的效果並不一定相同,不一定回傳越多次效果越好,因此想先比較完大部分組合後再從中擇優,以下是將之前信用卡資料切分為train:test為1:1後的比較結果,比較傳統oversampling、undersampling與Non Sampling的效果,結果如下圖: 接下來與gan進行比較,gan的各種組合下表…
««
«
1
2
3
4
»
»»