machine-learning

Ghalat Machine Learning

Hermit / 2020-08-28

這次來測試自動化機器學習套件：Ghalat Machine Learning，主要針對回歸問題與分類問題的自動化學習。目前套件具有以下功能： 1.自動特徵工程 2.自動選擇機器學習和神經網路模型 3.自動超參數調校 4.排序模型效果（根據交叉驗證分數） 5.推薦最佳模型我將使用UCI breast cancer dataset(sklearn dataset)來測試此套件for分類的效果以及使用情況。套件作者Github：https://github.com/Muhammad4hmed/Ghalat-Machine-Learning Pypl套件說明：…

deep-learning

Auto Encoder for Anomaly Detection

Hermit / 2020-02-29

這禮拜在撰寫論文的時候，因為有一段需要更詳細說明所謂的Anomaly Detection，因而發現了一個也可以進行相同工作的方法-“Auto Encoder”，且他號稱有著更佳的分類效果，因此就看了一些介紹此方法的文章以及實作，下面我將使用breast cancer data的前一百筆當作練習範本，嘗試建立一個Auto Encoder for Anomaly Detection。 […] Autoencoder是一種無監督式學習模型。本質上它使用了一個神經網絡來產生一個高維輸入的低維表示。 Autoencoder與主成分分析PCA類似，但是Autoencoder在使用非線性激活函…

gan

Compare to OCGAN & SMOTE & ADASYN in CRE data Simulation

Hermit / 2020-02-25

與上禮拜那篇文章一樣，只是這次將資料改為CRE data，希望也有良好的表現。 […] import pandas as pd import numpy as np from sklearn import datasets # import some data to play with df = pd.read_csv('C:/Users/User/OneDrive - student.nsysu.edu.tw/Educations/NSYSU/fu_chung/bacterial/123.csv') x = df.iloc[:,0:1471] y =…

gan

Compare to OCGAN & SMOTE & ADASYN in breast cancer data Simulation

Hermit / 2020-02-18

這次我使用sklearn內建的資料集breast-cancer(原始資料來源：https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)) ，先將原資料以7:3比例建立一個的資料分類器出來，之後把其中一個類別挑出，並使用各種oversampling的方法來模擬樣本，並最終將模擬後的資料套回最初的模型當中，比較各方法產生的樣本能否在分類器當中回到原本的類別當中。 […] 讀取sklearn的資料並轉為dataframe： import pandas as pd import numpy…

gan

OCGAN Pratice: CRE Bateria data

Hermit / 2020-02-04

這次使用之前分析過的CRE資料，來嘗試使用OCGAN，但因原先資料CRE:NON比數為46:49，為了達到不平衡的效果，因此最後採用16:49的比例，從46個CRE中取隨機16個，而資料的訓練集以及驗證集比例為下： Train Set(CRE:Non): 6:19 Validation Set(CRE:Non): 10:30 接著我們將分為有使用OCGAN平衡數據集的資料以及未平衡數據集的資料進行分別建模，兩者皆使用SVM的方式建模，並且先透過LOOCV的方式在數據集Tuning模型，最後套入驗證集計算總準確率、f1 score、auc等，比較有無平衡的效果。 […]…

gan

OCGAN Tuning

Hermit / 2020-01-16

基本上生成樣本已經是可以達成的事情，目前就是調整gan各處的結構，如優化器、激活函數、損失函數等等，目前嘗試皆以randomforest(n=100)當作統一的模型。下圖是一般神經網路的結構：而生成對抗網路則有生成器與判別器兩個神經網路的串接，因此排列組合十分多種，且echo的次數與每個組合的效果並不一定相同，不一定回傳越多次效果越好，因此想先比較完大部分組合後再從中擇優，以下是將之前信用卡資料切分為train:test為1:1後的比較結果，比較傳統oversampling、undersampling與Non Sampling的效果，結果如下圖：接下來與gan進行比較，gan的各種組合下表…