설치 방법
pip로 설치 가능하다.
$ pip install -f http://h2o-release.s3.amazonaws.com/h2o/latest_stable_Py.html h2o
Bash
복사
Quickstart
import h2o
from h2o.automl import H2OAutoML
# h2o cluster의 초기화가 필요하다.
# 사용하는 코어 수를 제한하고 싶다면 h2o.init(nthreads=72)와 같이 사용.
h2o.init()
# 데이터는 우선 pandas 데이터프레임으로 불러오는 편이 다루기 더 쉬울 듯?
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')
model = H2OAutoML(
max_models=10,
seed=42,
max_runtime_secs=360,
sort_metric='RMSE',
)
# x: training에 사용되는 컬럼의 이름 (optional)
# y: target 컬럼 이름
# training_frame: 학습 데이터프레임 (H2OFrame 의 형태여야 한다!)
# h2o.H2OFrame(train)로 변환 가능하다.
model.train(x=x, y=y, training_frame=train)
# 학습된 모델로 예측 수행은 model.predict로 해도 되고,
preds = model.predict(test)
# 직접적으로 성능이 가장 좋은 모델인 model.leader에서 predict를 call해도 된다.
# 결과는 같을 듯? 확인해 보자.
preds = model.leader.predict(test)
# 참고로, preds 변수는 sklearn과 같이 예측 값들의 array가 아니다.
# 예측 값들만 얻고 싶으면 다음과 같이 변환해준다.
preds_df = pd.DataFrame(preds.as_data_frame())
pred_values = preds_df['predict'].values
# 추가적으로, 모델들의 성능을 비교할 수 있는 leaderboard를 제공한다.
lb = h2o.automl.get_leaderboard(model, extra_columns='ALL')
Python
복사
아래와 같이 학습 progress를 보여준다.
필수 파라미터
H2OAutoML 필수 stopping 파라미터
•
max_runtime_secs: AutoML process가 돌아가는 최대 시간. 0이면 1시간으로 보면 된다.
•
max_models: 스태킹 앙상블 모델을 제외하고 만들 모델의 개수 제한
H2OAutoML.train 필수 데이터 파라미터
•
y: Target column의 이름
•
training_frame: training set