novelty日記

データサイエンスやプログラムなど

ざっくばらんメモ_17:自動パラメータチューニングの良し悪し

自動パラメータチューニングの良し悪し

kaggleなどでxgboostなどのチューニングを行うことを考えたとき、 何も考えずに広いパラメータグリッド内で最適化しようとすると 当然ながら非常に時間がかかる。

しかもそうしてやって得られた結果が割と大した改善にもなっていない事が多い。

そのためパラメータチューニングをする際にはある程度human in the loopをした 方がまだ効率的である。

つまり、序盤の事前知識がない状態においてはなるべく粗く、でも広くパラメータグリッドを取り、 まずはどのあたりのパラメータで性能が出そうか人手で当たりを付ける。

続いて当たりを付けたあたりのより狭い範囲で、しかしグリッドの粒度を上げた形で さらなる探索を行っていく形である。

だがこれはグリッドサーチに限った形で、例えばランダム探索やbayesian optimisationと比較した 場合にどちらが効率が良いかは気になる。