novelty日記

データサイエンスやプログラムなど

ざっくばらんメモ_13:kaggle, 教師コスト

kaggle seguro

code

objectiveを’reg:linear’に元に戻す.

少なくともパラメータ選択で性能向上する事を確認したい.

パラメータ選択の範囲が狭く局所解へ陥っているのかもしれない.

代わりにもう少し広い範囲でパラメータ検索を行ってみる.

また並行して別のモデルを追加していく.

まずはlightgdmを追加してxgboostとのensembleを適用.

結果:0.265でxgboost単体の0.269と比較して微減

教師あり学習のコストを低減したい

最近は主にdeep learning系の研究テーマの動機づけとして, 教師あり学習におけるデータ作成コストの低減が良くあげられるようになってきた.

例えば,deep learningのモデルは学習のため大量のラベル付きデータが必要, 複雑化していくタスクのためにデータ単位辺りのラベルコストも上昇している, 等である.

そのための方法として強化学習ではcuriosity driven search,教師ありでは Self-supervision,transfer learning,あるいはsimulationの利用などがある.

そうした結果はしかし従来のラベル付きデータによる教師あり学習を代替出来るには まだまだ遠く,現状は組み合わせて使う事で性能向上をサポートする事を可能に出来ると いったレベルである.

一方,人為的のろベル付きコストも削減され始めている.

これは単純にラベル付け会社が増えて競争が発生している事と,ノウハウが溜まって 効率化出来てきている事に起因している.

実用面では人為的なラベリングが圧倒的に単純なので, 今後,上記の教師あり学習コストの低減手法が実用化するまでの道のりは遠い.

しかしエッジケース,そもそも現実世界で集めにくいデータ,に完全にフォーカス すれば実用性は向上しそうである.

この場合人為的にデータを集めてラベル付けする事のコストが非常に高くなるからである. 例えば,自動車の安全機能のテストのため,事故データを大量に集める事は出来ないし, 集まったとしても詳細なデータは得辛い.

また曖昧なタスクは人手で定義するためのは難しいが,self-supervision, curiosity, 逆強化学習などを通して データから自然なタスク定義を導き出す事が出来れば非常に有用である.