ざっくばらんメモ_18:kaggle, MCMC w/ human preference, classificationと文化

kaggle recruit challenge

code

今までsklearnのGridSearchCV関数などを利用して 自動パラメータチューニングを行ってきたが、時間がかかる割に 性能が改善されない。

Trainデータ内でcross validationにより作るvalidationセットが実際の テストデータと整合していないのか、あるいは別の原因があるのかも しれない。

いずれにせよ、今回手動でsubmissionして得られるLBスコアを見ながら 手動でlightgbmとxgboostのパラメータをある程度チューニングし、 最後に2つの予測結果の平均を取ってみた所、 結果:LB0.492まで向上。

しかしこれ以上は新たなアプローチをしていかないと性能が上がらなそう である。

MCMC with human preferences

NIPS 2017 John Platt's Opening Remarksより。

物理的な実験において、パラメータ設定を行う際に, パラメータサンプリングの度に人からそれが好ましいかそうでないかのフィードバックを もらう事で,human preferenceの山登りをするイメージでサンプリングパスを描く.

classificationは現在の文化を表現する。

NIPS 2017 KeynoteであるThe Trouble with Bias, Kate Crawfordを見た。

まずプレゼンが非常に上手くてそこに感動したが、内容も非常に興味深かった。

内容は学習された機械学習モデルが持ってしまう望ましくないbias(例えば性差別的観点) の問題についてのもの。

今までは、望ましくないbiasに対しては正則化してneutralizedして解決と考えていたが事は そんなに単純ではないようである。

中でも面白かったのが、classificationの歴史とそれがいかにその時々の文化を象徴しているか という事であった。

例えば、画像分類データで一番出てくる人名(クラス)はジョージ・ブッシュだと知られているが、 これは彼の画像がマスコミなどで頻繁に露出しており、それだけ社会的に重要視されてきた証である。

つまり社会的に、あるいは文化的にその時重要だったものがデータ分布を決定し、 またその分類に関するtaxonomyを決めてきたという事である。

実際分類の歴史を紐解くとそれは時代によって次々と変化しており、直近だと、google formで選べる 性別は2つから数十個に増えたらしい。

こうした事から、biasを直すという事はつまり文化、社会のレベルまで働きかける事が本質的には 必要で、データはneutralだから差別してしまう人間より遥か良いというような数年前の論調は間違いで、 上記の難問を解かない限り、またAI winterが来てしまうかもしれない。