ざっくばらんメモ_18：kaggle, MCMC w/ human preference, classificationと文化

今までsklearnのGridSearchCV関数などを利用して自動パラメータチューニングを行ってきたが、時間がかかる割に性能が改善されない。

Trainデータ内でcross validationにより作るvalidationセットが実際のテストデータと整合していないのか、あるいは別の原因があるのかもしれない。

いずれにせよ、今回手動でsubmissionして得られるLBスコアを見ながら手動でlightgbmとxgboostのパラメータをある程度チューニングし、最後に２つの予測結果の平均を取ってみた所、結果：LB0.492まで向上。

しかしこれ以上は新たなアプローチをしていかないと性能が上がらなそうである。

物理的な実験において、パラメータ設定を行う際に，パラメータサンプリングの度に人からそれが好ましいかそうでないかのフィードバックをもらう事で，human preferenceの山登りをするイメージでサンプリングパスを描く．

まずプレゼンが非常に上手くてそこに感動したが、内容も非常に興味深かった。

内容は学習された機械学習モデルが持ってしまう望ましくないbias（例えば性差別的観点）の問題についてのもの。

今までは、望ましくないbiasに対しては正則化してneutralizedして解決と考えていたが事はそんなに単純ではないようである。

中でも面白かったのが、classificationの歴史とそれがいかにその時々の文化を象徴しているかという事であった。

例えば、画像分類データで一番出てくる人名（クラス）はジョージ・ブッシュだと知られているが、これは彼の画像がマスコミなどで頻繁に露出しており、それだけ社会的に重要視されてきた証である。

つまり社会的に、あるいは文化的にその時重要だったものがデータ分布を決定し、またその分類に関するtaxonomyを決めてきたという事である。

実際分類の歴史を紐解くとそれは時代によって次々と変化しており、直近だと、google formで選べる性別は２つから数十個に増えたらしい。

こうした事から、biasを直すという事はつまり文化、社会のレベルまで働きかける事が本質的には必要で、データはneutralだから差別してしまう人間より遥か良いというような数年前の論調は間違いで、上記の難問を解かない限り、またAI winterが来てしまうかもしれない。