kaggle bowl2018 コンペ code 前回はDilated Residual Networkを用いた推論を行い、あまり結果が良くなかった。 今回はpytorchベースのsegmentationコードを folkし、今回のデータに合わせた形でadapterを加えつつ試した。 まず初めにbilinear補完によるupsa…
kaggle bowl2018 コンペ code 前回はUNetを用いた予測を行った。 今回はもう少し最新の手法を試す。 選んだのはDilated Residual Networkで こちらはコードが公開されているため適用しやすい。 このモデルを学習するためには規定のフォルダ構造にしなければ…
kaggle, bowl2018 コンペ code まずはtensorflowベースのUNetを用いた手法がkernelに公開されているのでそれに沿って 実装を行っていく。 ただそのまま走らせるのでは面白くないので、いくつかdata augmentation手法を適用して データを増やしたものを用いて…
kaggle bowl 2018 次のトライとして去年もあったdata science bowlの2018年版 へチャレンジしてみることにする。 今回のお題はがん検出自動化に向けた画像ベースの細胞核検出問題。 核検出は分析のスタートポイントとなるため重要との事。 評価は検出箇所に…
FAIR Detectronのトライ Facebook Researchが最近公開したCaffe2ベースの画像認識ライブラリDetectronを試す。 主なインストール手順はGitHubに公開。 環境はaws p2.xlarge, ubuntu 16.04、conda environmentを利用。 インストール環境を整えるにあたって要…
kaggle recruit challenge 最近あまり時間が取れず、あまり進捗はなし。 しかしkernelがいくつか更新されており、 最近公開されている手法をいくつかアンサンブルで 組み合わせ、重み付けを変えるなどしていた所、 最終的に0.478 (164位) を達成。 時間はな…
stackGan-v2をトライ 最近突然話題になり始めたattnGANに関して、 そのコードをトライしようと思ったがまだ公開されていなかった。 そこで著者らの関連作であるstackGAN++をとりあえずトライ。 こちらはコードが既に公開されている。 ちなみにPytorch版。 AW…
kaggle recruit challenge code Kernelにて今まで公開されてきたメソッドをアンサンブルして LB0.479を実現しているものが公開されていた。 利用されているメソッドの中に自分の公開したものが含まれていた。 そのおかげか自分のkernelがブロンズを獲得。 た…
kaggle recruit challenge code Kernelを見て、公開されているコードなどを元に 前処理と後処理を更新。 またknnとgradient boostingを追加したensembleを構築した。 結果LB0.482(161位)まで向上。 ここから先色々パラメータをいじるも性能向上はせず。
kaggle recruit challenge code 今までsklearnのGridSearchCV関数などを利用して 自動パラメータチューニングを行ってきたが、時間がかかる割に 性能が改善されない。 Trainデータ内でcross validationにより作るvalidationセットが実際の テストデータと整…
自動パラメータチューニングの良し悪し kaggleなどでxgboostなどのチューニングを行うことを考えたとき、 何も考えずに広いパラメータグリッド内で最適化しようとすると 当然ながら非常に時間がかかる。 しかもそうしてやって得られた結果が割と大した改善に…
kaggle recruit Recruit Restaurant Visitor Forcasting Challengeをスタート. コード レストランの将来訪問者数を予測するタスク. 分析はすでにやられていて参考になる ーhttps://www.kaggle.com/headsortails/be-my-guest-recruit-restaurant-eda ひとま…
capsule net 最近急に話題になり始めたcapsule networkに関するHintonの講義を見た. この新しいモデルの一つの動機として従来のconvnetはpooling処理があるせいで,同じ物体に関する様々な観点の特徴を捨てて代表値で代替してしまう事かある. Capsule net…
kaggle seguro code objectiveを’reg:linear’に元に戻す. 少なくともパラメータ選択で性能向上する事を確認したい. パラメータ選択の範囲が狭く局所解へ陥っているのかもしれない. 代わりにもう少し広い範囲でパラメータ検索を行ってみる. また並行して…
###kaggle seguro code このサイトを参考に,xgboostのパラメータチューニングを引き続き行う. 一部修正を加えつつ,一通り通しでやってみたが, 結果LB0.269 -> 0.236へ下がってまう. どこかでチューニングのやり方が間違っているように思える. ひとまず…
kaggle seguro code まず基本のコンポーネントを実装する. モデルは動作確認のためシンプルに xgboostを利用. 結果:LB0.269.ベースラインとしては妥当? この後はハイパーパラメータチューニングを トライしてみる. 特に,パラメータ毎の感度解析的の事…
kaggle zillow code zillowは今週末で提出期限. Kernelに公開されている手法で二種類のxgboostとlightgbmを組み合わせる事 で好成績を叩き出している手法が存在しているので, これらを取り入れる事にする. kernelで公開されている手法とパラメータをその…
kaggle zillow アンサンブルとresnet regressionを組み合わせるも結果は対して変わらず. 根本的のアプローチが間違っていると思われる. kernelで公開されている手法では,割りと単純なregression tree系の手法を 組み合わせるだけで,ただ組み合わせる時の…
kaggle Resnet regressionモデルを stackingを含めたアンサンブルモデルの中へ 組み込んで見る. 現在学習中(結構時間がかかる) projective spaceを利用した線分及び面の表現 (x, y)2次元ユークリッド空間における線分は ax + by + c = (x, y, 1)(a, b, c…
kaggle zillow challenge 前回出したresnetの結果をアンサンブル予測のなかに組み込んで 予測を行ってみる. ー結果,0.0657365で改善ならず. resnetはアンサンブルしない方が良い事になってしまった. もう少しresnetの学習を続けてみて,再トライする.結…
kaggle Zillow challenge 前回まででresent based regressionが動くようになったので 今回はモデルのセーブとテストデータに対する予測を行えるようにする. 結果無事resnetベースの推論モデルによる予測ができるようになってきた ので早速ある程度学習して…
git commitの頻度とタイミング 現状の機能を損なわない範囲で新機能を部位を最小単位でインクリメントし、 その度にローカルでコミットしておく。コミットの数は多くて良い。 そうする事で、予期せぬバグが発生した際、直近の正常動作する 状態へ戻す事がで…
kaggle zillow challenge pytorchによるCNNベースのregressionモデルの構築を開始する。 モデルのベースはresnetを利用する。 torchvisionのライブラリ内にresnetのモデルがあるためそれを利用したい。 このモデルはそのまま利用するとclassificationの出力…
kaggle zillow challenge 今回解くべきタスクは各月に対するlogerrorであったが、 現在までは簡単のため月の区別はせずに予測を行っていた。 これは明らかな性能のボトルネックであるので、次に 月毎の予測を行うようモデルを切り替えていきたい。 ただ予測…
kaggle zillow challenge 現在のコード 前回までは複数のモデルを学習して得たモデルの予測値の平均(アンサンブル?)を用いていた。 今回はそのアンサンブルするモデルを追加する事にする。 Gaussian Process Regression:メモリエラー、見送り KNearest Re…
kaggle zillow challenge ーtruncation logerrorに対してtruncation、1, 99 percentileでの切り捨てを行う。 結果0.0762954。 続いて他の変数にもtruncationを追加。 追加したのは(finishedsquarefeet12、calculatedfinishedsquarefeet、taxamount) 精度は…
異常検知、特に教師なし設定における異常検知問題において、アンサンブル手法というものはあまりない。 この論文曰く、教師なしの場合、各検知手法の精度評価や各手法毎の多様性についての評価が難しい事が大きな原因らしい。 しかし興味深かったのが、この…
understanding machine learningに出てくるrademacher complexityの導入がなんかしっくり来た。 まずある分布DよりデータSが与えられた時、representativenessという指標を次のように定義する。 ここで、Fは仮説クラスHが与えられている時、あるサンプルを入…
Rivalry of Two Families of Algorithms for Memory-Restricted Streaming PCAを読む 概要 通常のデータに対するバッチ処理をベースとしたPCAと違い、 ストリームデータに対するPCAは、その問題設定から制約があり、従来手法の通りではうまくいかない。 その…
論文 Online Anomaly Detection under Adversarial Impactを読む。 適当にまとめる。 概要 通常の機械学習アルゴリズムは観測を均一に扱い学習を行う。 しかしセキュリティ分野においては、観測が敵対的に与えられる場合がある。 敵対的な観測により学習結果…