novelty日記

データサイエンスやプログラムなど

ざっくばらんメモ_24:kaggle bowl2018, Coursera Robotics Perception

kaggle bowl 2018 次のトライとして去年もあったdata science bowlの2018年版 へチャレンジしてみることにする。 今回のお題はがん検出自動化に向けた画像ベースの細胞核検出問題。 核検出は分析のスタートポイントとなるため重要との事。 評価は検出箇所に…

ざっくばらんメモ_23:Detectron

FAIR Detectronのトライ Facebook Researchが最近公開したCaffe2ベースの画像認識ライブラリDetectronを試す。 主なインストール手順はGitHubに公開。 環境はaws p2.xlarge, ubuntu 16.04、conda environmentを利用。 インストール環境を整えるにあたって要…

ざっくばらんメモ_22:kaggle recruit, coursera

kaggle recruit challenge 最近あまり時間が取れず、あまり進捗はなし。 しかしkernelがいくつか更新されており、 最近公開されている手法をいくつかアンサンブルで 組み合わせ、重み付けを変えるなどしていた所、 最終的に0.478 (164位) を達成。 時間はな…

stackGan-v2をトライ 最近突然話題になり始めたattnGANに関して、 そのコードをトライしようと思ったがまだ公開されていなかった。 そこで著者らの関連作であるstackGAN++をとりあえずトライ。 こちらはコードが既に公開されている。 ちなみにPytorch版。 AW…

ざっくばらんメモ_20:kaggle, visitor function

kaggle recruit challenge code Kernelにて今まで公開されてきたメソッドをアンサンブルして LB0.479を実現しているものが公開されていた。 利用されているメソッドの中に自分の公開したものが含まれていた。 そのおかげか自分のkernelがブロンズを獲得。 た…

ざっくばらんメモ_19:kaggle

kaggle recruit challenge code Kernelを見て、公開されているコードなどを元に 前処理と後処理を更新。 またknnとgradient boostingを追加したensembleを構築した。 結果LB0.482(161位)まで向上。 ここから先色々パラメータをいじるも性能向上はせず。

ざっくばらんメモ_18:kaggle, MCMC w/ human preference, classificationと文化

kaggle recruit challenge code 今までsklearnのGridSearchCV関数などを利用して 自動パラメータチューニングを行ってきたが、時間がかかる割に 性能が改善されない。 Trainデータ内でcross validationにより作るvalidationセットが実際の テストデータと整…

ざっくばらんメモ_17:自動パラメータチューニングの良し悪し

自動パラメータチューニングの良し悪し kaggleなどでxgboostなどのチューニングを行うことを考えたとき、 何も考えずに広いパラメータグリッド内で最適化しようとすると 当然ながら非常に時間がかかる。 しかもそうしてやって得られた結果が割と大した改善に…

ざっくばらんメモ_15:kaggle, deepnetの特性解析, 既約性メモ

kaggle recruit Recruit Restaurant Visitor Forcasting Challengeをスタート. コード レストランの将来訪問者数を予測するタスク. 分析はすでにやられていて参考になる ーhttps://www.kaggle.com/headsortails/be-my-guest-recruit-restaurant-eda ひとま…

ざっくばらんメモ_15:capsule network, model switchingとdomain adaptation

capsule net 最近急に話題になり始めたcapsule networkに関するHintonの講義を見た. この新しいモデルの一つの動機として従来のconvnetはpooling処理があるせいで,同じ物体に関する様々な観点の特徴を捨てて代表値で代替してしまう事かある. Capsule net…

ざっくばらんメモ_13:kaggle, 教師コスト

kaggle seguro code objectiveを’reg:linear’に元に戻す. 少なくともパラメータ選択で性能向上する事を確認したい. パラメータ選択の範囲が狭く局所解へ陥っているのかもしれない. 代わりにもう少し広い範囲でパラメータ検索を行ってみる. また並行して…

ざっくばらんメモ_12:kaggle

###kaggle seguro code このサイトを参考に,xgboostのパラメータチューニングを引き続き行う. 一部修正を加えつつ,一通り通しでやってみたが, 結果LB0.269 -> 0.236へ下がってまう. どこかでチューニングのやり方が間違っているように思える. ひとまず…

ざっくばらんメモ_11:kaggle

kaggle seguro code まず基本のコンポーネントを実装する. モデルは動作確認のためシンプルに xgboostを利用. 結果:LB0.269.ベースラインとしては妥当? この後はハイパーパラメータチューニングを トライしてみる. 特に,パラメータ毎の感度解析的の事…

ざっくばらんメモ_10:kaggle, 創造性について

kaggle zillow code zillowは今週末で提出期限. Kernelに公開されている手法で二種類のxgboostとlightgbmを組み合わせる事 で好成績を叩き出している手法が存在しているので, これらを取り入れる事にする. kernelで公開されている手法とパラメータをその…

ざっくばらんメモ_9:kaggle, 技術適応力,コラボ重視の仕事スタイル

kaggle zillow アンサンブルとresnet regressionを組み合わせるも結果は対して変わらず. 根本的のアプローチが間違っていると思われる. kernelで公開されている手法では,割りと単純なregression tree系の手法を 組み合わせるだけで,ただ組み合わせる時の…

ざっくばらんメモ_8:kaggle, projective space

kaggle Resnet regressionモデルを stackingを含めたアンサンブルモデルの中へ 組み込んで見る. 現在学習中(結構時間がかかる) projective spaceを利用した線分及び面の表現 (x, y)2次元ユークリッド空間における線分は ax + by + c = (x, y, 1)(a, b, c…

ざっくばらんメモ_7:kaggle、ベンフォードの法則、他者の学習規則の学習

kaggle zillow challenge 前回出したresnetの結果をアンサンブル予測のなかに組み込んで 予測を行ってみる. ー結果,0.0657365で改善ならず. resnetはアンサンブルしない方が良い事になってしまった. もう少しresnetの学習を続けてみて,再トライする.結…

ざっくばらんメモ_6:kaggle, C++のVisitor

kaggle Zillow challenge 前回まででresent based regressionが動くようになったので 今回はモデルのセーブとテストデータに対する予測を行えるようにする. 結果無事resnetベースの推論モデルによる予測ができるようになってきた ので早速ある程度学習して…

ざっくばらんメモ_5:gitのcommit頻度、Dvorak配列、コードの拡張性

git commitの頻度とタイミング 現状の機能を損なわない範囲で新機能を部位を最小単位でインクリメントし、 その度にローカルでコミットしておく。コミットの数は多くて良い。 そうする事で、予期せぬバグが発生した際、直近の正常動作する 状態へ戻す事がで…

ざっくばらんメモ_4:kaggle, ACKTR, A2C, Semantic guide

kaggle zillow challenge pytorchによるCNNベースのregressionモデルの構築を開始する。 モデルのベースはresnetを利用する。 torchvisionのライブラリ内にresnetのモデルがあるためそれを利用したい。 このモデルはそのまま利用するとclassificationの出力…

ざっくばらんメモ_3:kaggle、photorealistic画像生成

kaggle zillow challenge 今回解くべきタスクは各月に対するlogerrorであったが、 現在までは簡単のため月の区別はせずに予測を行っていた。 これは明らかな性能のボトルネックであるので、次に 月毎の予測を行うようモデルを切り替えていきたい。 ただ予測…

ざっくばらんメモ_2:kaggle、ceres::LocalParameterizaion、アジャイル

kaggle zillow challenge 現在のコード 前回までは複数のモデルを学習して得たモデルの予測値の平均(アンサンブル?)を用いていた。 今回はそのアンサンブルするモデルを追加する事にする。 Gaussian Process Regression:メモリエラー、見送り KNearest Re…

ざっくばらんメモ1:kaggle、脳科学とAI、ゲームとAI

kaggle zillow challenge ーtruncation logerrorに対してtruncation、1, 99 percentileでの切り捨てを行う。 結果0.0762954。 続いて他の変数にもtruncationを追加。 追加したのは(finishedsquarefeet12、calculatedfinishedsquarefeet、taxamount) 精度は…

異常検知のアンサンブル

異常検知、特に教師なし設定における異常検知問題において、アンサンブル手法というものはあまりない。 この論文曰く、教師なしの場合、各検知手法の精度評価や各手法毎の多様性についての評価が難しい事が大きな原因らしい。 しかし興味深かったのが、この…

Rademacher Complexityの考え方

understanding machine learningに出てくるrademacher complexityの導入がなんかしっくり来た。 まずある分布DよりデータSが与えられた時、representativenessという指標を次のように定義する。 ここで、Fは仮説クラスHが与えられている時、あるサンプルを入…

Rivalry of Two Families of Algorithms for Memory-Restricted Streaming PCA

Rivalry of Two Families of Algorithms for Memory-Restricted Streaming PCAを読む 概要 通常のデータに対するバッチ処理をベースとしたPCAと違い、 ストリームデータに対するPCAは、その問題設定から制約があり、従来手法の通りではうまくいかない。 その…

敵対的な観測が含まれるデータによる学習

論文 Online Anomaly Detection under Adversarial Impactを読む。 適当にまとめる。 概要 通常の機械学習アルゴリズムは観測を均一に扱い学習を行う。 しかしセキュリティ分野においては、観測が敵対的に与えられる場合がある。 敵対的な観測により学習結果…

意味のある外れ値を見つける

Conditional Anomaly Detectionという論文を読んだ。 異常が検出された時にそれが意味のないものである事は多い。 そのためある異常検知がそうした意味のない異常ばかり検出してしまう場合、使い物にならない。 本論では事前知識に頼る事になるが、それを利…

近傍グラフの異常検知

論文 Anomaly detection with score functions based on nearest neighbor graphsという論文を読む。 kNNグラフを用いた異常検知で理論的にしっかり解析されている。 理論面はわからなかったのでイントロだけなんとなくメモ。 アブスト n個の正常データに対…

分布の低次元埋め込み

読んだ論文 Nonparametric Divergence Estimation with Applications to Machine Learning on Distribution http://arxiv.org/abs/1202.3758 データ点ではなく分布レベルで低次元埋め込みする。 以下アブストとイントロのみ意訳。 アブスト 低次元埋込み、多…