novelty日記

データサイエンスやプログラムなど

分布の低次元埋め込み

読んだ論文

Nonparametric Divergence Estimation with Applications to Machine Learning on Distribution

http://arxiv.org/abs/1202.3758

データ点ではなく分布レベルで低次元埋め込みする。

以下アブストとイントロのみ意訳。

アブスト

低次元埋込み、多様体学習、クラスタリング、分類、異常検知は重要な問題である。

従来手法において各サンプルは有限の特徴量にて表現される。

対して本論では、各サンプルは連続確率分布に紐づける。

それらの分布は未知だが、それらから得られたサンプルを私達は観測出来る。

目的は各分布間の距離を推測する事で低次元空間埋込み、クラスタリング、分類、異常検知を行う事である。

イントロ

例えば異なったいくつかの独立な人々のグループがあると仮定する。

それらのグループは異なった大きさを持っている。

それらのグループに対して、いくつかの観測が獲得される。

それは例えば何人かの血圧などである。

ここで各グループは良く定義された血圧分布を持っていると仮定する。

この時、各観測はその分布からのiidなサンプルである。

私達が解きたい問題はこれらグループ間の差異はどのようなものかという事である。

具体的には、観測を元に各グループに対し自然なクラスタを構築する事は可能か、各グループが持つ分布をその構造を保ったまま低次元空間へ埋め込む事は可能か、通常でないグループを検出する事は可能か、といった問題である。

各グループ内の各人が正常な観測を持っていたとしても、グループ全体として見た時には異常である事は起こりえる事である。

通常の異常検知はグループ全体の分布に対する異常ではなく、各サンプルに対してのみ行われるため、本問題設定は違っている。

上記の問題は天文系の領域で良く見られる。

例えば銀河系のデータでは、各銀河団を比較した相対的に異常なクラスタを検出する事は有用である。

その場合、各銀河そのものは通常であっても銀河団として見た場合には異常な分布を示している事がある。

低次元埋込みや多様体学習は良く研究されている領域である。

この領域では、各サンプルに対して定義されている有限次元特徴量を用いてそれらを低次元空間に埋め込む。

本論ではこの問題を一般化し、各サンプルの特徴量ではなくサンプル全体のなす分布を低次元空間へ埋め込む。

この場合写像する元の空間は特徴空間でなく分布空間である。

通常の多様体学習と同様に、ある未知のデータ生成分布から得られた高次元特徴量サンプルをiidにて取得している設定を考える。

その上で未知の生成分布を推定する事なく、それらを低次元空間への埋込みを行う。

クラスタリングと分類問題は機械学習において一般的な問題である。

通常それらのアルゴリズムはやはり有限次元特徴量に対して行われる。

そのため、今回私達が想定しているような分布に対しては適用出来ない。

本論ではこの問題に対して対処出来る手法も提案する。

以上の問題に答えるためには、分布間の距離を定義する必要がある。

私達はそれにL2距離、Renyi距離を用いる。

分布間の距離を求める事は基礎的な統計的問題であるにも関わらず、それらを効率良く推定する技術は構築されていない。

例えばガウス混合分布の場合、L2距離に関しては解析解が求まるが、Renyi距離、KL距離、その他もろもろの距離に関してはもう求める事が出来ない。

様々な確率的距離が今まで提案されてきているが、それらの効率的推定に関してはあまり議論されてきていない。

(今までの推定方法の概略の説明)

本論では、Renyi距離、L2距離を用いる。

これらは関数クラスに対して最小化問題を解く必要がない。

つまり、私達はk近傍に基づく統計量だけがあれば良い。

この推定は一貫性を持ち、しかも分布を推定する必要がない。

従来手法には分布を表す非線形関数の推定をk近傍に基づき行う手法があるが、この手法はkがサンプルと共に増える場合に関心がある手法であった。

Renyi距離、L2距離の推定には従来手法で提供されたアイデアを用いる。

そこでは、Shannon、Renyi-α entropy推定を1つのサンプルに対して行っている。

対して、私達は2つの独立なサンプルに対する距離推定法を提案する。

結局、本論における貢献は以下のアルゴリズムを提案した事である。

1.分布を低次元空間へ埋め込む

2.グループ異常検知への応用

3.分布のクラスタリング、分類への応用

所感

分布埋込みは特性カーネルが良く聞くから優位かなと思っていたけど、実験では比較されていないのでどちらが良いのかは不明。