FindClusters

FindClusters[{e1,e2,}]

eiを同種の要素ごとにクラスタにまとめる.

FindClusters[{e1v1,e2v2,}]

各クラスタの eiに対応する viを返す.

FindClusters[data,n]

datan 個のクラスタにまとめる.

詳細とオプション

  • FindClusters はリストを類似要素の部分リスト(クラスタ)に分割する.クラスタの数と組成は,使用される入力データ,メソッド,評価基準に影響される.要素は,テキストと画像や日付と時間を含むさまざまなデータ型に属する可能性がある.
  • クラスタリングは,顧客タイプ,動物の分類,ドキュメントのトピック等の要素のクラスを教師なしで求めるためによく使われる.教師ありの分類についてはClassifyを参照のこと.
  • 入力例 eiのラベルは以下の形式で与えられる.
  • {e1,e2,}ei それ自体を使う
    {e1v1,e2v2,}要素 eiとラベル viの間の規則のリスト
    {e1,e2,}{v1,v2,}すべての要素とすべてのラベルの間の規則
    label1e1,label2e2,Associationキーとしてのラベル
  • クラスタの数は以下の形で指定できる.
  • Automaticクラスタ数を自動的に求める
    n厳密に n 個のクラスタを求める
    UpTo[n]最高で n 個のクラスタを求める
  • 使用可能なオプション
  • CriterionFunction Automaticメソッド選択の基準
    DistanceFunction Automatic使用する距離関数
    FeatureExtractor Identityそこから学ぶ特徴をどのように抽出するか
    FeatureNames Automatic入力データに割り当てる特徴名
    FeatureTypes Automatic入力データに仮定する特徴タイプ
    Method Automatic使用するメソッド
    MissingValueSynthesisAutomatic欠測値の合成方法
    PerformanceGoal Automaticパフォーマンスのどの面について最適化するか
    RandomSeeding 1234どのような擬似乱数生成器のシードを内部的に使うべきか
    Weights Automatic各例に与える重み
  • デフォルトで,FindClustersは,DistanceFunctionが指定されていなければ,自動的にデータを前処理する.
  • DistanceFunctionの設定は,任意の距離関数,非類似度関数,または2つの値間の距離を定義する関数 f でよい.
  • PerformanceGoalの可能な設定
  • Automatic速度,確度,メモリ間の自動トレードオフ
    "Quality"分類器の確度を最大にする
    "Speed"分類器の速度を最大にする
  • Methodの可能な設定
  • Automaticメソッドを自動選択する
    "Agglomerate"単一の結合クラスタ化アルゴリズム
    "DBSCAN"ノイズがあるアプリケーションの密度に基づいた空間クラスタ化
    "GaussianMixture"ガウス混合アルゴリズムのバリエーション
    "JarvisPatrick"JarvisPatrickクラスタ化アルゴリズム
    "KMeans"k 平均クラスタ化アルゴリズム
    "KMedoids"メドイドの周りでのクラスタ化
    "MeanShift"平均シフトクラスタ化アルゴリズム
    "NeighborhoodContraction"データ点を高密度領域にシフトさせる
    "SpanningTree"最小全域木に基づいたクラスタ化アルゴリズム
    "Spectral"スペクトルクラスタ化アルゴリズム
  • "KMeans"法と"KMedoids"法はクラスタ数が指定されているときにしか使用できない.
  • "DBSCAN""GaussianMixture""JarvisPatrick""MeanShift""NeighborhoodContraction"の各メソッドは,クラスタ数がAutomaticのときにしか使用できない.
  • 次のプロットは一般的なメソッドをトイデータ集合に適用した結果を示している.
  • CriterionFunctionの可能な設定
  • "StandardDeviation"二乗平均平方根標準偏差
    "RSquared"R平方
    "Dunn"Dunn指標
    "CalinskiHarabasz"CalinskiHarabasz指標
    "DaviesBouldin"DaviesBouldin指標
    "Silhouette"シルエットスコア
    Automatic内部指標
  • RandomSeedingの可能な設定
  • Automatic関数が呼び出されるたびに自動的にシードを変える
    Inherited外部シードの乱数を使う
    seed明示的な整数または文字列をシードとして使う

例題

すべて開くすべて閉じる

  (4)

近傍の値のクラスタを求める:

厳密に4つのクラスタを求める:

各規則の右辺でクラスタ化された要素を表す:

連想のキーを使ってクラスタ化された要素を表す:

スコープ  (6)

実数値のクラスタ化したベクトル:

任意精度のクラスタ化したデータ:

クラスタ化したブール値のTrue, Falseデータ:

色をクラスタ化する:

画像をクラスタ化する:

3D画像のクラスタリング:

オプション  (15)

CriterionFunction  (1)

分割されたデータを生成し,可視化する:

CriterionFunctionの異なる設定を使ってデータをクラスタ化する:

データの2種類のクラスタ化を比較する:

DistanceFunction  (4)

CanberraDistanceを連続データの距離尺度として用いる:

デフォルトのSquaredEuclideanDistanceで求まったクラスタ:

DiceDissimilarityをブール値データの距離尺度として用いる:

MatchingDissimilarityをブールデータの距離測度として使う:

HammingDistanceを文字列データの距離尺度として用いる:

距離関数を純関数として定義する:

FeatureExtractor  (1)

画像のリストのクラスタを求める:

カスタムのFeatureExtractorを作って特徴を抽出する:

FeatureNames  (1)

FeatureNamesを使って特徴に名前を付け,以降の指定でその名前を参照する:

FeatureTypes  (1)

FeatureTypesを使って特徴の解釈を強制する:

上記を名義的特徴を仮定して得られた結果と比較する:

Method  (4)

データを階層的にクラスタ化する:

デフォルトのメソッドで得られたクラスタ:

正規分布に従うデータを生成し,可視化する:

k 平均法を使ってデータを4つのクラスタにまとめる:

クラスタ数を指定せずに"GaussianMixture"法を使ってデータをクラスタ化する:

一様分布に従うデータを生成する:

k 平均法を使ってデータを2つのクラスタにまとめる:

クラスタ数を指定せずに"DBSCAN"法を使ってデータをクラスタ化する:

色のリストを生成する:

kメドイド法を使って色を5つのクラスタにまとめる:

"MeanShift"法を使ってクラスタ数を指定せずに色をまとめる:

"NeighborhoodContraction"法を使ってクラスタ数を指定せずに色をまとめる:

"NeighborhoodContraction"法とそのサブオプションを使って色をクラスタ化する:

PerformanceGoal  (1)

長さ1000のランダムな数値ベクトルを500個生成する:

これらのクラスタ化を計算し,基準に従ってこの操作を評価する:

PerformanceGoal"Speed"に設定して同じ操作を行う:

RandomSeeding  (1)

500個のランダムな二次元数値ベクトルを生成する:

クラスタ化を数回計算し,結果を比較する:

RandomSeedingオプションを変えてクラスタ化を数回計算し,結果を比較する:

Weights  (1)

数値データについてのクラスタ割当てを得る:

各数に与えられた重みを変えた場合のクラスタ割当てを見る:

アプリケーション  (3)

二変量データ中のクラスタを求め,可視化する:

五次元ベクトルでクラスタを求める:

要素単位の差分の数に基づいてゲノム配列をクラスタ化する:

特性と関係  (2)

FindClustersはクラスタのリストを返すのに対し,ClusteringComponentsはクラスタ指標の配列を与える:

FindClustersはデータをグループ化するのに対し,Nearestは与えられた値に最も近い要素を返す:

おもしろい例題  (2)

均一に分布したランダムな点をクラスタ化することで正方形を n 個の部分にまとめる:

英語辞書中の「agg」で始まる語をクラスタにまとめる:

Wolfram Research (2007), FindClusters, Wolfram言語関数, https://reference.wolfram.com/language/ref/FindClusters.html (2020年に更新).

テキスト

Wolfram Research (2007), FindClusters, Wolfram言語関数, https://reference.wolfram.com/language/ref/FindClusters.html (2020年に更新).

CMS

Wolfram Language. 2007. "FindClusters." Wolfram Language & System Documentation Center. Wolfram Research. Last Modified 2020. https://reference.wolfram.com/language/ref/FindClusters.html.

APA

Wolfram Language. (2007). FindClusters. Wolfram Language & System Documentation Center. Retrieved from https://reference.wolfram.com/language/ref/FindClusters.html

BibTeX

@misc{reference.wolfram_2024_findclusters, author="Wolfram Research", title="{FindClusters}", year="2020", howpublished="\url{https://reference.wolfram.com/language/ref/FindClusters.html}", note=[Accessed: 22-November-2024 ]}

BibLaTeX

@online{reference.wolfram_2024_findclusters, organization={Wolfram Research}, title={FindClusters}, year={2020}, url={https://reference.wolfram.com/language/ref/FindClusters.html}, note=[Accessed: 22-November-2024 ]}