ほんとのこと知りたいだけなのに。

夏休みはもうおわり。

CLML HDP-LDA:階層的ディリクレ過程を用いた隠れディリクレ配分法のパッケージ

Document を写経。

Package

item value
package clml.nonparametric.hdp-lda
nickname ---
file ./src/nonparametric/src/hdp-lda.lisp
dependencies cl, clml.nonparametric.statistics, clml.hjs.meta

Class

HDP-LDA

accessors

accessor description
topic-count トピック数,
hdp-lda-alpha value of hyperparameter alpha
hdp-lda-beta value of hyperparameter beta
hdp-lda-gamma value of hyperparameter gamma

Operator

HDP-LDA

hdp-lda dataset &key sampling hyper-parameters initial-k => <numeric-dataset>

Arguments

attribute description type default
dataset descriptions 参照 <numeric-dataset> ---
sampling サンプリング回数, default は 100 100
hyper-parameters hyperparameter alpha, beta, gamma の初期値のリスト ガンマ分布による乱数
initial-k トピック数 k の初期値 0

Values

  • type: <numeric-dataset>
  • contents:
    • 各ドキュメントのトピック確率 <numeric-and-category-dataset>
    • 各トピックにおける各単語の出現確率 <hdp-lda> |

Description

引数 dataset の各列は単語のドキュメントにおける出現頻度を表し、列名は単語そのものとする。 よって各行はあるドキュメントにおける各単語の出現頻度ベクトルである。

第一返り値 の各列はトピックに対応し、あるドキュメントがそのトピックに属する確率を表す。

第二返り値 の各列は単語に対応し、あるトピックにおけるその単語の出現確率を表す。

References

  • Latent Dirichlet Allocation, David M Blei, Andrew Y.Ng, Michael I.Jordan. Journal of Machine Learning Research 3 (2003) 993-1022.
  • Hierarchical Dirichlet Processes, Yee Whye Teh, Michael I Jordan, Matthew J Beal, David M Blei. Journal of the American Statistical Association. December 1, 2006, 101(476): 1566-1581.

GET-TREND-TOPICS

get-trend-topics model &key trend ntopics nwords =>

Arguments

attribute description type default
model hdp-lda の第三返り値 <hdp-lda>
trend :hot or :cold <keyword-symbol> :hot
ntopics 10
nwords 10

Values

  • type:
  • contents:
    • key: トピックID
    • datum: (cons 単語ベクトル Thetaの平均値)

Description

流行順( :hot )または流行していない順( :cold )に ntopics 個のトピックの情報を返す。

各トピックを表す単語ベクトルは出現確率の高い順に nwords 個の単語で表される。

Reference

Exports

symbol type description
table struct
word struct
word-id accessor
document class
document-id accessor
document-words accessor
document-thetas accessor
hdp-lda class
topic-count accessor
hdp-lda-data accessor
vocabulary accessor
add-customer method
remove-customer method
sample-new-topic method
hypers-sampling method
initialize method
sampling method
assign-theta method
get-phi method
get-top-n-words method
revert-word function
alpha-base-a parameter 初期値: 1d0
alpha-base-b parameter 初期値: 1d-1
gamma-base-a parameter 初期値: 1d0
gamma-base-b parameter 初期値: 1d-1
default-beta parameter 初期値: 1d-1