| ENGLISH | JAPANESE |
リリースパッケージを以下のサイトからダウンロードしてください。(0.5.5以上)
download以下の手順でsumiyakiツールをインストールします。
例)
tar zxf sumibi-0.5.5.tar.gz cd sumibi-0.5.5 make install
;; sumiyaki db (define sumibi-sumiyakidb-host "myhostname") (define sumibi-sumiyakidb-name "sumi_bincho_1") (define sumibi-sumiyakidb-user "username") (define sumibi-sumiyakidb-password "password") ;; sumibi db (define sumibi-sumibidb-host "myhostname") (define sumibi-sumibidb-name "sumi_bincho_1") (define sumibi-sumibidb-user "username") (define sumibi-sumibidb-password "password") ;; debug flag (set! sumibi-debug #f)
echo 'create database sumi_bincho_1 DEFAULT CHARACTER SET utf8;' | mysql -u \
アドミンユーザー
sumiyaki -c
sumiyaki -i SKK辞書データ
sumiyaki -l プレーンテキストファイル
※ htmlファイルなどは、w3m -dump コマンド等を使って全てプレーンテキストに変換してから読み込ませてください。
元の文章情報がそのまま辞書に蓄積される訳けではありません。
読み込んだ文章に出現した隣接する語・1単語離れて隣接する語の共起頻度のカウントを行ないます。
初めて出現したカタカナ語、ひらがな語、送り仮名のパターンも学習し辞書に登録されていきます。(これも出現頻度を記録します)
sumiyaki -s > logファイル
Sumibi辞書用MySQLデータベースの作成〜SKKJISYOの読込までを行った辞書データを炭(Sumibi用辞書)のページで配布していますので、それを使えば準備段階の手間を省けます。
find を使って複数ファイルを順に読み込んでいきます。(以下はコマンド実行例です)
find データディレクトリ名 -name '*.txt' -exec sumiyaki -l {} ; > log
find ./data -name '*.txt' -exec sumiyaki -l {} ; > log
作者のマシンで実験した限りでは、2005年7月13日版よりも新しいスナップショットでは、xml2sql-0.2というバージョンではxmlフォーマットの読み込みに失敗しました。
特別な理由がない場合は、本サイトで配布しているアーカイブを使って下さい。
gunzip -c 20050713_pages_current.xml.gz | xml2sql
※複数の.txt ファイルが生成されますが、このうちの text.txtだけを使用します。
#!/usr/bin/perl
my( $no ) = 1;
foreach ( <> ) {
s/[[//g;
s/]]//g;
s/</?[^>]+>//g;
s/\n/ /g;
$line = $_;
open( FP, sprintf( ">data/%07d.txt", $no++ ));
print FP $line;
close FP;
}