形態素解析

参照

MeCab

ユーザ辞書

  • mecab-dict-index.exe ユーザ辞書作成コマンド
    -f	入力CSVファイル文字コード 
    -c -t	出力辞書ファイル文字コード
    -d	辞書システムディレクトリパス
    -u	出力辞書ファイル名
    文字コード文字列 SHIFT-JIS,UTF-8
    
    mecab-dict-index.exe -f SHIFT-JIS -t UTF-8 -d "..\dic\ipadic" -u "出力ユーザ辞書.dic" "入力ユーザ辞書.csv"
  • MeCab\etc\mecabrc にユーザ辞書を定義
    userdic = ユーザ辞書へのパス
  • Vistaのプログラムフォルダなどの管理者権限が必要なフォルダへは
    コマンドプロンプトを管理者権限で実行してからでないと反映されない。
  • csvファイルの形式
    表層形,左文脈ID,右文脈ID,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音
    
    Timeline,1288,1288,4000,名詞,固有名詞,一般,*,*,*,Timeline,タイムライン,タイムライン
表層形
対象の形態素。
左文脈ID
left-id.defに書かれた内部処理ID。-1にしておくと自動で割り振られる
右文脈ID
right-id.defに書かれた内部処理ID。-1にしておくと自動で割り振られる
コスト
この形態素の出現頻度。2000〜5000が多い。値が小さいほど出現しやすい
品詞
品詞〜発音までが態素解析時に表示される分類。
品詞細分類1
品詞細分類2
品詞細分類3
活用形
活用型
原形
活用の原形
読み
読み方。
発音
発音。弁当なら「ベントウ」でなく「ベントー」になる

出力

表層形\t品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音

記号のように読みが不明なものは「読み」「発音」がない場合もある。


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規新規下位 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2011-07-30 (土) 19:09:26 (2247d)