/usr/share/doc/mecab/posid.html is in mecab 0.996-5.
This file is owned by root:root, with mode 0o644.
The actual contents of the file can be viewed below.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 | <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
"http://www.w3.org/TR/html4/strict.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>MeCab: 品詞 ID</title>
<link type="text/css" rel="stylesheet" href="mecab.css">
</head>
<body>
<h1>品詞IDの定義</h1>
<h2>概要</h2>
<p>出力される素性(品詞)に任意の数値ID を付与することができます.
通常, 素性は文字列として表現されますが, 機械処理には向いていません.
数値ID に変換することで, 機械処理が容易になります.
</p>
<p>
素性にどの ID を割りあてるかは, ユーザが自由に定義することができます.
<h2>設定ファイル</h2>
<p>配布辞書のディレクトリにある pos-id.def を変更します.</p>
<p>
1行が1つのマッピングルールに対応します. 各パターンは以下のフォーマットで
記述します.</p>
<pre>
マッチパターン ID
</pre>
<p>という形式で記述します. マッピングルールは先頭から順に走査されて
最初にマッチしたものが使われます.</p>
<p>マッチパターンでは簡単な正規表現がを使うことができます.</p>
<ul>
<li>*: すべての文字列にマッチ
<li>(AB|CD|EF): AB もしくは CD もしくは EF にマッチ
<li>AB: 文字列 AB のみに完全マッチ
</ul>
<p>
pos-id を変更したら, 辞書をリコンパイルする必要があります.
</p>
<pre>
/usr/local/libexec/mecab/mecab-dict-index
</pre>
<h2>品詞 ID の参照</h2>
<p><a href="format.html">出力フォーマット</a>のマクロ %h を使うことで
品詞 ID を参照することができます.</p>
<pre>
% mecab -F"%m\t%h\n" -E"EOS\n"
今日もしないとね。
今日 67
も 16
し 31
ない 25
と 18
ね 17
。
EOS
</pre>
<p>また, ライブラリからは mecab_node_t::posid で参照できます.</p>
<pre>
mecab_t *mecab;
mecab_node_t *node;
mecab = mecab_new2("");
node = mecab_sparse_tonode(mecab, "今日もしないとね");
for (; node; node = node->next) {
fwrite (node->surface, sizeof(char), node->length, stdout);
printf("%d\n", node->posid)
}
</pre>
<h2>pos-id.def の例</h2>
<p>単純な例</p>
<pre>
名詞 1
動詞 2
形容詞 3
副詞 4
助詞 5
接続詞 6
助動詞 7
連体詞 8
感動詞 9
* 10
</pre>
<p>ちょっと複雑な例</p>
<pre>
名詞 1
(助詞|助動詞) 2
(副詞|形容詞|連体詞) 3
* 4
</pre>
<p>もっと複雑な例</p>
<pre>
その他,間投,*,* 0
フィラー,*,*,* 1
感動詞,*,*,* 2
記号,アルファベット,*,* 3
記号,一般,*,* 4
記号,括弧開,*,* 5
記号,括弧閉,*,* 6
記号,句点,*,* 7
記号,空白,*,* 8
記号,読点,*,* 9
形容詞,自立,*,* 10
形容詞,接尾,*,* 11
形容詞,非自立,*,* 12
助詞,格助詞,一般,* 13
助詞,格助詞,引用,* 14
助詞,格助詞,連語,* 15
助詞,係助詞,*,* 16
助詞,終助詞,*,* 17
助詞,接続助詞,*,* 18
助詞,特殊,*,* 19
助詞,副詞化,*,* 20
助詞,副助詞,*,* 21
助詞,副助詞/並立助詞/終助詞,*,* 22
助詞,並立助詞,*,* 23
助詞,連体化,*,* 24
助動詞,*,*,* 25
接続詞,*,*,* 26
接頭詞,形容詞接続,*,* 27
接頭詞,数接続,*,* 28
接頭詞,動詞接続,*,* 29
接頭詞,名詞接続,*,* 30
動詞,自立,*,* 31
動詞,接尾,*,* 32
動詞,非自立,*,* 33
副詞,一般,*,* 34
副詞,助詞類接続,*,* 35
名詞,サ変接続,*,* 36
名詞,ナイ形容詞語幹,*,* 37
名詞,一般,*,* 38
名詞,引用文字列,*,* 39
名詞,形容動詞語幹,*,* 40
名詞,固有名詞,一般,* 41
名詞,固有名詞,人名,一般 42
名詞,固有名詞,人名,姓 43
名詞,固有名詞,人名,名 44
名詞,固有名詞,組織,* 45
名詞,固有名詞,地域,一般 46
名詞,固有名詞,地域,国 47
名詞,数,*,* 48
名詞,接続詞的,*,* 49
名詞,接尾,サ変接続,* 50
名詞,接尾,一般,* 51
名詞,接尾,形容動詞語幹,* 52
名詞,接尾,助数詞,* 53
名詞,接尾,助動詞語幹,* 54
名詞,接尾,人名,* 55
名詞,接尾,地域,* 56
名詞,接尾,特殊,* 57
名詞,接尾,副詞可能,* 58
名詞,代名詞,一般,* 59
名詞,代名詞,縮約,* 60
名詞,動詞非自立的,*,* 61
名詞,特殊,助動詞語幹,* 62
名詞,非自立,一般,* 63
名詞,非自立,形容動詞語幹,* 64
名詞,非自立,助動詞語幹,* 65
名詞,非自立,副詞可能,* 66
名詞,副詞可能,*,* 67
連体詞,*,*,* 68
</pre>
</body>
</html>
|