This file is indexed.

/usr/share/doc/mecab/unk.html is in mecab 0.98-1.

This file is owned by root:root, with mode 0o644.

The actual contents of the file can be viewed below.

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
"http://www.w3.org/TR/html4/strict.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>MeCab: 未知語処理</title>
<link type="text/css" rel="stylesheet" href="mecab.css">
</head>
<body>
<h1>未知語処理の定義</h1>

<p>$Id: unk.html 167 2009-03-08 10:16:26Z taku-ku $;</p>

<h2>概要</h2>
<p>未知語処理(辞書に載っていない単語の形態素解析の処理)についてユーザが再定義できます。</p>

<h2>設定ファイル</h2>

<p>配布辞書のディレクトリにある char.def と unk.def という2つのファイル
を変更します.</p>

<h3>char.def</h3>
<p>未知語処理のルールです. <a href="learn.html">こちら</a>を御覧ください.
</p>

<h3>unk.def</h3>
<p>未知語に対する品詞列のテーブルです. <a href="learn.html">こちら</a>を
御覧ください. </p>

<h2>ケーススタディ</h2>
<h3>数字の連続を1つの形態素とする</h2>
<ul>
<li>辞書 (*.csv ファイル)から数字のエントリを削除します。
    ipadic の場合は、Noun.number.csv の中から、アラビア数字のエントリを消去します。
<li>char.def を修正し、数字の連続が未知語になるようにします。
<pre>
..
NUMERIC        1 1 0
..
</pre>

<li>unk.def を修正し、数字のコストを小さくします。

4カラム目のコスト値を 0以下の小さい値に設定します。
<pre>
NUMERIC,1204,1204,0,名詞,数,*,*,*,*,*
</pre>

<li>辞書をコンパイルします。
<pre>
% /usr/local/libexec/mecab/mecab-dict-index 
</pre>
</ul>

<h3>ASCII 文字列は、スペース/タブのみで分割する (kakasiと同一動作)</h3>
<ul>
<li>辞書 (*.csv ファイル)からアスキー文字列を含むのエントリを削除します。
<li>char.def を修正し、スペース、記号を除く文字を同一字種(ASCII)にマッピ
    ングします。他のエントリも同時にチェックし、0x0021..0x007E の領域を
    他の字種にマッピングしないようにしてください。
<pre>
ASCII       1 1 0

0x0021..0x007E ASCII
</pre>

<li>unk.def を修正し、ASCIIのコストを小さくします。
4カラム目のコスト値を 0以下の小さい値に設定します。
<pre>
ASCII,1192,1192,0,名詞,サ変接続,*,*,*,*,*
</pre>

<li>辞書をコンパイルします。
<pre>
% /usr/local/libexec/mecab/mecab-dict-index 
</pre>
</ul>

<hr>
<p>$Id: unk.html 167 2009-03-08 10:16:26Z taku-ku $;</p>
</body>
</html>