[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: MeCab
In message <op.tr46nli2csw9i4@pom.lins.jp>
on Fri, 11 May 2007 12:00:47 +0900,
"OBATA Akio" <obata@lins.jp> wrote:
> On Thu, 10 May 2007 00:39:40 +0900, Takahiro Kambe <taca@back-street.net>
> wrote:
>
> > あ、辞書と処理対象の文字エンコーディングが共通なのでしょうか。
>
> そういうことのようです。
> 辞書にあわせて、文字エンコーディングを変換して渡してやって、
> 受け取った結果も処理にあわせて変換するという。
>
> 辞書の文字エンコーディングを取得するAPIはあるんで、いまのところ
> アプリ側で対処することは可能ですが、面倒ですね。
真面目にmecabのドキュメントを読むと、
o 辞書を作成する際は configure ... --with-charset={euc-jp/sjis/utf-8}
で指定できる。(optionで指定できると嬉しいなぁ。)
o mecab-dict-indexで、作った辞書から違う文字エンコーディングの辞書を
作ることができる。
あと、mecab-baseですけど、オリジナルに含まれているドキュメントもインス
トールした方が良さそうに思います。
(mecab-ipadicとmecab-jumandicのDESCRやCOMMENTが全く一緒なのも気になる
けれど、いい記述は思い浮かびません。:-( )
--
神戸 隆博(かんべ たかひろ) at 仕事場