[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: MeCab



In message <op.tr46nli2csw9i4@pom.lins.jp>
	on Fri, 11 May 2007 12:00:47 +0900,
	"OBATA Akio" <obata@lins.jp> wrote:
> On Thu, 10 May 2007 00:39:40 +0900, Takahiro Kambe <taca@back-street.net>  
> wrote:
> 
> > あ、辞書と処理対象の文字エンコーディングが共通なのでしょうか。
> 
> そういうことのようです。
> 辞書にあわせて、文字エンコーディングを変換して渡してやって、
> 受け取った結果も処理にあわせて変換するという。
> 
> 辞書の文字エンコーディングを取得するAPIはあるんで、いまのところ
> アプリ側で対処することは可能ですが、面倒ですね。
真面目にmecabのドキュメントを読むと、

o 辞書を作成する際は configure ... --with-charset={euc-jp/sjis/utf-8}
  で指定できる。(optionで指定できると嬉しいなぁ。)

o mecab-dict-indexで、作った辞書から違う文字エンコーディングの辞書を
  作ることができる。

あと、mecab-baseですけど、オリジナルに含まれているドキュメントもインス
トールした方が良さそうに思います。

(mecab-ipadicとmecab-jumandicのDESCRやCOMMENTが全く一緒なのも気になる
けれど、いい記述は思い浮かびません。:-( )

-- 
神戸 隆博(かんべ たかひろ)		at 仕事場