[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: MeCab
おばた ナノですが、
On Mon, 25 Jun 2007 19:10:22 +0900, Takahiro Kambe <taca@back-street.net>
wrote:
> 真面目にmecabのドキュメントを読むと、
>
> o 辞書を作成する際は configure ... --with-charset={euc-jp/sjis/utf-8}
> で指定できる。(optionで指定できると嬉しいなぁ。)
これしちゃうと、utf-8 option で install したら、Namazu と使えないとか、
いろいろとトラブルの元になるように思えます。
で、
> o mecab-dict-indexで、作った辞書から違う文字エンコーディングの辞書を
> 作ることができる。
こんなこともあって、複数のencodingの辞書を用意することもできるんですが、
結局、アプリ側で API に渡すときの encoding を適切に処理するか、
アプリ側で適切な encoding の辞書を選択するように処理すか、になるわけです。
いまどき始めるなら、APIも何もUTF-8でいいじゃないかとも思うのですが、
そういうわけにもいかず。
こういうの扱うときには大量に処理するんで、コード変換なんてしてられない、
っていうような事情もあるでしょうし。
やっぱ、複数encodingの辞書を用意しておく、かなぁ。
Namazu なんかだったら、mecab 呼び出すところで euc-jp な辞書を指定するように
patchを当てておく、?
> あと、mecab-baseですけど、オリジナルに含まれているドキュメントもインス
> トールした方が良さそうに思います。
これって、HOMEPAGE の内容そのものなんですよね。
ふーん。
> (mecab-ipadicとmecab-jumandicのDESCRやCOMMENTが全く一緒なのも気になる
> けれど、いい記述は思い浮かびません。:-( )
いっそ jumandic を消してしまうとか。
誰か必要かな?
--
お役に立てない(^^;
OBATA Akio / obata@lins.jp
せかいは ひろがる ちきゅーは まわる
- Follow-Ups:
- Re: MeCab
- From: Takahiro Kambe <taca@back-street.net>
- References:
- Re: MeCab
- From: Takahiro Kambe <taca@back-street.net>