[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: MeCab
In message <op.tug7t6y5csw9i4@pom.lins.jp>
on Mon, 25 Jun 2007 21:04:44 +0900,
"OBATA Akio" <obata@lins.jp> wrote:
> > 真面目にmecabのドキュメントを読むと、
> >
> > o 辞書を作成する際は configure ... --with-charset={euc-jp/sjis/utf-8}
> > で指定できる。(optionで指定できると嬉しいなぁ。)
>
> これしちゃうと、utf-8 option で install したら、Namazu と使えないとか、
> いろいろとトラブルの元になるように思えます。
うぅむ、確かに。
> で、
>
> > o mecab-dict-indexで、作った辞書から違う文字エンコーディングの辞書を
> > 作ることができる。
>
> こんなこともあって、複数のencodingの辞書を用意することもできるんですが、
> 結局、アプリ側で API に渡すときの encoding を適切に処理するか、
> アプリ側で適切な encoding の辞書を選択するように処理すか、になるわけです。
ある意味、もうちっとAPIを改善すべし、ということになるのかなぁ。
> こういうの扱うときには大量に処理するんで、コード変換なんてしてられない、
> っていうような事情もあるでしょうし。
>
> やっぱ、複数encodingの辞書を用意しておく、かなぁ。
そうですね、
% du -sk
du -sk /usr/pkg/lib/mecab/dic/*
40740 /usr/pkg/lib/mecab/dic/ipadic
58770 /usr/pkg/lib/mecab/dic/jumandic
といった大きさなので、optionで複数のエンコーディングの辞書のインストー
ルを可能にするあたりが現実的そうです。
> Namazu なんかだったら、mecab 呼び出すところで euc-jp な辞書を指定するように
> patchを当てておく、?
Namazuの場合に日本語の処理を行う場合は、locale / LANG環境変数がセット
された状態となりますから、この辺りで攻める手もありそうです。(どの辞書
使うといったあたりも絡みますが、デフォルトを決めといて、変えたい人は
namazurc等で設定して貰うということで。)
> > あと、mecab-baseですけど、オリジナルに含まれているドキュメントもインス
> > トールした方が良さそうに思います。
>
> これって、HOMEPAGE の内容そのものなんですよね。
> ふーん。
まあ、そうですね。
> > (mecab-ipadicとmecab-jumandicのDESCRやCOMMENTが全く一緒なのも気になる
> > けれど、いい記述は思い浮かびません。:-( )
>
> いっそ jumandic を消してしまうとか。
> 誰か必要かな?
わかりません。ほんとのユーザに聞かないと。;-p
急いでどうこうできる話では、なさそうです。
--
神戸 隆博 / Takahiro Kambe
- References:
- Re: MeCab
- From: Takahiro Kambe <taca@back-street.net>
- Re: MeCab
- From: "OBATA Akio" <obata@lins.jp>