[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: MeCab

Subject: Re: MeCab
From: "OBATA Akio" <obata@lins.jp>
To: "Takahiro Kambe" <taca@back-street.net>
Date: Mon, 25 Jun 2007 21:04:44 +0900
Message-ID: <op.tug7t6y5csw9i4@pom.lins.jp>
In-Reply-To: <20070625.191022.74734222.taca@back-street.net>
References: <op.tr16ceyrcsw9i4@pom.lins.jp> <20070510.003940.74753572.taca@back-street.net> <op.tr46nli2csw9i4@pom.lins.jp> <20070625.191022.74734222.taca@back-street.net>
Cc: tech-pkg-ja@jp.netbsd.org
Delivered-To: mailing list tech-pkg-ja@jp.netbsd.org
Mailing-List: contact tech-pkg-ja-help@jp.netbsd.org; run by ezmlm-idx
User-Agent: Opera Mail/9.21 (Win32)

おばた ナノですが、

On Mon, 25 Jun 2007 19:10:22 +0900, Takahiro Kambe <taca@back-street.net>  
wrote:

> 真面目にmecabのドキュメントを読むと、
>
> o 辞書を作成する際は configure ... --with-charset={euc-jp/sjis/utf-8}
>   で指定できる。(optionで指定できると嬉しいなぁ。)

これしちゃうと、utf-8 option で install したら、Namazu と使えないとか、
いろいろとトラブルの元になるように思えます。

で、

> o mecab-dict-indexで、作った辞書から違う文字エンコーディングの辞書を
>   作ることができる。

こんなこともあって、複数のencodingの辞書を用意することもできるんですが、
結局、アプリ側で API に渡すときの encoding を適切に処理するか、
アプリ側で適切な encoding の辞書を選択するように処理すか、になるわけです。

いまどき始めるなら、APIも何もUTF-8でいいじゃないかとも思うのですが、
そういうわけにもいかず。
こういうの扱うときには大量に処理するんで、コード変換なんてしてられない、
っていうような事情もあるでしょうし。

やっぱ、複数encodingの辞書を用意しておく、かなぁ。
Namazu なんかだったら、mecab 呼び出すところで euc-jp な辞書を指定するように
patchを当てておく、？

> あと、mecab-baseですけど、オリジナルに含まれているドキュメントもインス
> トールした方が良さそうに思います。

これって、HOMEPAGE の内容そのものなんですよね。
ふーん。

> (mecab-ipadicとmecab-jumandicのDESCRやCOMMENTが全く一緒なのも気になる
> けれど、いい記述は思い浮かびません。:-( )

いっそ jumandic を消してしまうとか。
誰か必要かな?

-- 
お役に立てない(^^;
OBATA Akio / obata@lins.jp
せかいは ひろがる ちきゅーは まわる

Follow-Ups:
- Re: MeCab
  - From: Takahiro Kambe <taca@back-street.net>

References:
- Re: MeCab
  - From: Takahiro Kambe <taca@back-street.net>

Prev by Date: Re: MeCab
Next by Date: Re: MeCab
Prev by thread: Re: MeCab
Next by thread: Re: MeCab
Index(es):
- Date
- Thread