2009年2月9日月曜日

[Linux]Anthyを卒業したい

先週末、会社の標準OfficeスィートがOffice2000からOffice2003にアップグレードされました。
その際、IMEも更新された訳ですが、これまでの学習結果を全部吹っ飛ばすんですねアレ。私の名字(珍しい妙寺なので一発で変換できることはまずない)が出なくなってました。まぁ、学習を過剰に設定しておけばすぐ覚えてくれるので困りはしませんがw
ところで、WindowsでIMEと言えば、Microsoftの標準IME、Officeをインストールすることで導入されるIME、そしてATOKなんてのが主流だと思います。ATOK2009なんてのがこないだリリースされてましたね。
かたやLinuxではどうかと言いますと、現在主流なのはAnthyです。ほとんどのディストリビューションが採用しており、標準でAnthy(+SCIM)と言う組み合わせになっております。
が、こいつの変換効率がどうにもよろしくない。と言いますか、話し言葉に対する変換効率が著しく低いんですね。
こうしてBlogに書いているような、ある程度標準語に近いと言いますか、(あまり適当な表現ではないでしょうが)教科書的な文章については十分な変換精度を保っています。今こうして打っている文章も、1発めの変換候補が同音の違う漢字であることはあっても、文節から間違っている事はほとんどありません。
しかし、話し言葉と言うか、砕けた表現をしようとすると一気に破綻します。
Velnirとのチャット中はほんとひどいもんです。おかしな変換はできるだけ直していたんですが、最近は面倒になったのでそのまんま投げていたりします。気にせずついてきてくれるVelnirに感謝(笑)
えげつない誤変換の例としては、
・頭が痛いわ->頭害対話
・何がどう変わるのかね->なにが同化割るのかね
・一家団欒2巻は半分弱読んだ->一家団欒2巻は半分じゃ九余んだ
とまぁこんな感じでしょうか。そこまで砕けた言い方ではないと思うんですけれどね。チャット中は連文節変換なんてまるで期待できません。ほぼ文節ごとに変換してます。その方が、長い文章打って文節を直して変換するよりよっぽど早いんですもの。
だので、LinuxでのAnthyに見切りをつけたいのですが、FedoraのリポジトリにはAnthyくらいしか選択肢がないんですね・・・。正直Cannaの方がマシじゃないのかと思える。
で、途方に暮れていたらなんとかのSocialIMEがUIMから叩けるとかなんとか!
uim/2008/11/07/social-ime - more-functional
まだ本流には取り込まれていないのかな? ってか、UIMのWiki見たら知らない変換エンジンいっぱいあったんですよねぇ。Anthy意外に結構選択肢があったのか、と。
まぁさっそくSocialIMEを試してみたかったんですが、残念ながらビルド方法が分かりませんでしたOrz Fedoraには当然用意されてませんからねぇ。野良ビルドの必要がありますが、ちょっくらハードルが高い・・・。
けどこれ成功すると結構面白そう。あと、yahoo-jpなんてエンジンもあったり。SocialIMEもそうですが、両方とも量にものを言わせた変換を試みます。下手にアルゴリズムをこねくり廻すより、多くの人が使っている変換候補を割り当てた方が正答率高いやろ? ってな考え方ですね。
う〜ん、最近はWikiのネタもありませんでしたし、なんとかこれをビルドしてネタにしちゃいますかね。
ちょっくらやってみっか!