2009年2月9日月曜日

[Linux]Anthyを卒業したい

先週末、会社の標準OfficeスィートがOffice2000からOffice2003にアップグレードされました。
その際、IMEも更新された訳ですが、これまでの学習結果を全部吹っ飛ばすんですねアレ。私の名字(珍しい妙寺なので一発で変換できることはまずない)が出なくなってました。まぁ、学習を過剰に設定しておけばすぐ覚えてくれるので困りはしませんがw
ところで、WindowsでIMEと言えば、Microsoftの標準IME、Officeをインストールすることで導入されるIME、そしてATOKなんてのが主流だと思います。ATOK2009なんてのがこないだリリースされてましたね。
かたやLinuxではどうかと言いますと、現在主流なのはAnthyです。ほとんどのディストリビューションが採用しており、標準でAnthy(+SCIM)と言う組み合わせになっております。
が、こいつの変換効率がどうにもよろしくない。と言いますか、話し言葉に対する変換効率が著しく低いんですね。
こうしてBlogに書いているような、ある程度標準語に近いと言いますか、(あまり適当な表現ではないでしょうが)教科書的な文章については十分な変換精度を保っています。今こうして打っている文章も、1発めの変換候補が同音の違う漢字であることはあっても、文節から間違っている事はほとんどありません。
しかし、話し言葉と言うか、砕けた表現をしようとすると一気に破綻します。
Velnirとのチャット中はほんとひどいもんです。おかしな変換はできるだけ直していたんですが、最近は面倒になったのでそのまんま投げていたりします。気にせずついてきてくれるVelnirに感謝(笑)
えげつない誤変換の例としては、
・頭が痛いわ->頭害対話
・何がどう変わるのかね->なにが同化割るのかね
・一家団欒2巻は半分弱読んだ->一家団欒2巻は半分じゃ九余んだ
とまぁこんな感じでしょうか。そこまで砕けた言い方ではないと思うんですけれどね。チャット中は連文節変換なんてまるで期待できません。ほぼ文節ごとに変換してます。その方が、長い文章打って文節を直して変換するよりよっぽど早いんですもの。
だので、LinuxでのAnthyに見切りをつけたいのですが、FedoraのリポジトリにはAnthyくらいしか選択肢がないんですね・・・。正直Cannaの方がマシじゃないのかと思える。
で、途方に暮れていたらなんとかのSocialIMEがUIMから叩けるとかなんとか!
uim/2008/11/07/social-ime - more-functional
まだ本流には取り込まれていないのかな? ってか、UIMのWiki見たら知らない変換エンジンいっぱいあったんですよねぇ。Anthy意外に結構選択肢があったのか、と。
まぁさっそくSocialIMEを試してみたかったんですが、残念ながらビルド方法が分かりませんでしたOrz Fedoraには当然用意されてませんからねぇ。野良ビルドの必要がありますが、ちょっくらハードルが高い・・・。
けどこれ成功すると結構面白そう。あと、yahoo-jpなんてエンジンもあったり。SocialIMEもそうですが、両方とも量にものを言わせた変換を試みます。下手にアルゴリズムをこねくり廻すより、多くの人が使っている変換候補を割り当てた方が正答率高いやろ? ってな考え方ですね。
う〜ん、最近はWikiのネタもありませんでしたし、なんとかこれをビルドしてネタにしちゃいますかね。
ちょっくらやってみっか!

7 件のコメント:

  1. SECRET: 0
    PASS: 64fa84376bf93a7a4f06f52e1c5ee8cd
    >ほぼ文節ごとに変換してます。その方が、長い文章打って文節を直して変換するよりよっぽど早いんですもの。
    95時代からの癖で今でもそんな変換してるわ。
    おかげで変換終了した部分の文脈を推測してくれないことがあって、変換ミスが後を絶たない(笑

    返信削除
  2. SECRET: 0
    PASS: 74be16979710d4c4e7c6647856088456
    誤変換コンテストに応募しよー

    返信削除
  3. SECRET: 0
    PASS: 74be16979710d4c4e7c6647856088456
    まぁOffice以外でNaturalInputが有効に使われるかは覚えてないんだが^^;
    NaturalInputは前の文節を一応見てくれるので、ハマれば実に快適なんだがね。
    あと、Offife2003までの(Vistaまでの)IMEは2文節までしか見ないので2文節までで変換すると結果が割とよく、Office2007では3文節まで見るようになったので3文節で変換すると効率よく学習するね。
    WineでIME動かないかしらw

    返信削除
  4. SECRET: 0
    PASS: 74be16979710d4c4e7c6647856088456
    はじめまして。
    uim-social-imeはすでにtrunkに入っておりまして、uim-1.6.0以降でデフォルトで選択可能になる予定です。
    今はソースがレポジトリ上にしかありませんので、specファイルを書き換えればすぐrpmbuld出来る、というような状態ではありません。
    それと、wimeを使えば、ATOKをwine経由で使用できるようですよ。

    返信削除
  5. SECRET: 0
    PASS: 74be16979710d4c4e7c6647856088456
    誤変換コンテストとかあったなぁ。
    って、あれ今話題の漢検じゃないっけ?w>kaku
    お、本流に取り込まれそうなんですか! それは楽しみです。svnでチェックアウトしなきゃいけないみたいでしたので、途方に暮れていたんですよね・・・。
    wimeは一応知っていたんですが、まだバギーということで様子を見ています。非常に楽しみなプロジェクトですよね。ATOKが動いてくれるならもうそれでいい気もしますw >いわたさん

    返信削除
  6. SECRET: 0
    PASS: 74be16979710d4c4e7c6647856088456
    そんなあなたにSKKをどうぞ♪

    返信削除
  7. SECRET: 0
    PASS: 74be16979710d4c4e7c6647856088456
    Fedoraに入ってましたっけ・・・?
    今調べたところ、scim-skkは入ってますね。エンジンはskkdicでいいのかな・・・?
    ちょっくら調べてみますー。情報ありがとうございます>yamaさん

    返信削除