Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

同音語の整理 #149

Closed
ShikiOkasaka opened this issue May 23, 2024 · 3 comments
Closed

同音語の整理 #149

ShikiOkasaka opened this issue May 23, 2024 · 3 comments

Comments

@ShikiOkasaka
Copy link
Contributor

ShikiOkasaka commented May 23, 2024

 漢語には同音語が非常に多く、その文字を見なければ、語意をつかむことのできない場合が少なくない。たとえば保険と保健、健兵と憲兵、機関と汽管、私立と市立、普選と婦選、婦人と夫人、議院と議員、光度計と高度計、化学と化学などの同音語は、その文字を見なければ、意味が不明である。将来はかような目の言葉をできるだけ避けて、耳の言葉に改めることが必要である。

保科孝一,『国語問題五十年』, p250, 昭和24年.

 いまのひらがなIMEの漢字辞書はSKKのML辞書をベースにつくられています。この辞書のなかにも、まだ同音語がたくさんあります。つかうことのない漢語を辞書から削除していければ、漢字変換のコストもさげていくことができます。

手順

 restrained.8.dicは3万行以上あり、いっきに同音語を整理していくのはたいへんです。削除候補となる漢語があれば、ぜひプルリクエストをおくってください。

プルリクエストの例: #150

整理のしかたのかんがえかた

 つぎのような語は標準の漢字辞書・カタカナ辞書から削除しても問題ないとかんがえられます。

  • いまでは、すたれている語
  • いちぶのグループのなかだけで必要となる語
  • きょくたんにまぎらわしいことば(よみが「を」からはじまるようなことば)

 こうした語は、個人用の辞書に登録して対応するようにすれば、日常的な作文のなかでの漢字変換のコストをさげられます。

@ShikiOkasaka
Copy link
Contributor Author

v0.15.6の辞書内の漢語の統計

辞書 同音語数 語数
restrained.1.dic 31 760
restrained.2.dic 590 3817
restrained.3.dic 1903 8507
restrained.4.dic 3715 13812
restrained.5.dic 6181 19876
restrained.6.dic 8297 24432
restrained.7.dic 15587 39632
restrained.8.dic 18425 44875
restrained.9.dic 18485 45081

@ShikiOkasaka
Copy link
Contributor Author

ShikiOkasaka commented Jul 2, 2024

2024/7/2時点の漢語の統計

辞書 同音語数 語数
restrained.1.dic 13 633
restrained.2.dic 271 2893
restrained.3.dic 862 5811
restrained.4.dic 1595 8950
restrained.5.dic 2692 11892
restrained.6.dic 3435 13990
restrained.7.dic 9574 28785
restrained.8.dic 11082 30866
restrained.9.dic 11460 33668

28698f4

@ShikiOkasaka
Copy link
Contributor Author

a39854b で第一段階は終了としておきます。

@ShikiOkasaka ShikiOkasaka unpinned this issue Jul 8, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant