Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Convert to UTF-8 #53

Closed
wants to merge 1 commit into from
Closed

Convert to UTF-8 #53

wants to merge 1 commit into from

Conversation

tamo
Copy link
Contributor

@tamo tamo commented Aug 11, 2024

背景

辞書の項目追加を PR しようと見てみたところ
EUC-JP と ISO-2022-JP のせいで
GitHub からは内容も ChangeLog も見えないので
何もできませんでした
(特に ISO-2022-JP は VSCode からも扱えなくて驚きました)

というわけで UTF-8 にしてみる PoC です

このまま実用できるとは思いませんが叩き台にはなるかもしれません
気軽に却下していただいて構いませんが
この程度 GitHub から文字化けなく見えてくれないと
なかなか PR を出す気にはなれないと思います
(UTF-8 か SJIS にしない限り GitHub の意味がないというか
以前のシステムの方がずっとマシです)

diff を取ってみたところ
fullname が少し変わっているかもしれませんので
euc-jp-2004 のまま扱うほうが良いかもしれません
でも元データがおかしいだけかもしれません
(○○システムズの「ズ」のところとか、モーニング娘。の最後の「。」とか)

skktools の filters が EUC-JP 決め打ちのようなので Makefile で nkf -e して処理していますが
skktools 側で自動識別やオプション指定ができるなら Makefile がシンプルになりそうです
あとは gitattributes で working-tree-encoding 指定するとかもアリかもしれません

あとは

ChangeLog に真鵺道を要求するのもハードルが高いので
GitHub Actions で自動生成してくれるといいですよね

@kuuote
Copy link

kuuote commented Aug 11, 2024

個人的にはもうEUC-JPなんて使っている人はいないしありだと思います。

@conao3
Copy link
Member

conao3 commented Aug 11, 2024

#39
新辞書形式がマージされているので、これらのファイル群から生成できるはずという理解です。
とはいえこの新辞書形式を使った辞書の更新方法について説明が必要という方向性なら受け入れやすいと思います cc: @tani

PRは歓迎しますが、正直このPRについては変更行数が多すぎてレビューしきれそうにないというのはお伝えします。(変更についても「Convert to UTF-8」に限定されていないように思います。)

@tamo
Copy link
Contributor Author

tamo commented Aug 12, 2024

#39 新辞書形式がマージされているので、これらのファイル群から生成できるはずという理解です。 とはいえこの新辞書形式を使った辞書の更新方法について説明が必要という方向性なら受け入れやすいと思います cc: @tani

それはすごいです!
ぜひ手順を文書化してください
調べてみて形にできそうなら私からPR出しますね

PRは歓迎しますが、正直このPRについては変更行数が多すぎてレビューしきれそうにないというのはお伝えします。(変更についても「Convert to UTF-8」に限定されていないように思います。)

UTF-8である程度動くようにしてるだけのはずですけど……
方向性を示していただければそっちの方向でやりますので、何かあればお知らせください
なければ閉じていただけると助かります

@tamo
Copy link
Contributor Author

tamo commented Aug 15, 2024

#39 新辞書形式がマージされているので、これらのファイル群から生成できるはずという理解です。 とはいえこの新辞書形式を使った辞書の更新方法について説明が必要という方向性なら受け入れやすいと思います cc: @tani

それはすごいです!
ぜひ手順を文書化してください
調べてみて形にできそうなら私からPR出しますね

見たところ、json には annotation がないので
txt に戻すには schema から変えないといけないようです

txt -> json -> txt でほぼ損失のないようにしたものを
master...tamo:dict:json2txt
に置きました

この方向で良ければ手順の文書なども更新したいと思います

どなたか見ていただけますか
json が元データになるなら、更新の自動化などもラクになりそうですし
配布物は euc-jp のままでもいいので、いい妥協点だと思うんですど

@tamo
Copy link
Contributor Author

tamo commented Aug 18, 2024

ご提案いただいた方向で PR を出しましたので
こちらは閉じておきます

@tamo tamo closed this Aug 18, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

3 participants