Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

zipcode を更新しやすいように UTF-8 にして調整 #54

Open
wants to merge 10 commits into
base: master
Choose a base branch
from

Conversation

tamo
Copy link
Contributor

@tamo tamo commented Aug 15, 2024

#36 で geo 辞書の更新方法が失伝していることが話題になりました

いま郵政公社では utf-8 のデータを出しているので
zipcode と geo の更新のために Deno 用 TypeScript を書きました
(単純に ZIPCODE-MK を TS に書きかえただけの部分がほとんどです)

office の元データは sjis のままですが、
ハシゴ高などの変換をしないで済むよう、また zipcode と揃えるよう
UTF-8 にしました

make geo で geo 用の追加候補を出せます

辞書の diff を見る感じでは問題なさそうです
geo 用のデータも、そんなに手作業せずマージできそうに見えます

tamo added 10 commits August 15, 2024 15:53
https://www.post.japanpost.jp/zipcode/dl/utf-zip.html

事業所は sjis のままみたいなので変更なし
zipcode.ts に --geo オプションを付けると geo 更新用のデータを吐くので geo に混ぜると良いかも
configure/Makefile はまだ試してない
動くかどうかは知らない
L と geo に入っていない地名がたくさんある
新しくできたビルとか改名したところとか
そして let を減らした
words と office も deno で生成
test は sh からの grep で十分

ついでにビルなどの geo 処理を改善
京都の通りの名前も少し回収
SKK-JISYO.geo.add に出る
(L と geo が euc-jp であることを前提にして nkf している)
じょうより、じょうれん 等の地名から「じょう」が消えていた
本当はこれ git に入れない方がいいと思うけど
@tamo tamo changed the title Zipcode utf zipcode を更新しやすいように UTF-8 にして調整 Aug 22, 2024
@tamo tamo marked this pull request as ready for review August 22, 2024 08:35
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

1 participant