-
Notifications
You must be signed in to change notification settings - Fork 31
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
JSON を原本として各辞書を生成する #55
Open
tamo
wants to merge
17
commits into
skk-dev:master
Choose a base branch
from
tamo:json2txt
base: master
Could not load branches
Branch not found: {{ refName }}
Loading
Could not load tags
Nothing to show
Loading
Are you sure you want to change the base?
Some commits from the old base branch may be removed from the timeline,
and old review comments may become outdated.
Open
Conversation
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
schema に annotation がないから入れた (0.1.0) txt2json によれば annotation は複数存在できるようだったので array にしておいた (複数のエントリは見たことないけど) index.d.ts に schema と同じような TS 型を書いて script 内で共用している txt2json で txt 辞書の冒頭部分は、読むだけ読んで捨てている (yaml から取り出すから) json から txt に戻してみたら yaml が変であることに気づいたので yaml も調整 それなりに復元されることを確認した txt2json では エントリ一個につき json ファイルで何行も使うと diff とか面倒だと思うので 行数を減らすために少し処理している txt2json と json2txt どちらも -c で charset あるいは coding を指定する TODO: fullname 辞書のためだけの JISX0213 対応が汚いので直す あと Makefile はまだ試していない (Windows で作業し始めちゃったので push してから試す)
iconv-lite では EUC-JISX2013 が使えないのでどうしようかと思ったけど 眺めてたらそもそも JISX2013 でも扱えてないみたいなので それなら UTF-8 にしておきましょう あ、ChangeLog が ISO-2022-JP なので開けない…… -あもうこうへい /天羽浩平;フルネーム,日本サンマイクロシステムズ゙会長/ +あもうこうへい /天羽浩平;フルネーム,日本サンマイクロシステムズ会長/ (なにこれ?) -おくむらやすのり /奥村●(米へん+攵)軌;フルネーム,名古屋弁護士会会長/ +おくむらやすのり /奥村敉軌;<UTF-8>フルネーム,名古屋弁護士会会長/ -くぬぎりょうきち /●(工+刀)刀良吉;フルネーム,ソニー社長/ +くぬぎりょうきち /㓛刀良吉;<UTF-8>フルネーム,ソニー社長/ -くりはらろすい /栗原●(草かんむり+慮)水;フルネーム,書家/ +くりはらろすい /栗原蘆水;<UTF-8>フルネーム,書家/ (いや、「慮」じゃないし) -このえやすこ /近衛●(うかんむり+必+用)子;フルネーム,長野五輪選手村名誉村長/ +このえやすこ /近衞甯子;<UTF-8>フルネーム,長野五輪選手村名誉村長/ (よく見ると「衛」もすごい) -すがひでみ /●(糸へん+圭)秀実;フルネーム,文芸評論家/ +すがひでみ /絓秀実;<UTF-8>フルネーム,文芸評論家/ -ぬのめちょうふう /布目潮●(さんずい+風);フルネーム,『中国茶・・・』/ +ぬのめちょうふう /布目潮渢;<UTF-8>フルネーム,『中国茶・・・』/
気づいちゃったので -なかむらかつお /中村嘉嵂雄;<JISX0213>フルネーム,歌舞伎俳優/ +なかむらかつお /中村嘉葎雄;<JISX0213>フルネーム,歌舞伎俳優/
これをしないと make が通らないみたい
skk-dev#51 で話題になったあと放置されていたのかな? http://ftp.edrdg.org/pub/Nihongo/00INDEX.html によると、 > WARNING!! After nearly 30 years of operation the Monash ftp server has been closed down. This edrdg.org server will continue to operate, however addional files will be rarely be added. Dictionary files such as JMdict, Kanjidic, etc. will still be updated daily. Make sure you note the address: > > (HTTP) http://ftp.edrdg.org/pub/Nihongo/00INDEX.html > (FTP) ftp://ftp.edrdg.org/pub/Nihongo/00INDEX.html > rsync ftp.edrdg.org::nihongo/filname filename とのこと。Google で上位に出る usf.edu はただのコピーなのか、そういう情報は書いてない http://ftp.usf.edu/pub/ftp.monash.edu.au/pub/nihongo/ ていうか、u の付かない euc 版の edict2 もあるのに どうして edict2u を使っているのかしら
コピペミスしまくってた
どうして json と別ファイルにしているのか謎だが
array じゃなくて object にした 送りありエントリは最後がアルファベットになるよう指定した (L 辞書の「へんしょう」でエラーが出るのは辞書の間違いか?) txt2json で ajv を使って schema validation するようにした json2txt で -c の euc 判定を緩めた
skk-dev/skktools#27 から annotation-filter.rb を持ってきて script に置いた
emoji.kana は emoji.kanji を unannotated と突合してるので
txt2json の yaml 実装を別のにしたら meta の変な調整が不要になって嬉しい
ライセンスも整理
いつか github actions でも使えるかも?
辞書は EUC-JP, EUC-JISX0213, UTF-8 とあるので ChangeLog はできるだけそれらをすべて表現できないと困るわけで だったら UTF-8 にしておくのが最善だと思います
Open
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Add this suggestion to a batch that can be applied as a single commit.
This suggestion is invalid because no changes were made to the code.
Suggestions cannot be applied while the pull request is closed.
Suggestions cannot be applied while viewing a subset of changes.
Only one suggestion per line can be applied in a batch.
Add this suggestion to a batch that can be applied as a single commit.
Applying suggestions on deleted lines is not supported.
You must change the existing code in this line in order to create a valid suggestion.
Outdated suggestions cannot be applied.
This suggestion has been applied or marked resolved.
Suggestions cannot be applied from pending reviews.
Suggestions cannot be applied on multi-line comments.
Suggestions cannot be applied while the pull request is queued to merge.
Suggestion cannot be applied right now. Please check back later.
#53 (comment)
現状では辞書を更新しようとすると
という手順です。
これを、JSON の編集で完結させたいです。
個人的には 2 も不要 (ハードルを上げすぎる) だと思っているのですが、
それはまた別の話ということで。
この PR で変更されてしまう点は以下です。
作業中にいろいろ直したい所が見つかったような気もしますが
できるだけ変更が出ない方向でやっています。(これでも!)
どうぞよろしくお願いします。