Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Fix zh-tw/ch1 typoes #145

Closed
wants to merge 1 commit into from
Closed

Conversation

ui-HookeyChiang
Copy link

No description provided.

@yingang
Copy link
Collaborator

yingang commented Dec 7, 2021

谢谢指出问题!现在的繁体中文版本是用工具转换得来的,似乎得往OpenCC那里继续调查了,我简单试了下没太明白转换的逻辑是怎样的。想请教下 @afunTW 有什么想法吗?

c = opencc.OpenCC('s2twp.json')
c.convert('发布')
'釋出'
c.convert('头发'))
'頭髮'
c.convert('发送')
'傳送'
c.convert('用户可以向其粉丝发布新消息')
'使用者可以向其粉絲髮布新訊息'
c.convert('用户可以向其粉丝发送新消息')
'使用者可以向其粉絲髮送新訊息'

@afunTW
Copy link
Contributor

afunTW commented Dec 7, 2021

感謝回報, 當時我的確是直接用 OpenCC 轉, 這邊我會再去調查一下工具那邊的問題
不然至少我會再 review 一次把明顯錯誤的地方更正過來

@afunTW
Copy link
Contributor

afunTW commented Dec 7, 2021

回到這個 MR, 修改內容本身是沒問題的, 但是 coverage 沒有包含所有章節

  1. 修改所有章節後再 merge
  2. 先 merge 額外開 issue 紀錄再開其他 MR 來做

這邊看 @yingang 有什麼想法, 這件事情我沒有意見

@ui-HookeyChiang
Copy link
Author

了解,感覺是斷詞的問題,請參考看看

>>> import opencc
>>> c = opencc.OpenCC('s2twp.json')
>>> c.convert (' 丝发送')
' 絲髮送'
>>> c.convert (' 发送')
' 傳送'
>>> c.convert (' 丝发')
' 絲髮'

@yingang
Copy link
Collaborator

yingang commented Dec 7, 2021

了解,感覺是斷詞的問題,請參考看看

>>> import opencc
>>> c = opencc.OpenCC('s2twp.json')
>>> c.convert (' 丝发送')
' 絲髮送'
>>> c.convert (' 发送')
' 傳送'
>>> c.convert (' 丝发')
' 絲髮'

嗯应该是的,絲髮这个还比较好理解(类似的还有ch11:向外部訊息代理髮送訊息),我另外还看到几例不太好理解的:

ch6: 否則請求將被髮送到錯誤的節點
ch11: 這些影響包括髮送給下游運算元或外部訊息傳遞系統x

在OpenCC有比较好的解决方案之前,我考虑要不就暂时直接在我们简体转繁体的脚本zh-tw.py中,强行将这几个词修正回来吧

            .replace('髮送', '傳送')
            .replace('髮布', '釋出')
            .replace('髮生', '發生')
            .replace('髮出', '發出')

我本地跑了下,结果看上去应该是okay的,大家看看有什么问题吗?

@afunTW
Copy link
Contributor

afunTW commented Dec 7, 2021

了解,感覺是斷詞的問題,請參考看看

>>> import opencc
>>> c = opencc.OpenCC('s2twp.json')
>>> c.convert (' 丝发送')
' 絲髮送'
>>> c.convert (' 发送')
' 傳送'
>>> c.convert (' 丝发')
' 絲髮'

嗯应该是的,絲髮这个还比较好理解(类似的还有ch11:向外部訊息代理髮送訊息),我另外还看到几例不太好理解的:

ch6: 否則請求將被髮送到錯誤的節點 ch11: 這些影響包括髮送給下游運算元或外部訊息傳遞系統x

在OpenCC有比较好的解决方案之前,我考虑要不就暂时直接在我们简体转繁体的脚本zh-tw.py中,强行将这几个词修正回来吧

            .replace('髮送', '傳送')
            .replace('髮布', '釋出')
            .replace('髮生', '發生')
            .replace('髮出', '發出')

我本地跑了下,结果看上去应该是okay的,大家看看有什么问题吗?

做為暫時解法我覺的沒問題

@yingang
Copy link
Collaborator

yingang commented Dec 7, 2021

回到這個 MR, 修改內容本身是沒問題的, 但是 coverage 沒有包含所有章節

1. 修改所有章節後再 merge

2. 先 merge 額外開 issue 紀錄再開其他 MR 來做

這邊看 @yingang 有什麼想法, 這件事情我沒有意見

好的,我再补充下,刚才有个事情我没描述清楚,因为现在繁体版本是基于简体版本转换而来的,日常简体版本有任何更新时,都会通过脚本同步更新繁体版本的内容,所以单独合并繁体版本的PR引入的变更没法在后续版本更新中持续保留。

可以接受的几种方法(我在前一条回复里说的主要是后面两种方式,但最好的肯定是第一种方式):

  • OpenCC能够自动处理好
  • 简体版本的翻译避开当前这些容易出问题的方式
  • 脚本能够针对少数几种已识别的特殊情况自动处理好

@yingang
Copy link
Collaborator

yingang commented Dec 7, 2021

已提交,大家看看没什么问题我就关闭这个PR了 7bce759

@ui-HookeyChiang
Copy link
Author

回到這個 MR, 修改內容本身是沒問題的,但是 coverage 沒有包含所有章節

1. 修改所有章節後再 merge

2. 先 merge 額外開 issue 紀錄再開其他 MR 來做

這邊看 @yingang 有什麼想法,這件事情我沒有意見

好的,我再补充下,刚才有个事情我没描述清楚,因为现在繁体版本是基于简体版本转换而来的,日常简体版本有任何更新时,都会通过脚本同步更新繁体版本的内容,所以单独合并繁体版本的 PR 引入的变更没法在后续版本更新中持续保留。

可以接受的几种方法(我在前一条回复里说的主要是后面两种方式,但最好的肯定是第一种方式):

  • OpenCC 能够自动处理好
  • 简体版本的翻译避开当前这些容易出问题的方式
  • 脚本能够针对少数几种已识别的特殊情况自动处理好

Close as per the conclusion made

@yingang yingang mentioned this pull request Jan 25, 2022
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

3 participants