Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[FA] CH1 / P1-2 #142

Merged
merged 10 commits into from
May 16, 2022
Merged
Show file tree
Hide file tree
Changes from 1 commit
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
50 changes: 49 additions & 1 deletion chapters/fa/chapter1/1.mdx
Original file line number Diff line number Diff line change
@@ -1,7 +1,55 @@
<div dir="rtl">
# مقدمه

## به دوره‌ی آموزشی هاگینگ‌فِیس خوش آمدید
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

T/point1: we deviate from the glossary here and use 'ء' instead of 'ی' as a possessive suffix. This should be "دوره آموزشی"
Will call this Issue 1 for the rest of this review.


به دوره‌ی آموزشی هاگینگ‌فیس خوش آمدید!
<Youtube id="00GKzGyWFEs" />

در این دوره‌ی آموزشی، پردازش زبان طبیعی را با استفاده از کتابخانه‌های اکوسیستم [هاگینگ‌فِیس](https://huggingface.co/) یعنی [Transformers](https://github.com/huggingface/transformers), [Dataset](https://github.com/huggingface/datasets), [Tokenizer](https://github.com/huggingface/tokenizers), [Accelerate](https://github.com/huggingface/accelerate) و همچنین [هاب هاگینگ‌فِیس](https://huggingface.co/models) می‌آموزید. این دوره کاملا رایگان و بدون تبلیغات است.
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

The names of Datasets and Tokenizers is missing an s at the end.

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Please add footnote to introduce the acronym NLP.


## در این دوره چه چیزهایی را می‌آموزیم؟

دید کلی کوتاه از مباحث این دوره‌ی آموزشی:
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Same as above.


<div class="flex justify-center">
<img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/summary.svg" alt="دید کلی کوتاه از مباحث این دوره‌ی آموزشی">
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Thanks for changing the alt on these links. I don't know if I did this on my pages, will check to fix this there if I missed it.

<img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/summary-dark.svg" alt="دید کلی کوتاه از مباحث این دوره‌ی آموزشی">
</div>


- از فصل ۱ تا ۴ مقدمه‌ای از مباحث‌ پایه‌‌ای کتابخانه‌ی ترنسفورمرز هاگینگ‌فِیس ارائه می‌شود. در پایان این فصل، شما با شیوه‌ی عملکرد مدل‌های ترنسفومر آشنا می‌شوید و می‌آموزید که چگونه از یک مدل در [هاب هاگینگ‌فِیس](https://huggingface.co/models) استفاده کنید، آن را برای مجموعه داده خود fine-tune کنید و نتایج خود را در هاب به اشتراک بگذارید.
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

I propose کوک‌ کنیم instead of fine-tune per @hamedonline 's suggestion. Whatever we do let's not transliterate.

- در فصل‌های ۵ تا ۸، اصول پایه‌‌ی کتابخانه‌های Dataset و Tokenizer، پیش از آن که وارد مسائل کلاسیک پردازش زبان طبیعی شویم،‌ آموزش داده می‌شوند. در پایان این فصول، قادر خواهید بود مسائل متداول پردازش زبان طبیعی را به تنهایی حل کنید.
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Missing S in library names.

Copy link
Contributor

@jowharshamshiri jowharshamshiri Apr 24, 2022

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

NLP is an industry-accepted acronym(Both G and T/point2) and knowledge of it is essential. I think you are erasing that knowledge by not exposing the reader to it. NLP is referenced on this page 9 times, and you chose to expand all of them. These are the beginning pages of this course. Cool thing the original text did was, to introduce the association btw the expanded form and the acronym in its first use and then go with the acronym from there on. It did this intentionally, and this is information that is lost here. My suggestion would be for us to do the same: translate expanded form with the acronym in footnotes(not ellipses, please see point 4 in this comment in our previous review of @hamedonline's PR and point 2 in this comment in our previous discussions on the issue page), for the first use on this page, and use the acronym from there on, except in cases where the source material uses the expanded form.

On page 2 this is done again, tactfully in another way. It first mentions the expanded form, and since the reader already knows that there is an acronym, immediately switches to using it in the following section title--reinforcing that association. Again there we should do what the source material does bc it is intentional.

This will be Issue 2 for the rest of this review.

- فصل‌های ۹ تا ۱۲ به مباحث فراتر از پردازش زبان طبیعی و استفاده از مدل‌های ترنسفورمر برای حل مسائل پردازش گفتار و بینایی ماشین می‌پردازند. در طی این مسیر، فرا می‌گیرید که چگونه مدلی جدید ساخته، دمویی از آن را عرضه کرده و برای محیط استقرار نرم‌افزار بهینه‌اش کنید. در پایان این فصل، آماده‌ی استفاده از ترنسفورمرهای هاگینگ‌فِیس برای (تقریبا) همه مسائل یادگیری ماشین خواهید بود.
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

I propose "نمونه اولیه" for "demo". New word, please include update to G.
Also I like your choice for "production environment", please include in update to G.

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Issue 2.


این دوره‌ی آموزشی:

* به سطح خوبی از دانش پایتون نیاز دارد.
* بهتر است پس از یک دوره‌ی آموزشی آشنایی با یادگیری عمیق، مانند دوره‌ی آموزشی یادگیری عمیق عملی برای برنامه‌نویس‌ها از [fast.ai](https://www.fast.ai/) و یا یکی از برنامه‌های توسعه داده شده توسط [DeepLearning.AI](https://www.deeplearning.ai/)، دنبال شود.
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Issue 1.

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Your equivalent for "program" here already has strong software connotations for our readers in Persian. Same as your equivalent for the verb "developed", the entry in G for which(the technical sense of it) is your suggestion. None of these two are used in the technical sense of "developing a computer program" here. I propose a replacement for this sentence along the lines of "یکی از دوره‌های ارائه شده توسط فلان".

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Please include the link in the original text for یادگیری عمیق عملی برای برنامه‌نویس‌ها

* نیازمند دانش پیشین [پایتورچ](https://pytorch.org/) یا [تنسورفلو](https://www.tensorflow.org/) نیست، با این حال آشنایی با هر کدام از آنها می‌تواند کمک‌کننده باشد.
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Please include the diacritics for "tensorflow"(T/point16)


پس از اینکه این دوره‌ی آموزشی را به پایان رساندید، توصیه می‌کنیم نگاهی به [دوره‌ی آموزشی تخصصی پردازش زبان طبیعی](https://www.coursera.org/specializations/natural-language-processing) که توسط [DeepLearning.AI](https://www.deeplearning.ai/) ارائه شده است، بیاندازید. این دوره، بخش اعظمی از مدل‌های سنتی‌ پردازش زبان طبیعی مانند دسته‌بندی‌کننده بیز ساده و LSTMها را شامل می‌شود که شناخت آن‌ها ارزشمند است.
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Please include updates to G for your equivalents of "Classifier" and "Naive Bayes". Also LSTM in the acronyms section in G.

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Issue 2 (not in name of the DL course).


## ما چه کسانی هستیم؟

درباره نویسندگان:

**متیو کاریگن** (Matthew Carrigan) مهندس یادگیری ماشین در هاگینگ‌فِیس است. او در دوبلین ایرلند زندگی می‌کند و پیش‌تر بعنوان مهندس یادگیری ماشین در [Parse.ly](https://www.parse.ly/) مشغول به کار بوده است. او دوره‌ی تحقیقات پست دکترای خود را در کالج ترینیتی دوبلین به پایان رسانده است. به عقیده‌ی وی هوش جامع مصنوعی (AGI) با افزایش مقیاس معماری‌های فعلی حاصل نخواهد شد، با این حال او امید بسیاری به جاودانگی روبات‌ها دارد.
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

I propose using پسادکترا instead of پست‌دکترا which is an equivalent I've heard in Persian.

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Would you consider AGI an industry-accepted acronym? If so T/point2 applies.

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

I propose "جاودانگی انسان در قالب رباتی" for "robot immortality". I think it refers to hosting human consciousness in machine form and thus making it immortal. He is saying that the idea of us creating AGI by advancing in our current conception of AI is misguided and a revolutionary step-change is needed. But by transferring our consciousness to machines we can achieve immortality. This happening is analogous to us having created AGI.

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Please move the original spelling of the name to a footnote(per point 4 in this comment in our previous review of @hamedonline's PR and point 2 in this comment in our previous discussions on the issue page).

This will be Issue 3 from now on in this review.


**لیسندره دبوت** (Lysandre Debut) مهندس یادگیری ماشین در هاگینگ‌فِیس است و از ابتدا، بر روی کتابخانه‌ی ترنفسورمرها کار کرده است. هدف او دسترس‌پذیر کردن پردازش زبان طبیعی برای همگان با توسعه ابزارهایی با یک API بسیار ساده است.
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

T/point10. I propose dropping "YEK". Sentence works without it.

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

"the transformers library" -> "the Hugging Face transformers library"

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Issues 2 & 3.


**سیلوین گوجر** (Sylvain Gugger) مهندس محقق در هاگینگ‌فِیس است و از هسته‌ی تیم مدیریت‌کنندگان کتابخانه‌ی ترنسفورمرها محسوب می‌شود. او قبل‌تر مهندس محقق در fast.ai بود و [کتاب یادگیری عمیق عملی برای برنامه‌نویس‌ها](https://learning.oreilly.com/library/view/deep-learning-for/9781492045519/) با استفاده از [fast.ai](https://www.fast.ai/) و پایتورچ را با همکاری جرمی هاوارد نگاشته است. تمرکز اصلی تحقیقات وی بر دسترس‌پذیرتر کردن یادگیری عمیق است. او برای این کار از طراحی و پیش‌برد شیوه‌هایی استفاده می‌کند که امکان یادگیری سریع با منابع محدود را برای مدل‌ها پدید می‌آورد.
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Issue 1.

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

"the transformers library" -> "the Hugging Face transformers library"

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

We need to include the original spelling of Jeremy Howard's name.

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

This sentence does not make sense to me in Persian. I think we should come up with a better replacement.
او برای این کار از طراحی و پیش‌برد شیوه‌هایی استفاده می‌کند

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Issue 3.


**مروه نویان** (Merve Noyan) توسعه‌ی دهنده در هاگینگ‌فِیس است و بر روی توسعه‌ی ابزارها و تولید محتوا برای آن‌ها کار می‌کند. هدف او دسترس‌پذیر کردن یادگیری ماشین برای همگان است.
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Issue 3.


**لوسیله ساولنیر** (Lucile Saulnier) مهندس یادگیری ماشین در هاگینگ‌فِیس است و بر روی توسعه و پشتیبانی از ابزارهای متن‌باز تمرکز دارد. وی همچنین بصورت فعالانه‌ای در بسیاری از پروژهای تحقیقاتی در حوزه پردازش زبان طبیعی، مانند یادگیری مشارکتی و بیگ‌ساینس مشارکت دارد.
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Issues 2 & 3.

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Please add your equivalent for collaborative learning to G.


**لویس تونستال** (Lewis Tunstall) مهندس یادگیری ماشین در هاگینگ‌فِیس است. تمرکز اصلی او توسعه‌ی ابزارهای متن باز و دسترس‌پذیر کردن آنها برای جامعه‌ی گسترده‌تری از کاربران است. او همچنین نویسنده‌ی همکار [کتاب انتشارات O’Reilly درباره‌ی ترنسفورمرها](https://www.oreilly.com/library/view/natural-language-processing/9781098103231/) است.
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Issue 3.

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

I propose "فلانی از نویسندگان فلان است" for co-author. Neither نویسنده مشترک nor نویسنده همکار nor هم-نویسنده sound Persian to me.


**لئاندرو ون ورا** (Leandro von Werra) مهندس یادگیری ماشین در تیم متن‌باز هاگینگ‌فِیس و هم-نویسنده‌ی [کتاب انتشارات O’Reilly درباره‌ی ترنسفورمرها](https://www.oreilly.com/library/view/natural-language-processing/9781098103231/) است. وی تجربه‌ی چندین سال کار در صنعت را دارد. او با کار در تمام جنبه‌های یادگیری ماشین، پروژه‌های متن‌باز را از مرحله‌ی تحقیق به استقرار در صنایع می‌رساند.
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Issue 3.

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Same as above for co-author.

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

I propose کتابی در مراحل نشر instead of کتاب to stress the fact that this book is not yet published. The is present in the original text.

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Please transliterate O'Reilly with diacritics and move the original spelling to a footnote.

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

the book is alredy published.

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

the book is alredy published.

It is, you're right. I could've sworn I saw the word "upcoming" when doing the review, but can't find it now! I was wrong.


آماده‌ی ورود به این دوره هستید؟ در این فصل شما می‌آموزید که:

* چگونه می‌توان از تابع `()pipeline` برای حل مسائل پردازش زبان طبیعی مانند تولید متن و دسته‌بندی استفاده کرد.
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

(T/point13)

Also with function names that include ellipses you need to surround them with
      a SPAN. i.e. <span dir="ltr">pipeline()</span>
      These are stopgap measures for the preview to render correctly.

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Issue 2.

* معماری ترنسفورمرها چگونه است.
* چگونه معماری‌های مختلف انکودر، دیکودر و انکودر-دیکودر را از یکدیگر تشخصی داد و کاربردهای آن‌ها در چیست.
</div>
21 changes: 21 additions & 0 deletions chapters/fa/chapter1/2.mdx
Original file line number Diff line number Diff line change
@@ -0,0 +1,21 @@
# پردازش زبان طبیعی

قبل از اینکه به سراغ مدل‌های ترنسفومر برویم، بیایید نگاهی سریع بیاندازیم به اینکه پردازش زبان طبیعی چیست و چرا برای ما حائز اهمیت است.

## پردازش زبان طبیعی چیست؟
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Issue 2.


پردازش زبان طبیعی زیرشاخه‌ای از زبان‌شناسی و یادگیری ماشین است که تمرکز آن بر درک همه‌ی جوانب زبان انسان‌ها است. هدف مسائل صرفا درک کلمات بصورت مجزا نیست، بلکه جمله، متن و در مجموع‌ زمینه‌ای است که آن کلمه در آن به کار رفته است.
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Issue 2.


مسائل متداول پردازش زبان طبیعی بهمراه برخی مثال‌های آن را در این لیست می‌بینید:
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Issue 2.


- **دسته‌بندی جملات**: دریافت احساس یک نظر، تشخیص هرزنامه بودن یک ایمیل، تشخیص اینکه آیا یک جمله از لحاظ دستور زبانی صحیح است یا نه و اینکه آیا دو جمله منطقا به یکدیگر مرتبط هستند یا نه.
- **دسته‌بندی هر کلمه داخل یک جمله**:‌ تشخیص اجزای مختلف دستور زبان در یک جمله (اسم، فعل، صفت) و یا موجودیت‌های نامدار (شخص، موقعیت، سازمان).
- **تولید محتوای متنی**:‌ تکمیل یک متن اولیه‌ی ارائه شده متن اولیه‌ی پرامپت با متن تولید شده به صورت خودکار و یا تکمیل متنی که تعدادی از کلمات آن پوشانده‌ شده‌اند.
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

(T/point10) I propose dropping Yek.

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

I don't think we should transliterate prompt. I propose "پیام".

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

I propose "تکمیل متنی که جاهای خالی دارد" instead of "تکمیل متنی که تعدادی از کلمات آن پوشانده‌ شده‌اند".

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

I am not sure if پیام is the best equivalent for prompt.

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

I am not sure if پیام is the best equivalent for prompt.

My suggestion. Maybe we can discuss it on the issue page with other collaborators and apply the results back here when/if we come up with a better equivalent.

- **استخراج پاسخ از یک متن**: پاسخ به سوالات با استفاده از اطلاعاتی که در متن زمینه ارائه شده است.
- **تولید متن جدید از یک متن ارائه شده**: ترجمه‌ی متون به دیگر زبان‌ها، خلاصه‌سازی متون.

با این حال پردازش زبان طبیعی صرفا به متون نوشتاری محدود نمی‌شود و برای چالش‌های پیچیده‌ی بسیاری در مسائل تشخیص گفتار و بینایی ماشین راه‌حل ارائه می‌کند. برای نمونه می‌توان از تولید متن از یک فایل صوتی و یا تشریح یک تصویر، نام برد.
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Issue 2.


## چرا چالش‌برانگیز است؟
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

I propose "چرا این مبحث چالش برانگیز است".


کامپیوترها اطلاعات را مانند انسان پردازش نمی‌کنند. برای مثال زمانی که ما جمله‌ای مانند من گرسنه هستم را می‌خوانیم، به سادگی معنای آن را متوجه می‌شویم. همچنین زمانی که دو جمله‌ مانند من گرسنه هستم و من ناراحت هستم را می‌خوانیم، بسادگی می‌توانیم تشخیص دهیم که به چه میزان این دو جمله با یکدیگر تشابه دارند. برای مدل‌های یادگیری ماشین، چنین مسائلی به مراتب سخت‌تر است. متن باید به ‌شیوه‌ای پردازش شود که به مدل امکان یادگیری از آن را بدهد. و با توجه به اینکه زبان پیچیده است، باید در پیاده‌سازی این مدل‌ها بسیار دقت کنیم. تحقیقات بسیاری انجام شده است تا نشان دهند چگونه می‌توان متن را توسط کامپیوتر بیان کرد. در فصل بعدی به برخی از این شیوه‌ها نگاهی میاندازیم.
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

I propose "چگونه می‌توان متن در کامپیوترها مدل کرد" instead of "چگونه می‌توان متن را توسط کامپیوتر بیان کرد".

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

I added the missing را

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

I added the missing را

I saw represent on a page in chapter 2 and actually بیان کردن worked really well there, so thank you for this word. I still think when I read it here, it sounds to me like "How do we get the computer to speak the text" but defer to you on this.