-
Notifications
You must be signed in to change notification settings - Fork 771
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[FA] CH1 / P1-2 #142
[FA] CH1 / P1-2 #142
Changes from 1 commit
18d7912
8065a40
78e31ed
02e9a3a
f513fa9
e67310f
457c25b
5a3e725
77bb88e
1a07f04
File filter
Filter by extension
Conversations
Jump to
Diff view
Diff view
There are no files selected for viewing
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -1,7 +1,55 @@ | ||
<div dir="rtl"> | ||
# مقدمه | ||
|
||
## به دورهی آموزشی هاگینگفِیس خوش آمدید | ||
|
||
به دورهی آموزشی هاگینگفیس خوش آمدید! | ||
<Youtube id="00GKzGyWFEs" /> | ||
|
||
در این دورهی آموزشی، پردازش زبان طبیعی را با استفاده از کتابخانههای اکوسیستم [هاگینگفِیس](https://huggingface.co/) یعنی [Transformers](https://github.com/huggingface/transformers), [Dataset](https://github.com/huggingface/datasets), [Tokenizer](https://github.com/huggingface/tokenizers), [Accelerate](https://github.com/huggingface/accelerate) و همچنین [هاب هاگینگفِیس](https://huggingface.co/models) میآموزید. این دوره کاملا رایگان و بدون تبلیغات است. | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. The names of Datasets and Tokenizers is missing an s at the end. There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Please add footnote to introduce the acronym NLP. |
||
|
||
## در این دوره چه چیزهایی را میآموزیم؟ | ||
|
||
دید کلی کوتاه از مباحث این دورهی آموزشی: | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Same as above. |
||
|
||
<div class="flex justify-center"> | ||
<img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/summary.svg" alt="دید کلی کوتاه از مباحث این دورهی آموزشی"> | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Thanks for changing the alt on these links. I don't know if I did this on my pages, will check to fix this there if I missed it. |
||
<img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/summary-dark.svg" alt="دید کلی کوتاه از مباحث این دورهی آموزشی"> | ||
</div> | ||
|
||
|
||
- از فصل ۱ تا ۴ مقدمهای از مباحث پایهای کتابخانهی ترنسفورمرز هاگینگفِیس ارائه میشود. در پایان این فصل، شما با شیوهی عملکرد مدلهای ترنسفومر آشنا میشوید و میآموزید که چگونه از یک مدل در [هاب هاگینگفِیس](https://huggingface.co/models) استفاده کنید، آن را برای مجموعه داده خود fine-tune کنید و نتایج خود را در هاب به اشتراک بگذارید. | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. I propose کوک کنیم instead of fine-tune per @hamedonline 's suggestion. Whatever we do let's not transliterate. |
||
- در فصلهای ۵ تا ۸، اصول پایهی کتابخانههای Dataset و Tokenizer، پیش از آن که وارد مسائل کلاسیک پردازش زبان طبیعی شویم، آموزش داده میشوند. در پایان این فصول، قادر خواهید بود مسائل متداول پردازش زبان طبیعی را به تنهایی حل کنید. | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Missing S in library names. There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. NLP is an industry-accepted acronym(Both G and T/point2) and knowledge of it is essential. I think you are erasing that knowledge by not exposing the reader to it. NLP is referenced on this page 9 times, and you chose to expand all of them. These are the beginning pages of this course. Cool thing the original text did was, to introduce the association btw the expanded form and the acronym in its first use and then go with the acronym from there on. It did this intentionally, and this is information that is lost here. My suggestion would be for us to do the same: translate expanded form with the acronym in footnotes(not ellipses, please see point 4 in this comment in our previous review of @hamedonline's PR and point 2 in this comment in our previous discussions on the issue page), for the first use on this page, and use the acronym from there on, except in cases where the source material uses the expanded form. On page 2 this is done again, tactfully in another way. It first mentions the expanded form, and since the reader already knows that there is an acronym, immediately switches to using it in the following section title--reinforcing that association. Again there we should do what the source material does bc it is intentional. This will be Issue 2 for the rest of this review. |
||
- فصلهای ۹ تا ۱۲ به مباحث فراتر از پردازش زبان طبیعی و استفاده از مدلهای ترنسفورمر برای حل مسائل پردازش گفتار و بینایی ماشین میپردازند. در طی این مسیر، فرا میگیرید که چگونه مدلی جدید ساخته، دمویی از آن را عرضه کرده و برای محیط استقرار نرمافزار بهینهاش کنید. در پایان این فصل، آمادهی استفاده از ترنسفورمرهای هاگینگفِیس برای (تقریبا) همه مسائل یادگیری ماشین خواهید بود. | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. I propose "نمونه اولیه" for "demo". New word, please include update to G. There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Issue 2. |
||
|
||
این دورهی آموزشی: | ||
|
||
* به سطح خوبی از دانش پایتون نیاز دارد. | ||
* بهتر است پس از یک دورهی آموزشی آشنایی با یادگیری عمیق، مانند دورهی آموزشی یادگیری عمیق عملی برای برنامهنویسها از [fast.ai](https://www.fast.ai/) و یا یکی از برنامههای توسعه داده شده توسط [DeepLearning.AI](https://www.deeplearning.ai/)، دنبال شود. | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Issue 1. There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Your equivalent for "program" here already has strong software connotations for our readers in Persian. Same as your equivalent for the verb "developed", the entry in G for which(the technical sense of it) is your suggestion. None of these two are used in the technical sense of "developing a computer program" here. I propose a replacement for this sentence along the lines of "یکی از دورههای ارائه شده توسط فلان". There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Please include the link in the original text for یادگیری عمیق عملی برای برنامهنویسها |
||
* نیازمند دانش پیشین [پایتورچ](https://pytorch.org/) یا [تنسورفلو](https://www.tensorflow.org/) نیست، با این حال آشنایی با هر کدام از آنها میتواند کمککننده باشد. | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Please include the diacritics for "tensorflow"(T/point16) |
||
|
||
پس از اینکه این دورهی آموزشی را به پایان رساندید، توصیه میکنیم نگاهی به [دورهی آموزشی تخصصی پردازش زبان طبیعی](https://www.coursera.org/specializations/natural-language-processing) که توسط [DeepLearning.AI](https://www.deeplearning.ai/) ارائه شده است، بیاندازید. این دوره، بخش اعظمی از مدلهای سنتی پردازش زبان طبیعی مانند دستهبندیکننده بیز ساده و LSTMها را شامل میشود که شناخت آنها ارزشمند است. | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Please include updates to G for your equivalents of "Classifier" and "Naive Bayes". Also LSTM in the acronyms section in G. There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Issue 2 (not in name of the DL course). |
||
|
||
## ما چه کسانی هستیم؟ | ||
|
||
درباره نویسندگان: | ||
|
||
**متیو کاریگن** (Matthew Carrigan) مهندس یادگیری ماشین در هاگینگفِیس است. او در دوبلین ایرلند زندگی میکند و پیشتر بعنوان مهندس یادگیری ماشین در [Parse.ly](https://www.parse.ly/) مشغول به کار بوده است. او دورهی تحقیقات پست دکترای خود را در کالج ترینیتی دوبلین به پایان رسانده است. به عقیدهی وی هوش جامع مصنوعی (AGI) با افزایش مقیاس معماریهای فعلی حاصل نخواهد شد، با این حال او امید بسیاری به جاودانگی روباتها دارد. | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. I propose using پسادکترا instead of پستدکترا which is an equivalent I've heard in Persian. There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Would you consider AGI an industry-accepted acronym? If so T/point2 applies. There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. I propose "جاودانگی انسان در قالب رباتی" for "robot immortality". I think it refers to hosting human consciousness in machine form and thus making it immortal. He is saying that the idea of us creating AGI by advancing in our current conception of AI is misguided and a revolutionary step-change is needed. But by transferring our consciousness to machines we can achieve immortality. This happening is analogous to us having created AGI. There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Please move the original spelling of the name to a footnote(per point 4 in this comment in our previous review of @hamedonline's PR and point 2 in this comment in our previous discussions on the issue page). This will be Issue 3 from now on in this review. |
||
|
||
**لیسندره دبوت** (Lysandre Debut) مهندس یادگیری ماشین در هاگینگفِیس است و از ابتدا، بر روی کتابخانهی ترنفسورمرها کار کرده است. هدف او دسترسپذیر کردن پردازش زبان طبیعی برای همگان با توسعه ابزارهایی با یک API بسیار ساده است. | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. T/point10. I propose dropping "YEK". Sentence works without it. There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. "the transformers library" -> "the Hugging Face transformers library" There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Issues 2 & 3. |
||
|
||
**سیلوین گوجر** (Sylvain Gugger) مهندس محقق در هاگینگفِیس است و از هستهی تیم مدیریتکنندگان کتابخانهی ترنسفورمرها محسوب میشود. او قبلتر مهندس محقق در fast.ai بود و [کتاب یادگیری عمیق عملی برای برنامهنویسها](https://learning.oreilly.com/library/view/deep-learning-for/9781492045519/) با استفاده از [fast.ai](https://www.fast.ai/) و پایتورچ را با همکاری جرمی هاوارد نگاشته است. تمرکز اصلی تحقیقات وی بر دسترسپذیرتر کردن یادگیری عمیق است. او برای این کار از طراحی و پیشبرد شیوههایی استفاده میکند که امکان یادگیری سریع با منابع محدود را برای مدلها پدید میآورد. | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Issue 1. There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. "the transformers library" -> "the Hugging Face transformers library" There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. We need to include the original spelling of Jeremy Howard's name. There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. This sentence does not make sense to me in Persian. I think we should come up with a better replacement. There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Issue 3. |
||
|
||
**مروه نویان** (Merve Noyan) توسعهی دهنده در هاگینگفِیس است و بر روی توسعهی ابزارها و تولید محتوا برای آنها کار میکند. هدف او دسترسپذیر کردن یادگیری ماشین برای همگان است. | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Issue 3. |
||
|
||
**لوسیله ساولنیر** (Lucile Saulnier) مهندس یادگیری ماشین در هاگینگفِیس است و بر روی توسعه و پشتیبانی از ابزارهای متنباز تمرکز دارد. وی همچنین بصورت فعالانهای در بسیاری از پروژهای تحقیقاتی در حوزه پردازش زبان طبیعی، مانند یادگیری مشارکتی و بیگساینس مشارکت دارد. | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Issues 2 & 3. There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Please add your equivalent for collaborative learning to G. |
||
|
||
**لویس تونستال** (Lewis Tunstall) مهندس یادگیری ماشین در هاگینگفِیس است. تمرکز اصلی او توسعهی ابزارهای متن باز و دسترسپذیر کردن آنها برای جامعهی گستردهتری از کاربران است. او همچنین نویسندهی همکار [کتاب انتشارات O’Reilly دربارهی ترنسفورمرها](https://www.oreilly.com/library/view/natural-language-processing/9781098103231/) است. | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Issue 3. There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. I propose "فلانی از نویسندگان فلان است" for co-author. Neither نویسنده مشترک nor نویسنده همکار nor هم-نویسنده sound Persian to me. |
||
|
||
**لئاندرو ون ورا** (Leandro von Werra) مهندس یادگیری ماشین در تیم متنباز هاگینگفِیس و هم-نویسندهی [کتاب انتشارات O’Reilly دربارهی ترنسفورمرها](https://www.oreilly.com/library/view/natural-language-processing/9781098103231/) است. وی تجربهی چندین سال کار در صنعت را دارد. او با کار در تمام جنبههای یادگیری ماشین، پروژههای متنباز را از مرحلهی تحقیق به استقرار در صنایع میرساند. | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Issue 3. There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Same as above for co-author. There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. I propose کتابی در مراحل نشر instead of کتاب to stress the fact that this book is not yet published. The is present in the original text. There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Please transliterate O'Reilly with diacritics and move the original spelling to a footnote. There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. the book is alredy published. There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more.
It is, you're right. I could've sworn I saw the word "upcoming" when doing the review, but can't find it now! I was wrong. |
||
|
||
آمادهی ورود به این دوره هستید؟ در این فصل شما میآموزید که: | ||
|
||
* چگونه میتوان از تابع `()pipeline` برای حل مسائل پردازش زبان طبیعی مانند تولید متن و دستهبندی استفاده کرد. | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. (T/point13)
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Issue 2. |
||
* معماری ترنسفورمرها چگونه است. | ||
* چگونه معماریهای مختلف انکودر، دیکودر و انکودر-دیکودر را از یکدیگر تشخصی داد و کاربردهای آنها در چیست. | ||
</div> |
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,21 @@ | ||
# پردازش زبان طبیعی | ||
|
||
قبل از اینکه به سراغ مدلهای ترنسفومر برویم، بیایید نگاهی سریع بیاندازیم به اینکه پردازش زبان طبیعی چیست و چرا برای ما حائز اهمیت است. | ||
|
||
## پردازش زبان طبیعی چیست؟ | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Issue 2. |
||
|
||
پردازش زبان طبیعی زیرشاخهای از زبانشناسی و یادگیری ماشین است که تمرکز آن بر درک همهی جوانب زبان انسانها است. هدف مسائل صرفا درک کلمات بصورت مجزا نیست، بلکه جمله، متن و در مجموع زمینهای است که آن کلمه در آن به کار رفته است. | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Issue 2. |
||
|
||
مسائل متداول پردازش زبان طبیعی بهمراه برخی مثالهای آن را در این لیست میبینید: | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Issue 2. |
||
|
||
- **دستهبندی جملات**: دریافت احساس یک نظر، تشخیص هرزنامه بودن یک ایمیل، تشخیص اینکه آیا یک جمله از لحاظ دستور زبانی صحیح است یا نه و اینکه آیا دو جمله منطقا به یکدیگر مرتبط هستند یا نه. | ||
- **دستهبندی هر کلمه داخل یک جمله**: تشخیص اجزای مختلف دستور زبان در یک جمله (اسم، فعل، صفت) و یا موجودیتهای نامدار (شخص، موقعیت، سازمان). | ||
- **تولید محتوای متنی**: تکمیل یک متن اولیهی ارائه شده متن اولیهی پرامپت با متن تولید شده به صورت خودکار و یا تکمیل متنی که تعدادی از کلمات آن پوشانده شدهاند. | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. (T/point10) I propose dropping Yek. There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. I don't think we should transliterate prompt. I propose "پیام". There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. I propose "تکمیل متنی که جاهای خالی دارد" instead of "تکمیل متنی که تعدادی از کلمات آن پوشانده شدهاند". There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. I am not sure if پیام is the best equivalent for prompt. There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more.
My suggestion. Maybe we can discuss it on the issue page with other collaborators and apply the results back here when/if we come up with a better equivalent. |
||
- **استخراج پاسخ از یک متن**: پاسخ به سوالات با استفاده از اطلاعاتی که در متن زمینه ارائه شده است. | ||
- **تولید متن جدید از یک متن ارائه شده**: ترجمهی متون به دیگر زبانها، خلاصهسازی متون. | ||
|
||
با این حال پردازش زبان طبیعی صرفا به متون نوشتاری محدود نمیشود و برای چالشهای پیچیدهی بسیاری در مسائل تشخیص گفتار و بینایی ماشین راهحل ارائه میکند. برای نمونه میتوان از تولید متن از یک فایل صوتی و یا تشریح یک تصویر، نام برد. | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Issue 2. |
||
|
||
## چرا چالشبرانگیز است؟ | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. I propose "چرا این مبحث چالش برانگیز است". |
||
|
||
کامپیوترها اطلاعات را مانند انسان پردازش نمیکنند. برای مثال زمانی که ما جملهای مانند من گرسنه هستم را میخوانیم، به سادگی معنای آن را متوجه میشویم. همچنین زمانی که دو جمله مانند من گرسنه هستم و من ناراحت هستم را میخوانیم، بسادگی میتوانیم تشخیص دهیم که به چه میزان این دو جمله با یکدیگر تشابه دارند. برای مدلهای یادگیری ماشین، چنین مسائلی به مراتب سختتر است. متن باید به شیوهای پردازش شود که به مدل امکان یادگیری از آن را بدهد. و با توجه به اینکه زبان پیچیده است، باید در پیادهسازی این مدلها بسیار دقت کنیم. تحقیقات بسیاری انجام شده است تا نشان دهند چگونه میتوان متن را توسط کامپیوتر بیان کرد. در فصل بعدی به برخی از این شیوهها نگاهی میاندازیم. | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. I propose "چگونه میتوان متن در کامپیوترها مدل کرد" instead of "چگونه میتوان متن را توسط کامپیوتر بیان کرد". There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. I added the missing را There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more.
I saw represent on a page in chapter 2 and actually بیان کردن worked really well there, so thank you for this word. I still think when I read it here, it sounds to me like "How do we get the computer to speak the text" but defer to you on this. |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
T/point1: we deviate from the glossary here and use 'ء' instead of 'ی' as a possessive suffix. This should be "دوره آموزشی"
Will call this Issue 1 for the rest of this review.