-
Notifications
You must be signed in to change notification settings - Fork 12
/
Copy pathcomp_linguistics.cs.OSt
1098 lines (1098 loc) · 81.9 KB
/
comp_linguistics.cs.OSt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
Ještě na tady ten horní?
No, mám ho nijak zapnout víc?
Tak.
Jo.
Klepu teďka na mikrofon, co mám na hlavě.
A teďka klepu na mikrofon, co mám na triku.
Na vlastní triko.
Můžu?
No.
Tady narazim na první problém, jak přeložit biases do češtiny.
Já jsem to vlastně ještě nikdy česky neříkal.
Nicméně stačí asi, když to nazvu úskalí vyhodnocování strojového překladu.
Tuto prezentaci jsem si připravoval velmi narychlo, jak je patrno z osnovy.
A bylo to pro účel vlastně workshopu, na... který se zaměřoval na překlad, na vyhodnocování překladu zejména po celých dokumentech, tedy dokument level MT evaluation.
To je jedno z témat, kterým se chci věnovat.
Ale úplně na začátku bych vlastně ještě než se dostanu k vyhodnocování strojového překladu, tak ukážu takovou vlastně myšlenku.
Vůbec problém, problémech strojového překladu samotného, nebo vlastně i ještě předtím, i problémech lidského překladu.
Co svaz-
Co jsou vlastně ty kvality, které chceme sledovat?
A potom se dostanou i k té otázce překladu celých dokumentů a jednomu tématu, kterému jsem se věnoval a to je adaptace na doménu a Translationese.
Což teda překládám jako Překladština - jazyk, který už je vlastně překladem, a jak to ovlivňuje strojový překlad a jeho vyhodnocování.
Takže začnu.
Tradičně při vyhodnocování strojového nebo vůbec překladu obecně se rozlišují dvě, dvě dimenze té kvality.
Jedna se anglicky nazývá tradičně fluency, tedy asi řekněme plynulost toho překladu, jak dobře to zní v tom cílovém jazyce, bez ohledu na to, co byla ta zdrojová věta, co bylo to ten význam.
A druhá dimenze adequacy čili věrohodnost nebo adekvátnost a jak to zachovává význam toho překladu.
A co tady chci ilustrovat na tom obrázku je, že ne vždycky můžeme dosáhnout stoprocentní kvality v obou dvou těchto dimenzích.
Jsou případy, kdy si překladatel musí vybrat.
Myslím i profesionální překladatelé, který má dost času se nad tím zamyslet.
Musí si vybrat, jestli zachová spíš ten význam té původní věty velmi věrně.
Anebo jestli to bude znít dobře v tom cílovém jazyce, tak jak by se to přirozeně řeklo.
Takže v překladu vlastně jakoby pro některé věty, alespoň tato oblast, řekněme, nedosažitelná i kdyby se nad tím přemýšlelo prostě dlouho.
Další samozřejmě věc je, že ne, ne, vždycky se nad tím zamyslím dostatečně, nebo nejsem dostatečně vzdělaný překladatel, takže jako mám horší kvalitu překladu.
Ale tady chci vůbec jako ilustrovat to, co je dosažitelné.
Je zajímavé si uvědomit, že tento problém vzniká i úplně bez překladu.
Jenom když mluvím jako teďka ve svém rodném jazyce, tak se mi taky vždycky nepodaří říct přesně to, co jsem měl v hlavě buďto anebo to neřeknu úplně tak správně, jak by se to mělo česky říkat.
Takže vlastně tady jako ilustraci, mám nějakou myšlenku, nějaký záměr, ten vlastně překládám do češtiny, do svého rodného jazyka.
A to potom se překládá v tomto případě strojově do angličtiny.
A tady je vlastně oblast, kde ani já třeba nevyjádřím ve svém rodném jazyce to, co jsem přesně chtěl.
Nebo není to tak plynulé, jak by mělo být.
Proč o tom tady mluvím?
Vrátím se k tomu při vyhodnocování strojového překladu bude otázka, zda ten překlad máme s čím ho máme porovnávat?
Jestli ho máme porovnávat s tím, co bylo ve zdrojovém jazyce vyřčeno, nebo napsáno nebo s tím, co předpokládáme, že byl ten záměr když jsem to říkal.
A občas, prostě je tady mezitím rozpor.
A pak je otázka, jestli, když třeba ten strojový překlad opraví nějakou neplynulost nebo špatnej význam co jsem řekl, jestli je to vlastně správný překlad, nebo se to má posuzovat jako chyba.
Další takové dvě dimenze jsou, jestli chceme když, i když mluvíme o té adekvátnosti, věrohodnosti, jestli chceme porovnávat sémantiku nebo pragmatiku.
Já to uvedu na příkladu, který je opravdu skutečně z dat WMT dva tisíce osmnáct, kde v angličtině byla věta "I am not going to worry too much about it".
Překlad byl od, referenční překlad, tedy od lidského překladatele, myslím, že v češtině to bylo "Věřím, že všechno bude v pořádku".
No, teďka, když se na to podíváte, tak vlastně, když se nad tím zamyslíme, tak se jedná o dvě různé skutečnosti.
Buďto věřím, že všechno bude v pořádku, nebo nevěřím.
A buďto se strachuju o budoucnost, nebo se nestrachuju.
A typicky jako nastává ta situace, že...
Dejme tomu, věřím, že to jednou bude v pořádku.
A nestrachuju se.
Ale.
Anebo nevěřím a strachuju.
Ale jako může nastat i tyto, tyto dva opačné případy.
A teď je otázka, jestli v překladu z té jedné věty to nepoznáme, která si, o kterou situaci se jednalo.
Ale když bychom se koukli do celého dokumentu, tak třeba určíme, že opravdu to byla ta typická situace, že ten, kdo to říkal, se nestrachoval o tu budoucnost nebo o tu danou věc.
A zároveň věřil, že to bude v pořádku.
V tom případě pragmaticky, z pragmatického hlediska je ten překlad správný.
Ale pořád si myslím, že sémantiky té věty ten překlad není správný.
Protože by se to v češtině dalo krásně přeložit dejme tomu, nehodlám se strachovat o to, jak to dopadne, nebo o danou věc a tak podobně.
Zrovna v daném případě, v daném dokumentu se mi z toho celého dokumentu ani nepodařil určit, jestli o kterou z těhletěch případů se jedná.
Takže mi přijde, že ten vlastně nerozumím tomu, proč to bylo přeloženo tak jak bylo.
Hodnotil bych to jako chybu.
Tak teďka se teda konečně dostanu k otázce, nebo k otázce vyhodnocování strojového překladu a zatím vyhodnocování ručního manuálního.
Tedy, když lidé hodnotí, který překlad se jim líbí víc.
Jedna dimenze, podle které můžeme rozlišovat evaluaci je, zda se těm anotátorům, těm lidem, co to hodnotí, ukazuje pouze-
Ukazuje se jim samozřejmě ta daná věta, kterou mají hodnotit její kvalitu, přeložená.
A potom se může ukázat buďto jenom referenční překlad od tak, jak to přeložil dejme tomu profesionální překladatel, nebo se jim ukáže pouze ta zdrojová věta.
Takže dejme tomu při tom anglicko-českém překladu se jim krom toho českého překladu ukáže ještě ten anglický originál.
Anebo v tom třetím případě se jim ukáže obojí a mohou si vybrat.
No.
Všechny tyto tři možnosti mají nějaká svoje úskalí.
A nějakým způsobem ovlivní to, co nám potom vyjde.
Jestli nám vyjde systém A, že je lepší než systém B a podobně.
V tom případě reference based, kdy se ukazuje referenční překlad pouze je samozřejmě problémem, že ti lidé nemohou pořádně poznat, jestli ten překlad je adekvátní vůči, věrohodný, vůči tomu zdroji, který nevidí, pouze určí podobnost s významem toho referenčního překladu.
A jak už jsem ukazoval, ten překladatel, toho referenčního překladu si musel vybrat.
Třeba si vybral vyšší, větší plynulost a není to úplně ten referenční překlad není úplně věrohodný.
Anebo tam nebo prostě je tam nějaká překladová chyba už v té referenci.
I to se samozřejmě stává i u profesionálních překladatelů.
A potom i velmi dobrý strojový překlad může být hodnocen jako špatný, protože není podobný té referenci.
U toho, když se ukazuje pouze ta zdrojová věta, tak to zase je velký nárok na na ty hodnotitelé, na ty anotátory, aby uměli dobře oba dva jazyky, zdrojový i cílový.
Dejme tomu angličtinu i češtinu.
A opravdu se nad tím zamysleli.
Při tom, když ukazujeme oba dva obě dvě věty, tak vlastně nastávají svým způsobem oba dva problémy.
A ještě třetí problém, že nevíme, na co se ty hodnotitelé dívali.
Jako někdo se díval jenom na zdroj.
Někdo jenom na tu referenci.
Někdo jednou na to je podruhé na ono.
Další dimenze.
Vlastně typologie těch vyhodnocovacích metrik je, jestli úkolem je seřadit několik překladů.
Dejme tomu, máme jednu větu a pomocí pěti překladačů přeloženou tak, že máme pět různých překladů té samé věty.
A máme je setřídit v žebříčku.
Tomu se říká "relative ranking" od jedničky do pětky, většinou jsou tam povolené i remízy.
Druhá metoda, které se říká "direct assesment" je, že vidíme pouze jeden překlad a máme mu přidělit skóre dejme tomu od nuly do jedničky jako reálné číslo.
A třetí metoda, která kombinuje bývá nazvána různě.
Tady jsem použil název kolegy Ondřeje Duška "rank based magnitude estimation", kdy vidím pořád několik různých překladů, porovnávám je tedy relativně vůči sobě, ale zároveň není úkolem jenom je setřídit, ale zároveň je úkolem každému přiřadit nějaké skóre zase jako reálné číslo.
Nejlíp to...
Jo.
Za chvíli to ještě ukážu na příkladech, tam to bude asi nejlépe vidět.
A třetí dimenze.
Jestli hodnotíme jednotlivé věty sentence based nebo sentence level evaluation.
Nebo jestli hodnotíme celé dokumenty.
Ale to, čemu tady říkám document level je, že se každému překladu celého dokumentu přiřadí jedno skóre.
Takže přestože některé věty byly přeložené, dobře, některé špatně, já si to musím v hlavě nějak zprůměrovat a přiřadit jenom jedno skóre celému překladu.
A to, co nazývám document aware je, že ukážeme celý dokument tak jak ty věty tam jsou postupně, ale chceme, aby anotátoři hodnotili, přiřadili skóre ke každé větě.
Tak teďka ty příklady.
Takto vypadala v letech dva tisíce deset až dva tisíce šestnáct ruční evaluace v share tasku v soutěži WMT.
Kdy bylo tady jak jsem říkal, pět různých překladů od pěti různých překladových systémů.
Možná někteří z nich byl i lidský.
Ukazovala se tady zdrojová věta.
V tomto případě se věnuje česko-anglický překlad tak, že zdroj je v češtině.
Reference je v angličtině.
Takže.
A bylo to pouze jednotlivé věty.
Když jsem všechno ohodnotil, tak jsem tady někde klikl dál.
A na další obrazovce se ukázala nějaká úplně jiná věta z úplně jiného dokumentu.
Možná někdy jako po...dejme tomu, za tři dny jsem zase viděl větu ze stejného dokumentu, ale už jsem si to asi nespojil dohromady.
To jsem vlastně o tom nemluvil, ale nevýhoda nebo toho, když se hodnotí po jednotlivých větách, je, že občas z té jedné věty opravdu nemůžeme poznat ani tu adekvátnost, věrohodnost a ani tu plynulost pořádně.
Nemůžeme jí zhodnotit.
Potřebovali bychom vidět celý dokument, abychom to mohli správně zhodnotit.
Tak tady je vidět příklad z loňského ročníku, posledního ročníku, kdy jako jedna z úloh se zkoušelo i hodnotit kvalitu, teda celých překladů, celých dokumentů.
A jak vidíte, ten dokument může být velmi dlouhý.
Tohleto není ten nejdelší z nich.
A já jsem vlastně tady měl celou celý tento překlad zhodnotit na škále prostě od nuly do sta procent.
Je tady...
Mohl jsem tady ten posuvník, slider, nastavit na jakékoli na jakoukoliv pozici.
V praxi myslím, že to bylo sto různých pozic možných.
A samozřejmě, problém je, že je to velmi těžké nějak jako takhle zhodnotit kvalitu všech těch vět, dát to do jednoho čísla.
Zároveň se loni zkoušela možnost, kdy, kterou tady nazývám pseudo document aware, kdy se ukázaly, ukazovaly se stále jednotlivé věty.
Používal se tady ten Direct Assesment, tedy vidím jenom jeden překlad.
Nevidím žádné alternativní překlady, určuju zase to skóre od nuly do sta procent.
Ale ty věty následovaly po sobě, jak, jak jdou v tom dokumentu.
Ovšem proč tomu říkám pseudo?
Protože anotátoři neměli možnost vrátit se k těm minulým větám.
Nebylo tam žádné tlačítko zpět.
Neviděli ani ty budoucí věty.
Takže jako pouze to, co jsem si zapamatoval, že jsem viděl v těch předchozích větách, jsem mohl použít jako ten kontext dokumentový.
To mi přijde velmi nedostatečné.
Protože občas, když jsem si tu evaluaci zkoušel, tak jsem opravdu nebyl schopen, někdy jsem si říkal, potřeboval vědět, co bude za tím, nebo už jsem zapomněl, co bylo předtím.
Ani jsem nemohl vlastně změnit to svoje rozhodnutí.
Třeba jsem u následující věty zjistil, že ten původní překlad vlastně byl mnohem lepší, než jak jsem ho hodnotil.
Ale už jsem to nemohl změnit.
Tak proto pseudo.
A tady třetí příklad.
Toto je evaluace, kterou jsem organizoval já.
Najali jsme několik anotátořů jak profesionálních překladatelů, tak i někteří z vás nebo vaši kolegové.
A toto je to, co bych nazval tím skutečným document aware.
Teda dokument hodnocení celých, že vidím celý dokument tady v tom sloupečku jsou všechny věty toho zdrojového dokumentu, v tomto případě v angličtině tady vidím dva české překlady od dvou systémů.
Ve skutečnosti, v tomto experimentu jsem testoval jeden ten systém byl můj systém neuronového překladu Transformer.
Druhý systém byl ve skutečnosti lidský překlad referenční.
A anotátoři měli doplnit tyto tři a tyto tři sloupečky, kde jsem je nechal, aby zvlášť ukaž ke každé větě zhodnotili celkovou kvalitu.
A potom adequacy a fluency tedy věrohodnost a plynulost této věty.
A stejně tak pro ten druhý překlad.
Ale součástí zadání bylo, že mají zohlednit kontext celého dokumentu.
To znamená, jak toho zdrojového tak viděli i předcházející a následující věty v tom daném překladu.
Volitelně mohli anotátoři doplnit nějakou poznámku.
Hodláme ty data vydat veřejně.
Takže kdyby to někdo chtěl dále zpracovávat, můžou tam být zajímavé věci.
Tak.
Prosím?
Aha, tak to se ještě domluvíme.
Možná to vydáme bez těch poznámek.
Dobře.
Ano.
Dotazy?
Ano.
Já bych řekl, že hlavní rozdíl, je že naráz vidím celý zdrojový dokument.
Tam ve skutečné a tam jsem viděl vždycky jenom jednu větu.
Prostě viděl snad jednu takhle takhle a nemohl jsem se už jako vracet.
Další velký rozdíl je v tom, že tam jsem viděl jenom jeden překlad a měl jsem moc ho hodnotit od nuly do sta procent tady všechny překladače, které jsem viděl.
Nebo ty systémy.
V tomto případě pouze tyto dva, které jsem chtěl porovnávat, tak vidím vedle sebe.
Takže jako když přiřazují tady skóre.
A potom přiřazuju tady skóre, tak se jako snažím, aby to bylo nějak férově zohledněný.
Pokud bych tenhleten druhý příklad viděl třeba až jako za tři týdny od té samé chvíle tak už si samozřejmě nebudu pamatovat, co jsem tam původně přiřadil za skóre.
Takže to bude naprosto neporovnatelné.
To je vlastně ta moje hlavní výtka k té metodě direct assesment.
Proč preferuju to, abych viděl oba dva ty systémy tak, že buďto relative ranking, nebo v tomto případě rank mean.
A přesně tak.
Ještě opravdu jsem viděl, že anotátoři velmi využívali toho, že to můžou vyhodnocovat v libovolném pořadí.
Takže občas jako nejdřív vyplnili všude adequacy.
Pak všude fluency a velmi často se vraceli a měnili, to vím.
Jednak z toho, že mi to někdo řekl, jednak tedy jsem měl tu možnost tím, že tohleto byly Google dokument, tak jsem to viděl přímo občas reálně, jak jak to zrovna editujou.
Že využívali té možnost, že můžou změnit některá svá rozhodnutí.
Tak nějaké další dotazy nebo?
Ještě k tomu nebo?
Takže tady mám ještě jednou shrnuté ty problémy nebo problémy.
Jsou to prostě úskalí těch jednotlivých typů evaluací, která vedou k tomu, že tam, že to vyhodnocení bude nějakým způsobem zkreslené.
To jako nemusí být vždycky úplně nutně špatně.
Ale je to prostě nějaký vliv.
Nějaké zkreslení bias.
Tady vlastně o tom jsem nemluvil, ale u toho případu, kdy vyhodnocuju celé dokumenty, obbzvlášť pokud jsou ty dokumenty dlouhé.
Jeden problém je samozřejmě v tom, že je to velmi hrubé dát jedno skóre celému dokumentu.
Další problém je psychologického rázu.
Že...
Když vím, že bych jako měl pořádně si přečíst celý ty, všechny ty překlady všech vět, toho dlouhého dokumentu, jak tam byl.
Strávím tím třeba půlhodiny, možná i hodinu, když opravdu...
Někteří anotátoři v tom v té v tomto typu evoluce, opravdu s jedním dokumentem dejme tomu dvacet vět strávili půlhodiny, hodinu, protože opravdu porovnávali velmi pečlivě, jako jaký překlad je lepší a tak dál.
Pokud uvidíte toto, tak asi se vám nebude chtít nad tím strávit jako hodinu, abyste potom v jedné vteřině přeřadili nějaké skóre.
Takže na jednu stranu je to lepší, že teda jako vyhodnotíme víc dokumentů.
Ale všechny budou jako velmi vlastně je otázka, jestli se vůbec můžeme spolehnout na tady to lidské hodnocení.
Jestli podle čeho to vlastně potom ti anotátoři hodnotí.
Já ve skutečnosti, v tomto typu evaluace jsem udělal ještě jednu věc.
Poté, co anotátoři vyhodnotili všechny věty.
Respektive já jsem většinu vybral jenom deset vět z každého dokumentu.
Tak jsem ještě požádal, aby mi dali jedno skóre, které jsem nazval jakoby document level, kde jsou nutili teda opravdu za těch deset vět, jak by je zhodnotil.
Ale bylo to až poté, co byli nuceni ohodnotit každou větu zvlášť.
Tím pádem si myslim, že tam tento psychologický problém nebyl.
Bylo jasné, že jako nad každou tou větou musejí strávit ten čas, protože musí přeložit ty skóre.
Musí si to dobře rozmyslet a teprve poté mají nějak určit to skóre za celý dokument, přičemž nechtěl jsem, aby to ručně průměrovali.
Byl jsem právě zvědavý a je možné to teďka z těch dat vyzkoumat.
Může se samozřejmě stát, že třeba jedna věta tam byla naprosto nejvíc důležitá z celého dokumentu.
A pokud v ní byla chyba, i když v ostatních větách chyba nebyla, tak celý překlad celého dokumentu dostane špatné skóre.
Tak.
Takže to tady vlastně mam.
Je tady otázka, jak?
Pokud nemáme teda skóre překladu celého dokumentu jak ho aproximovat.
A můžeme to na těch mých datech vyzkoušet jestli teda průměr aritmetický, geometrický je tím správným nebo třeba minimum.
Tak ještě vlastně.
To jsem neřekl.
Ale tady v tom mém typu vyhodnocení anotátoři přiřazovali čísla od nuly do desítky.
Potom jsme jim povolili používat i desetinné desetiná čísla.
Ale to nevyužívali moc.
A tady je výsledek tohoto vyhodnocení.
Kde tedy reference je ten lidský překlad a transformer nebo tady v tom případě, ten systém jsme nazvali Kubit.
To je ten můj překlad neuronového strojového překladu.
A pokud bychom to vyhodnocení jenom zjednodušili na to, jestli pro každou větu byl, dostal ten strojový překlad lepší skóre nebo horší skóre a nebo stejné jako lidský.
A nezajímalo nás o kolik lepší.
Tak dostaneme výsledek, že ve čtyřiceti jedna procentech byl ten strojový překlad lepší.
Teďka tady hodnotím tu celkovou kvalitu, kde nerozlišuju plynulost a věrohodnost.
Lidský překlad byl lepší pouze ve třiceti osmi procentech.
A ten zbytek?
Dvacet jedna procent to byli remízi, kdy ta kvalita byla hodnocená jako přesně stejná.
Takže z tohoto bychom mohli usoudit, kdybych viděl pouze tento výsledek, že strojový překlad už překonal kvalitu lidského překladu.
Tady připomínám, že ty reference byly přeložené profesionálním překladatelem, který samozřejmě viděl celý ten dokument.
Stejně tak anotátoři viděli celý ten dokument.
Ovšem když se potom koukneme tady podrobně, tak potvrdí, tento výsledek se potvrdí v porovnání mediánu, kdy median lidského překladu byl osm celých pět a toho strojového devět.
Pokud by vás zajímalo, jak je možné, že tamto a půl, tak to můžu vysvětlit později.
No dobře.
Protože jsme.
Pokud víc lidí hodnotilo jednu větu, tak jsme vzali průměr, abychom na každou na každý větu měli jenom jedno lidské skóre.
Takže se mohlo stát, že tam byla i takhle, když to hodnotili dva lidé, že tam byla půlka.
Ale co je zajímavé, co tady chci ukázat?
Průměrná hodnota toho skóre té kvality je u toho strojového překladu nižší.
U lidského překladu osm celých tři u strojového osm celých dva.
Proč?
Protože tady je to vidět na tom Histogramu.
U některých, přestože u většiny vět byl ten strojový překlad hodnocen jako lepší.
U některých vět byl hodnocen jako horší, ale výrazně horší.
Někde prostě ten strojový překlad udělal takovou chybu, jakou by asi člověk neudělal.
Vidíme tady, že občas se teda jako nějaká chyba stala i výrazná i v tom lidském překladu.
Ale zdaleka ne tak často.
A teď je otázka, jaký z těhle těch dvou systému je teda lepší?
Je lidský překlad opravdu už lepší?
Nebo je strojový překlad už lepší než lidský?
A záleží to asi na tom, k čemu to chceme použít.
Jak moc nám vadí, že tam budou nějaké věty, které jsou přeložené jako velmi špatně?
Pokud by ten výsledek šel ještě k někomu, aby to zkontroloval, byla by tam takzvaná post editace.
Tak je to asi přijatelné.
Tak.
Další úskalí.
Už se budu věnovat automatickému vyhodnocování překladu.
Takže zatím jsem mluvil o ručním vyhodnocení.
A teďka, pokud chceme použít nějaké automatické metriky, tak tady jako příklad jsem vybral asi nejznámější metriku BLEU, ale v podstatě to samé platí pro jakéhokoliv jiné metodiky, které jsou založené na tom, že porovnávají podobnost mezi tím překladem a referenčním překladem lidským.
Tak nejznámější problém je velmi dobře znám, v podstatě od toho, co bylo ta metrika vynalezena.
Nemáme dostatek referenčních překladů.
Typicky máme pouze jenom jeden referenční překlad.
Tudíž nemáme dostatečné pokrytí všech možných správných překladů a možných správných překladů je typicky mnoho.
Takže přestože se strojový překlad vůbec nepodobá tomu referenčnímu, může být naprosto správný.
A bude hodnocen tou metrikou BLEU jako špatný.
A další problém.
I kdybychom měli, dejme tomu všechny správné překlady a je otázka, co ještě budeme považovat za správný překlad.
Tak ten strojový překlad je neni optimální dejme tomu, ale to skóre BLEU nemusí korelovat s tím, jak závažná ta chyba je.
Metrika BLEU je založena na počtu n gramu, které se lišily.
A může se stát, že někdy se liší mnoho slov.
Dejme tomu nějaké složený, složený slovesný tvar.
Ale je to jenom drobná chyba.
Kdežto jindy se jedno slovíčko zapomenuté nebo přeložené špatně může naprosto změnit význam té věty.
A metrika BLEU, toto nereflektuje.
A třetí problém je poměrně nový v tom smyslu, že jsme na něj dřív nenaráželi, na to, že ty referenční překlady můžou být prostě horší kvality než ten strojový překlad.
A metrika BLEU takovéto překlady, které jsou lepší než ten referenční penalizuje, prostě nejsou podobné tomu referenčnímu.
Další otázka je, pokud máme tu evaluaci tak, že máme anglické věty původní z nějakých anglických novin a referenční překlady si necháme vyrobit nějakým profesionálním překladatelem přeložit.
Tak to tady označuji, jako že ta reference je ve skutečnosti překladem, nikoli tou původní větou.
Tak samozřejmě, to už je tady ten problém, který jsem zmiňoval.
Ten překlad nemusí být adekvátní.
Pokud to ten překladatel neudělal úplně správně, nebo nemusí být plně plynulý.
A jak bylo na tom prvním slidu, občas si ten překladatel musí zvolit jednu chybu nebo druhou chybu.
Občas se používá i jiný přístup.
Kdy vezmu původně české věty, dejme tomu z původně českých novin, nechám přeložit do angličtiny a tyto anglické věty vezmu jako zdroj pro tu, pro to vyhodnocení.
Tyto anglické věty se překládají strojovým překladem do češtiny a pak se hodnotí podobnost s referencí.
Ovšem v tomto případě ta reference je ta původní věta.
Takže v tomto, dejme tomu opačném směru evaluace je to, co je tam zdrojová věta není originál.
Je to vlastně překlad takže může mít přesně tyto dva problémy.
Nemusí mít úplně stejný význam jako reference.
A zároveň, ale ta zdrojová věta asi nebude dobře reprezentovat to, na co potom ten překlad chceme použít.
Asi nebudeme chtít používat anglicko český překladač na překládání českých vět o českých politicích.
Takže je tam otázka domény, případně země původu.
A také otázka Překladštiny, protože překládáme text, který byl původně, který teda není tou tím originální větou.
Je to Překladština.
A je tady také malé riziko, že ani ta originální věta, to je ta reference, nebude plně adekvátní a plynulá, tak jak jsem ukazoval na tom prvním slidu, občas se ani v rodném jazyce nevyjádřím tak, jak bych chtěl.
Tak.
Teďka ukážu jeden výsledek z posledního ročníku té překladové soutěže.
Tady v tom případě je to překlad z angličtiny do němčiny a ukazuje na této ose korelaci mezi různými metrikami.
Jedna z nich tady zvýrazněna růžově, je ta metrika BLEU.
Korelaci těchto metrik s tím lidským hodnocením, které v této soutěži bereme teda jako to rozhodujíc,í to to správná zhodnocení kvality.
A je vidět, že na této ose máme kolik systému jsme porovnávali.
A v případě, že porovnáváme dvacet systémů, tu byly všechny překladače přihlášené do té soutěže, tak ta korelace je velmi vysoká - devadesát pět procent i víc.
Ovšem pokud porovnám jenom ty čtyři nejlepší překladače, tak ta korelace je nižší než nula, tedy záporná.
Tudíž vlastně pak ta ten systém, o kterém mi metrika BLEU řekne, že je lepší, tak je ve skutečnosti horší.
Takže pokud někde vidíme...
A většinou se dřív se reportovalo pouze toto číslo, říkalo se metrika BLEU má korelaci s lidským hodnocením devadesát šest procent.
Všichni jsme si zatleskali.
Říkali jsme tak ještě ty poslední čtyři procenta musíme nějak to-
Ale když se koukneme tady, třeba prostě pět systémů a tak, ta korelace je vlastně velmi špatná, když porovnáváme jenom ty systémy.
A je to pochopitelné.
Mezi těma dvaceti systémy byly nějaké systémy opravdu velmi nízké kvality a je velmi jednoduché.
Všichni se na tom shodnou.
Tento si tento překlad velmi nízké kvality je opravdu horší než ty ostatní překlady.
Ano, dobrá připomínka.
Co kdybychom teda použili metriku BLEU, ale dali bychom tam záporné znamínko?
No, tady v tom případě by to pomohlo.
Ale jako ukazuje to-
Můžeme potom v diskuzi to nějak dál diskutovat.
Mám nějaké hypotézy.
Prostě ono to souvisí s tím, že ty nejlepší překlady i pro tu němčinu už byly hodnocené jako lepší než ten lidský překlad.
Nebo dejme tomu srovnatelné.
Takže podobnost s lidským překladem vlastně vůbec nemůže dávat správný výsledek té automatické evaluace.
Všechny metriky, nejenom BLEU, jsou k tomu odsouzeny.
A vlastně tady ty šedivé čáry, to jsou všechny ty ostatní metriky, je vidět, že trpí vlastně tím stejným problémem.
Ano?
Nevím teďka Ondra Bojar, jestli si nepamatuje?
Mohli bychom to samozřejmě najít na webu.
Byly tam myslím velmi vyrovnané ty první čtyři systémy v tom BLEU, ale je také možné, že někteří z nich jako ještě vyčníval.
A teďka si to nepamatuju jak to bylo pro tu němčinu.
No.
Jde si vlastně kliknout tady na to-
To jsou ty, ten článek s těma výsledky.
Tam jsou podobné výsledky pro ostatní jazykové páry.
Ale vlastně všude to mělo podobný průběh, že když bylo těch systémů méně, tak ta korelace byla typicky špatná.
Samozřejmě, když byly dva systémy jenom, tak tam jde těžko měřit nějakou korelaci.
Další výsledek do nástroje na vyhodnocování tou metrikou BLEU, který je dneska doporučení k použití (Sacre bleu?) jsem doimplementoval možnost a myslím, že už je to vydané.
Můžete to používat pro detailní výstup, kdy se snažím pro ty test sety, kde jsem tu anotaci měl k dispozici nebo kde jsem to doanotoval, rozlišit ještě doménu těch textů a zdrojový jazyk.
Takže jako domény jsem si určil, myslím asi pět byznys, politics, enterteiment, science and technology crime.
A tady to určitě dopadlo vtipně překlad, že?
A tady, v tom případě překladu z angličtiny do němčiny, jsem ještě rozlišoval, jestli ta věta byla původně v němčině nebo byla původně v angličtině.
A jestli, většinou jsou to novinové zprávy, tak jestli ty zprávy byly někde ze zemí Evropské unie nebo z Ameriky, Velké Británie a nebo z nějaké jiné země.
A vlastně, co tady jenom chci ukázat je, že ty jednotlivé křivky, to jsou ty jednotlivé systémy.
Ta BLEU score jsem znormalizoval, aby jako jednička byl průměr.
Protože, samozřejmě, pro některé domény se jsou snažší k překladu takže obecně tam ty skóre byly vyšší.
A jeden systém, myslím, že žlutá je Facebook, velmi dobře vyšel na těch původně německých větách.
Ovšem, upozorňuji, tady to je překlad z angličtiny do němčiny.
Takže jako asi nebudeme chtít překládat věty, které původně byly v německých novinách z angličtiny zpátky do němčiny.
Nebo bude to jenom nějaké velmi okrajové použití.
Kdybych si chtěl udělat analýzu, jak o německých médiích referují v Americe v americkém tisku a chtěl bych si to přeložit nazpátek do němčiny, tak možná.
Takže to, že jako tady vyšel tak dobře v praxi, asi se tolik neocení.
Ale je tam velký rozdíl i mezi těmi doménami.
Některý překladač je lepší na jednu doménu, jiný na jinou.
A do teďka se to vlastně moc vůbec neřešilo.
Vždycky se ukazovalo jenom to výsledné skóre přes všechny domény.
A to samozřejmě nemluvím o tom, že toto se týká pouze novinových článků.
Takže pokud by to byli, třeba právě překlad mluvené řeči, tak to může být úplně jinak.
Ale o tom, samozřejmě se ví dávno.
A jsou jiné soutěže na překlad mluveného slova.
Tak a teďka mám tady takovou kvízovou otázku.
Můžete se na ní zamyslet, jestli je neuronový překlad lepší v plynulosti nebo v té adekvátnosti?
Tak asi.
Ano.
Správně.
Než co?
S čím to porovnáváme?
A otázka je, jestli neporovnáváme hrušky s jabkama nebo jabka s hruškama.
Jsem zvědavý.
Přeložil jsem to jako apples and oranges.
Asi ne.
Takže vyšlo několik článků, kde se porovnával neuronový překlad s předchozí generací překladu, tedy se statistickým překladem a ukazovalo se, že se hlavně zlepšila ta plynulost toho překladu.
A usuzovalo se-
Ale problém je, že může být problém v té věrohodnosti, v adekvátnosti.
Ovšem podle, když se na to potom člověk opravdu podívá, tak se zlepšili obě dvě ty dimenze i plynulost i věrohodnost.
Mě tady jde, ale o něco jiného.
Mě jde o porovnání s lidským překladem.
A nejde mi teďka o to, jestli je lepší strojový překlad tady v tom případě neuronový anebo lidský.
Mně jde o to porovnání, jestli relativně, když porovnávám lidský a strojový překlad, jestli-
Kterej je silnější v té plynulosti a kterej je silnější v té adekvátnosti.
Tak se nad tím chvilku zamyslete a nechám hlasovat.
Kdo si myslí, že překlad strojový nejlepší co možný což třeba tady pro angličtinu a češtinu je teďka ten můj neuronový překladač myslím stále, tak jestli je lepší oproti, když to porovnám s lidmi.
Jestli je lepší ve plynulosti?
Kdo si myslí, že ano?
A kdo si myslí, že v adekvátnosti, věrohodnosti?
Tak jsme dva, tři.
Když jste viděli, že jsem se přihlásil já, tak se hlásí další.
No, ono velmi záleží na tom, právě jaký překladač si zvolíme.
A tady teda to je ten můj anglicko-český překladač.
Ukazuju zvlášt adekvátnost a tam ten můj překladač vyšel jako signifikantně lepší a pro plynulost vyšel jako signifikantně horší.
Takže tady by ta odpověď byla, že strojový překlad je lepší v té věrohodnosti.
Opravdu se někdy stávalo-
Má to těch důvodů je několik, ale občas mi přišlo, že ty překladatelé buďto něco zapomněli přeložit, nebo nevěděli, jak se to přeloží správně nebo to podle mě někdy byly jenom líný, jako prostě...
Kdežto výhoda strojového překladu, že není líný.
Prosím?
Autista, že je.
Ano.
Jako málokdy se stalo, že by nějakou informaci ten strojový překlad jako vyhodil, zapomněl přeložit nebo si tam úplně vymyslel navíc.
Kdežto lidem se toto stává poměrně často a můžeme samozřejmě dále jako diskutovat jestli teda z pragmatického hlediska je to správně nebo tak?
Ale tady jako je jenom to, co jak to hodnotili ti lidé.
To není ani, já jsem nebyl jeden z těch anotátorů.
Takže tady to vychází opravdu z těch hodnocení.
Ano?
Ano, občas se stane, že i strojový překlad si tam přidá něco, co v té zdrojové věty vůbec nebylo.
Myslím, že tomu mému překladači se toto moc často nestává.
Samozřejmě, měl jsem různé verze.
Nějak jsem se to snažil i vyladit, aby se toto nestávalo.
Ano?
Ano, to je velmi dobré, dobrá připomínka.
Občas v angličtině, občas angličtině umožňuje nevyjádřit některé některé věci.
Prostě (aktora?) (paciece?) a tak.
A v češtině by takové, jako kdybychom to otrocky přeložili a taky to nevyjádřili takto buďto vůbec nejde, nebo to zní strašně kostrbatě, ale takový překlad asi bude úplně ten nejadekvátnější.
Prostě zachoval všechno.
Nic nevymyslel, nic nevypustí.
Takže tady opět se vracíme k tomu.
Možná to, že to získalo tak dobré hodnocení v té věrohodnosti je vyváženo právě tím, že to dostalo horší hodnocení v té plynulosti.
Jde to jako v ruku v ruce.
Možná bych to mohl, měl změnit někde nějaký hyper parametr, který ovlivní to, aby ty překlady byly plynulejší i za cenu, že nebudou tak věrohodné.
A je otázka, co od toho strojového překladače chceme.
Jestli si spíš jako tu větu upravíme, aby to dobře ty věty na sebe navazovaly a bylo to plynulé, česky, když třeba umím jenom česky a neumím anglicky.
Nebo jestli spíš radši si dohledám ty původní zdroje a opravím ty faktické chyby ve věrohodnosti.
Tak.
Ano?
Ano.
To je další otázka, jestli chceme, aby ten strojový překlad jenom simuloval to, jak překládají lidský překladatelé.
Anebo chceme vlastně něco trochu jiného.
Ano to je taky dobrá poznámka.
Myslím, že tam budu mít ještě nějaký slide o rozdílech mezi anotátory.
Ale zatím bych poznamenal v tomto vyhodnocení ty systémy byly anonymizované a anotátoři nevěděli, jestli je systém A člověk nebo stroj nebo systém B.
Dokonce ani nevěděli, nebo neměli vědět, že budou hodnotit stroj a člověk.
Řekli jsme jim: tady máte dva různé překlady a nevěděli, jestli to jsou třeba dva lidské překlady nebo dva strojové.
Ještě nějaký dotaz?
Tak.
Ano, ano.
Ano.
Ano.
Ano, je to dobrá připomínka.
Sice tady bylo jako překlad jedna překlad dva, ale bylo jako bylo v podstatě museli jsme zachovat, že všechny věty v tomhletom sloupečku jsou od toho stejného systému.
Takže dejme tomu tady byly všechny lidské překlady, tady byly všechny strojové nebo obráceně.
Zvažovali jsme, jako jestli to neprohodit, jenže tím bychom porušili to pokud v tom hodnocení jsem samozřejmě měl hodnotit i jak to navazuje na ty předchozí věty a můžu si vybrat.
Mám třeba dvě synonyma jak to přeložím.
Obě dvě jsou jako přípustné překlady, ale nemůžu je měnit s každou větu.
Musí být konzistentní.
Takže to by jako z tohodle důvodu jsme se rozhodli neměnit to v rámci toho bloku těch deset vět.
Takže ano.
Pokud jsem z jedné věty nějak jako poznal, co je člověk a co je stroj a pokud jsem věděl, že jedno je stroj, člověk, tak jsem si to mohl potom jako vlastně být tím ovlivněn i na ty ostatní věty.
Budu tam mít ještě nějakej slide o tom, jak se podařilo poznávat lidem, co je stroj a co je člověk.
Je to zajímavý nápad a já bych tuhle tu diskusi přerušil ze dvou důvodů.
Jednak, že jsem slíbil, že mi to bude trvat míň než devadesát minut.
A mám ještě několik slidů.
A jednak, protože pro tenhle ten experiment bys potřeboval anotátory, který neví, že tam bude tenhleten trik.
A pokud to teďka všem tady řekneš.
Dobře.
Tak.
Tady jsem chtěl ukázat, že porovnání kvality strojového překladu a lidského, takže tady vynáší skóre toho strojového překladu minus kvalita lidského, se lišilo podle domény, takže třeba pro články o obchodních záležitostech byl ten strojový překlad lepší než lidský?
Ale články z kategorie entertiment, takže jako prostě různé kulturní recenze filmů, knih a podobně, tam byl strojový překlad výrazně horší než lidský překlad.
V předchozím snímku jsem ukazoval, jak to bylo na úrovni celých dokumentů.
To když za celý ten dokument, teda v mém případě jen deset vět přiřadili jedno skóre.
Tady je vidět, jak to dopadne, když uděláme, když tam vyneseme všechny ty věty.
Ale víceméně jako ty tendence jsou tam podobné.
Máme tady víc pozorování, ale je to trochu jiné.
Ale pořád jsou tam jako vidět ty rozdíly.
Tak a tady je opět před tím jsem tam měl jenom tu věrohodnost.
A tady je plynulost.
Takže v plynulosti jako obecně skoro všude je lidský překlad lepší.
Proto jsou všechny tady pod tou nulou.
Snad s výjimkou teda opět článků o tom obchodu.
Tady, když je to na úrovni jednotlivých vět.
Je tady vidět asi, že když se vezme jenom průměr vět, tak to dopadne líp, než když se vezme vyhodnocení přes ty celé dokumenty.
Teďka myslím líp z hlediska strojového překladu.
Takže je tam ještě nějaký rozdíl.
Tak tady je právě otázka, jestli můžeme-
Jestli bylo nutné nechat ty anotátory vyplňovat tři sloupečky, adekvátnost, plynulost a ještě celkovou kvalitu, nemohli bychom celkovou kvalitu odhadnout jako vážený průměr?
No, můžeme to vyzkoušet.
Máme na to data.
Tím, že jsme je nechali, hodnotit tři sloupečky.
A zjistili jsme, že pokud bychom chtěli určit jako relativní váhu v tom průměru té adekvátnosti, tak tady ta proměnná x se bude lišit podle toho, které kteří anotátoři to hodnotili.
Takže pokud to byli, říkáme neprofesionálové, myšleno nebyly to profesionální překladatelé, ale byli to lidé, kteří dobře umí oba dva jazyky, tak dávali důraz na tu adekvátnost jedna polovina a víc.
Takže spíš šlo o to, jestli je zachována ta věrohodnost.
Nedbali tolik na plynulost.
Když jsme se koukli, jak to vyšlo u profesionálních překladatelů, tak ty dávali větší důraz na na plynulost a podobně.
Ještě jsme měli tři translatology.
Nutno tady zdůraznit, že to, jak dávali důraz na plynulost a věrohodnost, hodnotíme jenom podle toho, jak oni sami hodnotili věrohodnost a plynulost.
Nevím, jestli tady budu mít obrázek.
To se samozřejmě také lišilo.
Občas se stalo právě, že profesionální překladatelé někde tu plynulost zhodnotili jako mnohem horší, než jak jí hodnotili neprofesionálové.
A ještě nás zajímalo, pokud toto vyhodnotíme zvlášť pro ten strojový překlad a zvlášť pro ten lidský překlad, člověk by čekal, že vlastně když nevěděli, který je který, tak všechna ta čísla budou na diagonále.
Ale ukazuje se, že tomu tak není.
Pro někoho v případě lidského překladu dával v podstatě veškerý důraz dával pouze na tu věrohodnost.
Ale v případě strojového překladu tento jeden anotátor to hodnotil, tu celkovou kvalitu jako vážený průměr stejným dílem z obojího.
Nemusí to být tím, že by podváděli nebo tak.
Může to být jenom tím, že ve skutečnosti se neřídili váženým průměrem takhle přímo lineárním.
Může to být, že to byl nějaký třeba geometrický průměr nebo tak podobně.
Třeba minimum.
Tak a.
Tak to je dobrý.
Takže doufám už poslední slide.
A potom může být diskuse.
Další problém.
Otázka je, kde je vlastně rozdíl mezi jenom překladem a lokalizací?
Občas, když překládáme články z jiného kulturního prostředí, tak nestačí to jenom přesně přeložit, ale je pro některé účely vhodné i vlastně změnit to, co se tam píše.
Takže, našel jsem zase, to už je z letošních?
Vlastně z loňského WMT.
Byla tam věta o festivalu Burning Men v Americe.
Bylo to přeloženo jako Matějská pouť, což, jak obrázek napovídá, je něco dost jiného.
Ovšem přišlo mi, že v daném dokumentu, kde to bylo součástí nějakého vtipu.
A vlastně bylo úplně jedno, jestli je to Burning Men nebo prostě já nevím co.
Woodstock.
Tak to sloužilo dobře a bylo to vlastně z hlediska pragmatiky a z hlediska lokalizace to bylo lépe přeložené jako Matějské pouť.
Ovšem, a samozřejmě toto zvládl přeložit takhle jenom člověk.
Strojový překlad se neodvážil na takovouto lokalizaci a asi bychom to po něm ani nechtěli.
A je velká otázka, jak takovéto věci hodnotit při lidském hodnocení překladu.
Takže děkuji za pozornost.
A je prostor pro dotazy.
Předtím vypadalo, že jich bude spousta.
A teďka možná všichni už potřebují jít pracovat.
Můžeme to probrat klidně.
No, to jestli tomu rozumím, tak myšlenka byla, že by se udělal jakoby reference base evaluace, kde se jakoby ukáže referenční překlad.
A pak se-
A jeden strojový překlad, ale ve skutečnosti to bude obráceně.
Ten referenční bude ve skutečně strojový.
No.
Vidím tam jako dva případné problémy.
Jeden je, že ti to nemusí uvěřit, můžou ti to prokouknout i když neseděli v této místnosti a nebudou o tom vědět.
Protože opravdu u některých vět, to jak kdo se tomu věnuje, tak to dokáže jako rozlišit, jaké chyby dělá strojový překlad, jaké chyby dělá lidský překlad.
Já tady nakonec neměl ten obrázek.
Ale myslím, že mnozí z vás se účastnili té evaluace.
A posílal jsem Vám to úkolem.
Říkal jsem tomu translation turing test.
Úkolem bylo-
Úkolem bylo rozlišit, vždycky jenom byla jedna věta rozlišit, jestli je přeložená strojem nebo člověkem.
A nakonec vyšlo, že většina lidí to signifikantně nerozlišila.
Ta úspěšnost všech teda byla vyšší než padesát procent, ale většinou byla jen těsně vyšší než padesát procent.
Takže na těch sto vět co dostali, to nebylo signifikantní.
Ti lidé, kteří to rozlišili, byli tam někteří s úspěšností já nevím, myslím, že okolo sedmdesáti procent i, tak většinou, co jsem se pak třeba s někým bavil nebo co jsem se koukal do těch dat, to bylo jenom díky tomu, že věděli, že lidé dělají nějaké chyby, které by stroj nikdy neudělal.
A proto kvůli této chybě tu větu označili jako lidský překlad.
Tak, takže jedna první problém, jestli by to vlastně neodhalili a stejně nebyly ovlivněný.
Druhý problém je, že v tom zadání se neříká, že ta reference jako je správně nebo neříká se tam porovnejte podobnost s referencí.
Říká se - určete kvalitu překladu a ta reference Vám pomůže.
Ale vždycky se říkalo, pokud uvidíte, že v referenci je nějaký problém, nebo občas se stávalo, že nebyly ty věty správně zarovnané, že tam vlastně byl ještě kus nějaký jiný věty, tak ignorujte tu referenci.
Jenom hodnoťte kvalitu toho překladu.
Nebo jako použijte vlastní úsudek a tak.
Takže by se musely-
Ono to tam teda nebylo ty instrukce takhle explicitní nebyly, ale naopak by se musel explicitně nějak jako říct, že vlastně tohleto nemají dělat, aby se zabránilo tomuto vlivu.
Čímž nevim, ale jako zkusit se to může.
Jako jedna z věcí.
Asi by si takhle, pokud teda předpokládáme, že ty jiné systémy budou taky horší ve plynulosti, ale najednou budeš mít referenci, která není plynulá tak to, ale neovlivní to tvoje hodnocení.
Pokud ten překlad je plynulý, tak ty mu dáš jako perfektní kvalitu.
To, že reference nebyla plynulá, to si dokážeš opravit sám jako mluvčí toho cílového jazyka.
Vlastně ještě jeden z důvodu, to jsem tam já, sem to nakonec zkrátil tady pro ty účely.
Ale záleží velmi na tom, jak tam bylo jestli je lepší strojový překlad v plynulosti nebo adekvátnosti, záleží na tom, jak je trénován.
Jak moc se použije back translation.
A mám výsledky od jiného systému nejmenovaného, kde to vyšlo obráceně.
Myslím si, že ten je lepší v té plynulosti a horší v té adekvátnosti.
Protože kvůli způsobu, jakým byl trénován, taky záleží na tom, jakým způsobem je děláno vyhodnocení.
To jsem tady vlastně trochu přeskočil.
Ale jako problém té metody direct assesment, kdy se ukazuje jenom jeden překlad, tak mám pocit, že tady se zaměřujeme na chyby v plynulosti a některé chyby v adekvátnosti.
Ale jenom na ty závažné chyby v adekvátnosti.
Ostatní drobné chyby se v tomto typu vyhodnocení vůbec neprojeví na tom celkovém žebříčku těch systémů.
A mně to přijde jako-
Neříkám, že je to apriori špatně, ale je to nějaký nějaký zkreslení (bias?).
Výhoda může být, že ta anotace mnohem rychlejší na počet vět.
Naopak, tady problém, když se pouze dělal telative tanking jako-
A to mám někde dřív,
Je, že se za jsme se, že pokud jeden systém se jenom malinko byl lepší než jiný systém, tak se to tady projevilo.
Prostě byl hodnocený v tom žebříčku výš a neprojevilo se, že to bylo jen drobné zlepšení, které vlastně vůbec možná tu kvalitu nijak neovlivnilo.
Takže to taky vedlo k nějakému zkreslení, takže ani neříkám, přestože jsem typicky prosazoval spíš používání tady toho relative ranking oproti direct assesment.
Tak neříkám taky to má své problémy.
Toto metoda mi přijde v podstatě jako optimální z těch, o kterých vím.
Tak další dotazy.
Tak potom.
Ano.
Ještě zopakuju dotaz.
Otázka je, když je tady ten šoupátko slider, jestli spíš, lidi to dávají, jsou tedy vyznačeny vlastně polovina čtvrtina a dvě tři čtvrtiny, jestli to používají nebo ne?
Používají celou škálu.
Ale když se potom udělá histogram, tak na tady těch čtvrtinách a polovině myslím, je tam jako prostě část lidí preferuje používat tady ty po těch čtvrtinách.
Ano.
Nejspíš kdybych to rozdělil po šestinách, tak by lidi jako zase tam v tom histogramu byly vrcholky na těch šestinách.
Je to tím ovlivněné.
Můžeš to vyzkoušet.
Ano.
Na mezianotátorskou shodu bych mohl udělat celou třeba dvouhodinovou přednášku.
A v podstatě můj závěr je, že nevidím moc.
Myslím, že všichni, kdo to kdy měřili, tak to dělali špatně.
Nebo ještě hůř.
Asi ze tří, čtyř důvodu.
A nevidím moc tady v tom případě jako v tom extra smysl.
Až na nějaký speciální případy.
Ještě bych k tomu celému řekl.
Jako tohleto mi přijde jako velmi drobný kosmeticky problém.
Můžeme se domlouvat, jestli tam napsat čísla nebo něco, ale mnohem zásadnější problém mi přijde v tom, že jsme tam ukázali jenom jednu větu a neporovnáváme ji s ničím.
Takže se opravdu zaměřujeme úplně jiný druh.
Nebo v tom vyhodnocení nakonec rozhodnou jenom ty závažný chyby a obzvlášť chyby v plynulosti.
Protože většina lidí prostě ani nečte tady tu zdrojovou větu.
Prostě.
Přečte si ten překlad a někam to střelí.
Prostě proto, že takový mám zkušenosti.
A i to tak částečně vyplývá, z těch dat.
Je mnohem snazší samozřejmě si jenom přečíst ten překlad v tom jazyce, v mém rodném jazyce a určit jenom tu plynulost.
To mám hotový v podstatě během pár vteřin.
Pak se můžou rozhodovat, kam přesně to dám, ale ty chyby tam většinou všimnu hnedka.
Obzvlášť když mám jenom jednu větu, ne celý dokument.
Chyby v adekvátnosti.
Na to musím jako hodně dlouho přemejšlet a pečlivě a a prostě-
Třeba si dohledávat na internetu a ve slovníku a tak podobně.
S tím se tady nikdo nedělá.
Tady-
Obzvlášť pokud to po nich jako explicitně nechceme.
To mi přijde jako mnohem závažnější problém.
Ano.
Tak jednak, samozřejmě čekám, kdy mi někdo z vás jako ukáže tady proti příklad teďka online, že sice rozpoznávání řeči výjimečně zafungovalo dobře, ale tady se teda mimochodem používal ten můj překladač, předpokládám do angličtiny.
Takže si tam něco úplně vymyslel.
Samozřejmě, může se to stát.
Jinak.
Dobrý dotaz.
Vlastně, taky jsem si kladl, jak je možný, že já obecně vlastně, ty trénovací data, která mám, jsou-
Je tam hodně šumu.
Jenom malá část je od profesionálních překladatelů.
I když opomenu ten úplné jako nějaký chyby a tak, tak občas jako část.
Je tam třeba filmové titulky, co prostě fandové do filmu si překládali pořádně, aby se naučili ten jazyk nebo tak podobně.
I když, časem se to třeba zlepšuje a jak to můžou editovat.
Ale obecně jako samozřejmě, nemáme tam jako profesionální překladatele v trénovacích datech.
V trénovacích datech máme i oba dva směry z angličtiny do češtiny nebo z češtiny do angličtiny.
I když spíš je tam asi z angličtiny do češtiny.
Jak je možný, že se jako z toho podařilo udělat překladač, který alespoň v některých těch vyhodnoceních vyšel srovnatelný s tím s tou kvalitou lidskýho?
No, úplně přesně nevím.
Ale může být jako obecně konsenzus, když jako máme těch trénovacích dat tolik, tak, když by se sešlo prostě deset překladatelů, tak asi daj lepší výsledek, když se na něj museli shodnout, než když by to dělal každý zvlášť.
Další věc je, že tam používal jsem back translation, takže mám jazykový model.
Tam máš ansábl?
Nemám tam, nemám tam ansámbl, ale konsenzus už je jenom v tom, že jsem viděl jako miliony trénovací příkladů, co určitě žádný překladatel za život jako nepřečetl tolik.
Takže jako z tohohle hlediska mám tam trochu něco jako ansámbl.
Mám tam czechpoint averaging.
Další věc je, že používám back translation, tedy monolinguální texty jenom české nebo jenom anglické.
A zase je to takový množství textu, který asi žádnej živej člověk nepřečetl nebo nemá šanci.
Takže jako ten překladač má znalosti z různých domén, politika, sport a podobně.
Když určitě, když bych já překládal, tak spoustu věcí, nejsem schopnej sám přeložit líp, protože prostě nevim, jak se překládá něco v boxu třeba.
No tak, ještě něco.
No, no, tou back translation.
Nechci tady jít do uplně technických detailů.
Tady můžu pak ještě tím speciální způsobem jak jsem dělal tu back translation, tak jsem jako se snažil vlastně vyhnout se tomu, když by se dělala back translation tak jak jí původně popsal Ericho Hendrick.
Tak by to vedlo k systémům, které jsou velmi dobré v té plynulosti.
Ale ne tolik v adekvátnosti.
Já jsem udělal změnu, díky které si myslím, a i to mám někde trochu potvrzené z těch evaluací jsem dosáhl za-
Podařilo se mi víceméně zachovat tu adekvátnost na té úrovni, jaká byla ještě před tím a nebo vylepšit.
A tak.
Ještě vlastně jedno jsem chtěl říct.
Co může vést k tomu, že si ten systém strojového překladu vymýšlí?
Jako, přidává si tam věci je, že tam typicky při decodingu konstanta alfa na to, jak má být dlouhá věta, kterou, která jí ovlivňuje.
A ta se nějak snažíme si ji nastavit nějak optimálně.
A když se nastaví moc velká, tak jsme schopni dobře překládat dlouhé věty.
Ale občas se stane, že nějakou větu to prostě si tam vymyslí nějaký slova navíc jenom jakoby-
Abych kdybych to řekl tak jako velmi zjednodušeně, aby to uspokojilo tady tu konstantu alfa a tak dál.
Já jsem tam měl potom ještě nějakej post processing.
Velmi jednoduché, regulérním výrazem jsem vymazával opakovaný N gramy a mohl jsem si díky tomu dovolit vyšší konstantu alfa.
No, ale to je taková-
To se občas překladačům stává.
Typicky je to v situaci, kdy na vstupu je něco narazili na něco, s čím se do tý doby nesetkali.
Třeba jeden divnej znak nebo nějaká jako normálně se jim to nestává.
Občas, když se tohle stane, že tak se prostě zacyklí a pořád opakujou jedno slovo nebo nějaký dvě slova pořád dokola.
No tak, nenapadlo mě pro začátek nic jednoduššího, než je prostě ty opakovaný slova vymazat.
Jeden vtipnej příklad.
Bylo tam:
Zahraje vám kapela the TAP, TAP, TAP, TAP, TAP.
Ano, tady v tom případě jsem to odstranil.
A bylo to.
Zahraje vám kapela the TAP.
Což je teda špatně v tomto případě, ale možná lepší než to, co tam bylo původně.
Tak ještě asi poslední dotaz, abych tady nedržel všechny dlouho.
Pak se samozřejmě s Váma rád ještě to.
Nic.
Takže děkuji ještě jednou za pozornost.
Dobrý den.
Tak já na začátek bych ještě vysvětlil, proč tady mám tento mikrofon.
Chci ukázat průběžný, vlastně výsledek jednoho z našich projektů.
Ale není to výsledek.
Je to právě DEMO.
Já pracuji-
Zabývám se strojovým překladem.
A spolu s kolegy jsme vyvinuli tento systém, vlastně automatického tlumočení do mnoha dalších jazyků.
Chceme to potom testovat na různých konferencích, kde samozřejmě není jednoduché nebo levné sehnat tlumočníky do všech jazyků.
A tady to zatím jenom testujeme.
Předem upozorňuji, že se tam mohou, ještě to není plně doladěné, a můžu se tam vyskytnout nějaké chyby.
Občas to bývá vtipné.
Tak.
Asi teda ještě vysvětlím.
V automaticky se rozpoznává to, co říkám tak, že někde dole je vidět výsledek automatického rozpoznání jazyka.
V češtině, v tomto případě.
A potom se to tam překládá do všech těch dalších jazyků.
Tento překladač i to rozpoznávání běží někde na našich serverech.
Proto jsme tady museli natáhnout ten kabel, abychom měli jisté připojení na internet.
A jsou to systémy ten systém překladu do angličtiny.
Ten jsem-
To je přímo ten, o kterém budu později vyprávět v těch slidech.
Ten jsem vyvinul sám.
Do těch ostatních jazyků je to podobným způsobem, od některých od někoho z mých kolegů.
Tak a nyní teda už začnu s prezentací.
Pracuji na ústavu Formální a aplikované lingvistiky nebo také počítačové lingvistiky.
Takže možná si kladete otázku, čím se počítačová lingvistika zabývá?
Tak krom tady té ukázky strojového překladu, bych začal možná takovou klasickou úlohou a to je kontrola gramatiky.
Jistě jste se s tím všichni setkali.
V textovém editoru máte možnost zapnout si kontrolu gramatiky a červeně vám to podtrhne slova, která nejsou ve slovníku daného jazyka třeba češtiny.
Tomu by se správně mělo říkat kontrola překlepů, protože vlastně tam v té původní verzi o žádnou gramatiku nejde.
Tam jde pouze o to, jestli takové slovo v češtině existuje nebo ne.
Takže například kdybych řekl chlapci s tvrdým y, nebo třeba lišit s tvrdým y, tak by to mělo podtrhnout červeně.
Ale tady, v těch případech, všechna ta slova jsou správná česká slova.
Ale asi bychom tam chtěli právě porozpoznat gramaticky chlapci šli - shoda podmětu s přísudkem.
Mělo by tam být: Šli s měkkým I.
Předpokládám, že byste všichni řekli.
Někdo tady říká ne.
Ano, rád-
Stejně jako kolega přede mnou budu rád, když se rovnou budete hlásit.
A když něco nebude jasné nebo tak, takže někdo si myslí, že by to-
Ano, nechám tady.
Ano?
Takže tady je někdo, kdo už možná tuto větu viděl nebo podobnou a říká, že by to mohlo být i správně ta věta, ta první.
Takže já ještě to zopakuji, děvče ty programy, nešly, chlapci šli.
Je to odpověď.
Tedy na nějakou otázku.
Programy šly tam je správně tvrdé y.
Nyní dotaz na všechny.
Co ta druhá věta?
Chlapci šli do školy.
Nyní poprosím někoho jiného než tady Tomáše Holana.
Může být správně, nebo je tam chyba?
Je nějaký jiný odvážlivec?
Musím pohnout.
Ano, prosím.
Právě jde o to, jestli v nějakém kontextu by to mohla být tato věta správně.
Jinými slovy, jestli, když bych vyvíjel program na kontrolu gramatiky, jestli by to měl podtrhnout červeně zeleně nějak jako chybu.
A co by tam měl případně navrhnout jako opravu?
Ano?
Ano, ano.
Takže kdybychom doplnili před to děvče a chlapec šli do školy, tak by to bylo správně.
Možná teda, pak to velké písmenu u toho Chlapec by se mělo podtrhnout, když to není začátek věty.
Takže to je ano, to je dobré řešení.
Ještě někdo?
Já zatím tady tedy-
Ano.
Takže tady.
Já to možná ukážu takhle rovnou.
Mohla by to být také odpověď na otázku, kdo kam co donesl.
A odpověď je chlapec donesl kšandu do školy, nebo-li šli.
Tak tím jsem chtěl vlastně ilustrovat, že ta otázka kontroly gramatiky je mnohem těžší než kontroly překlepu.
Nejde prostě najít ve slovníku, jestli to slovo existuje v češtině nebo ne, musíme udělat nějaký slovní rozbor, větný rozbor.
A je tam víc možných interpretací co by to mohlo znamenat.
Pokud bychom ty věty, kdyby před nimi nebyly ty věty předchozí pouze zatrhli červeně, možná by to bylo špatně.
Takže krom toho, že my víme, že existuje nějaké nějaká interpretace, kde by to ta věta mohla být správně, tak je zároveň důležité počítat s nějakou pravděpodobností.
Jak moc je to pravděpodobné?
A třeba zohlednit i ten kontext v těch předchozích vět.
Abychom určili, jestli to máme podtrhnout.
Na našem ústavu formě aplikované lingvistiky jeden kolega vyvinul takovýto korektor, který právě zohledňuje i tu pravděpodobnost.
Navrhuje, snaží se i správně navrhnout.
Co-
Co tam-
Jaké slovo by tam mělo být-
Takže potkávám na každém krou.
Asi bylo myšleno, potkávám je na každém kroku.
A samozřejmě umí tady červeně podtržené klasická oprava překlepu.
Můžete si to vyzkoušet na té adrese.
Funguje to, myslim i jako plugin do prohlížeče.
Takže pokud vám to bude vyhovovat, můžete to používat i v praxi, třeba při přípravě slidů.
Tak teďka se přesunu k jiné aplikaci, ke které, kterou se také zabývají někteří mí kolegové.
A to je automatické generování zpráv.
Jde o to, že v dnešním světě vlastně zvyšuje se potřeba zpráv, často i personalizovaný, že každý čtenář by chtěl mít ty zprávy.
Přesně tak.
Já bych chtěl zprávy.
Tak jak je máme na-
Prostě, dejme tomu, tady je příklad z nějakých zápasů sportovních.
Tak já bych to třeba víc mě zajímají, jak kdo skóroval nebo mě víc zajímá Sparta než Slávia a tak podobně.
Zároveň jako novinářů víceméně ubývá, zisky klesají, což souvisí s tím, že část těch zpráv se už v dnešní době generuje automaticky.
Takže z nějakých strukturovaných dat, z tabulky, kde jsou teda přímo výsledky toho zápasu sportovního utkání, které tam přibývají online, tak existují systémy, které z toho vygenerují článek v přirozeném jazyce, případně ve více jazycích.
A ty potom se dávají čtenářům.
Na tomto spolupracujeme s jednou firmou.
Tak zase jiná ukázka aplikace.
Taková pro odlehčení.
Je automatické generování poezie.
Tím jsem se zabýval jako takovou hříčkou, abych si oddechl, po když jsem dokončil ten překladač z angličtiny do češtiny.
A máme tady před stánek.
Tak si tam můžete zajít a vyzkoušet si to v té jedné verzi můžete vlastně dát na vstup nějaký text.
A ten překladač se vám ho pokusí přeložit do veršovaného jazyka.
Tedy z češtiny do angličtiny.
Pak rád vám třeba řeknu detail.
Ve skutečnosti jsem k tomu použil, že jsem trénovací data přeložil do angličtiny a z angličtiny zpět abych se vlastně zbavil veršů, rýmů.
A tím si vytvořil trénovací data pro tento veršovač nebo veršotepec.
Tak dostal nebo možná proč mě to napadlo, bylo takovým dílem náhody.
Jednou jsem vyvíjel překladač, tenkrát ještě vlastně založený na hloubkovém rozboru větném a dostal jsem za úkol přeložit větu:
I will come a bit latter on my own.
A já jsem tam něco změnil v tom překladači a dostal jsem naráz takovýto výsledek:
Jsem čelist ještě na své milé.
Tak mě to velmi zaujalo.
Říkal jsem si to vlastně by mohlo fungovat jako generování takhle nějakých básní?
Dával jsem to svým kamarádům za úkol hádat, který známý český básník je autorem této tohoto úryvku.
Teďka teda, co jsem tam změnil, že to místo správných překladů generovalo v jisté fázi toho překladu rozdělíme, uděláme hloubkový rozbor a rozdělíme jednak význam lexikální.
Tedy, jaký má to slovo?
A potom takzvané formemy, který které určují třeba pády a přeložky a tak dál.
A pro každý, snažíme se tento kanál vlastně informace překládat zvlášť.
A máme tam několik kandidátů.
Já jsem tam měl sedm nejpravděpodobnějších kandidátů a ty jsem ještě potom nějak přeuspořádával podle jeho okolního kontextu.
No a udělal jsem základní chybu programátorskou místo od toho nejpravděpodobnějšího po nejméně pravděpodobný jsem je srovnal obráceně.
Takže místo toho nejpravděpodobnějšího lexikálního významu jsem tam dal ten nejméně pravděpodobný z těch sedmi, které ale pořád byli přípustné.
Takže například čelist.
Asi tam vznikla jako překlad toho bit.
Tak zase jiná úloha jedna.
Jedna naše kolegyně absolventka pracuje ve firmě, kterou si najímají jiné firmy pro analýzu vnitřní korespondence, kde se například snaží zjistit, jestli nedošlo někde ke korupci.
Jestli tam nebyly- někdo nešel někomu na ruku nějaké úplatky.
Pro tady tuto samozřejmě nelegální činnost se používá často kódovaná řeč.
Takže nějak kapříci a podobně.
A existují metody počítačové lingvistiky, které dokážou identifikovat, detekovat takovéto takovéto texty najít tam nějaké indicie.
Samozřejmě potom ještě musí přijít někdo, kdo teda zhodnotí, jestli k tomu opravdu došlo nebo ne.
Používá se to vlastně i podobné metody pro takzvaný sentiment analysis, kde se snažíme třeba u recenze zjistit, jestli je pozitivní nebo negativní nebo co se komu na daném výrobku líbí a nelíbí.
Tak a přejdu zase k jiné aplikaci.
Zase jedna z těch klasických pro náš obor.
A to je větný rozbor.
Možná jste někteří z vás byli nuceni toto dělat na střední či základní škole.
A my máme teďka zase tady dole je odkaz, nástroj, který dokáže dělat větné rozbory pro až padesát jazyků.
A ukazuje se, že toto je poměrně těžká úloha.
Svým způsobem možná těžší než ten strojový překlad.
A původně jedna z původních motivací proč vlastně potřebujeme větný rozbor?
Pokud to tedy není proto, aby mohly děti podvádět ve škole a tak, tak byla právě motivace, že nám to pomůže v tom strojovém překladu.
K tomu se dostanu za chvíli.
Nicméně já to občas používám třeba, když se setkám s jazykem jako japonština, kterému vůbec nerozumím.
Mohu si ho sice přeložit, ale chtěl bych jako víc porozumět o tom, co se tam říká.
Co to třeba znamená doslova tak, pokud se vyznám samozřejmě v těch značkách, tak mi může pomoci i ten větný rozbor.
Tak zase se přesunu někam úplně jinam.
Tak předpokládám, všichni tady umíte sčítat a odčítat čísla.
Ale uměli byste sčítat slova nebo dokonce obrázky?
Zase myslím, že tam kolegové u stánku k tomu mají nějaké ilustrace.
A tady taková asi nejproslavnější, byl to i nadpis toho článku.
Co se stane, když od krále odečteme muže a přičteme ženu?
Tak někdo, kdo se nestydí zkusit si tipnout?
Královna, ano.
Takže jak to funguje?
Každému slovu můžeme přiřadit vektor reálných čísel.
Dejme tomu tři sta dimenzí nebo tisíc.
A potom tyto vektory už umíme sčítat a odčítat.
Vyjde nám nějaký výsledek.
No a my se podíváme, jaké slovo je nejblíže tomuto výsledku.
Na tomto principu teda nebo přiřazování nějakých takovýchto Vektorů funguje nástroj Word To Vec, který naprogramoval Tomáš Mikolov, pak pracoval pro různé velké firmy.
Nyní ho občas můžete vidět i tady v Praze.
A postupně se zjistilo, že tato reprezentace jsou velmi vhodné pro spoustu dalších aplikací.
A tady jenom ukážu nějaké vlastností těchto embeddingů.
Například, když si vyneseme embeddingy slova Čína a Peking a dalších měst a dalších států a jejich hlavních měst z těch tři sta dimenzí si to nějakým způsobem zobrazí pouze do dvou dimenzí.
Tak zjistíme, že ten vektor je velmi podobný mezi městem mezi státem a jeho hlavním městem.
Čili už pouze tyto embeddingy z pomocí nich můžeme vlastně řešit úlohu nalezení hlavního města.
A co je zajímavé, jak jsme trénovali ty embeddingy?
K tomu jsme potřebovali pouze velké množství textů.
Žádnou další anotaci lingvistickou, že by nám někdo říkal: toto je město.
Toto je osoba.
A tak dále.
Všechno se to naučilo takzvaným neřízený způsobem unsupervised.
Umí to řešit i další úlohy.
Například tady jsou jako setříděné odpovědi na dotaz.
Například, jaká měna je v Česku, aerolinie dané země?
Občas tam samozřejmě můžete nalézt chyby, ale upozorňuji, že toto vlastně se ten systém vůbec nebyl na tyto úlohy trénován.
To všechno jenom se dokázal-
Tato informace je zakódována v těch tři sta číslech, které reprezentují každé slovo.
Tak a stejně tak můžeme přiřadit nějaké embeddingy obrázkům.
V tomto případě jsou to teda obrázky ručně psaných čísel, což se může využít při rozpoznávání čísel.
Ale stejný podobnými metodami přiřazujeme nějaké embeddingy i obrázkům, fotografiím.
Tak a Teďka, zase se vrátím k tomu, o čem jsem mluvil předtím.
Ke strojovému překladu.
A tady mám takovou historickou analýzu.
Každý rok se koná soutěž ve strojovém překladu Shared Task, kam mohou akademici i firmy zaslat své překladače.
A potom mnoho lidí, dobrovolníků i profesionálních překladatelů hodnotí, který překladač se jim víc líbil.
Ty překladače jsou anonymizované, takže vidím pouze ty překlady a nějak to hodnotím.
V této soutěži, když začala někdy okolo roku dva tisíce šest, tak ve směru z angličtiny do češtiny dlouho vyhrával překladač PC Translator.
Nevím, jestli ho někteří znáte ještě, ale tenkrát to bylo opravdu, co se používalo, když někdo chtěl překládat na počítači do češtiny.
Takže v těch prvních třech letech zvítězil.
Tady v tom grafu vlastně jsem naškáloval nějaké tu úspěšnost toho překladače vždycky, že ten nejlepší systém dostal jedničku.
A ten nejhorší systém v té soutěži dostal nulu.
Pro zjednodušení tady vykresluje jenom některé překladače.
Ten překladač, na který jsem pracoval, na kterém jsem pracoval já, se jmenuje Tecto MT.
A původně jsme teda byli právě ti poslední, ale pak se nám podařilo ho vylepšit a takto.
Ovšem tady je vidět, že jakoby kvalita obou dvou těch překladačů klesá.
To je jenom zdánlivé.
Například ten PC Translator je pořád přesně stejná verze.
Ale co to znamená?
Objevily se jiné překladače, které byly kvalitnější, a v tomto relativním zobrazení teda se kvalita toho PC Translatoru dostala až nakonec toho žebříčku.
My jsme ten překladač Tecto MT vylepšovali, ale i tak, některé jiné překladače se podařilo zlepšit rychleji.
Jaké to byly?
Byl to například překladač Mouses, který asi nejznámějším představitelem překladačů, které jsou založeny na statistickém strojovém překladu.
Velmi zjednodušeně řečeno, věta se rozdělí na jednotlivá slova a fráze, dejme tomu až čtyři, pět slov a každá fráze se přeloží zvlášť.
Je tam několik možností.
Mnoho.
Ty mají nějaká skóre.
A pak se dělá prohledávání obrovského stavového prostoru.
Co to má za následek?
Že často potom ten překlad když se kouknu na trojice slov, čtveřice tak to vypadá velmi pravděpodobně.
Ano, takovéto čtveřice slov v češtině máme.
Ale když se pak třeba kouknu na začátek a konec věty, tak to vůbec nedává smysl.
Nedaří se tam, nebo je tam velký problém v těchto statistických překladačích zachovat nějaké závislosti na velkou, delší vzdálenost, než je vzdálenosti, velikost těch frází.
Co jsme zkusili?
Jo, k tomu se dostanu později.
Teďka.
Vlastně by vás mohl zajímat, jak je na tom překladač online firem nebo firem, které mají online překladače.
Nakonec myslím, že to vždycky ten nejlepší byl Google.
A takže jednu dobu vyhrával.
Ale opět zase je vidět, že potom se objevily nějaké lepší překladače.
Co my jsme zkusili?
My jsme vyrobili překladač, který jsme nazvali Chiméra, který kombinuje v podstatě ten překladač Mouses a překladač Tecto MT.
Takže jsme zkombinoval výhody statistického překladu a toho překladu Tecto MT, který je založen na lingvistickém rozboru věty.
Takže přestože ten překladač Tecto MT, byl tady někde ve střední části až až horší, tak v při kombinaci jsme několik let se nám dařilo vítězit v té soutěži.
No a co se stalo teda posledních pár let by vás mohlo zajímat.
Přišel naprosto jiné paradigma překladu-
Neuronový strojový překlad, Neural MT.
A poslední roky v podstatě všechny překladače v té soutěži včetně Googlu už jsou založené na tomto neuronovému překladu.
Ale poslední dva roky se se teda i já přepnul na toto nové paradigma.
A ten překladač, který jsem tam zaslal poslední dva roky, tak byl ten, který zvítězil v té soutěži, byl signifikantně lepší než všechny ostatní překladače.
Tak teďka teda jenom krátce ukážu, jak fungoval ten překladač Tecto MT, kde jsme používali lingvistický rozbor.
Skládal se asi ze sta kroků, kde jsme postupně analyzovali tu anglickou větu a snažili jsme se dobrat nějaké-
Nejdřív-
Tady je větný rozbor, podobný, dejme tomu, co se dělá u nás na základních a středních školách.
Ale my jsme chtěli ještě nějaký abstraktnější rozbor dobrat se významu té věty.
Mít nějakou reprezentaci formální, která reprezentuje význam věty.
Takže tu jsme potom přeložili do podobné reprezentace, ale pro češtinu.
A potom následovaly vlastně kroky, kde jsme se tuto abstraktní reprezentaci snažili dostat zase do povrchové roviny.
Tak jak přímo tu větu v češtině říkáme.
Ví, jakou to mělo výhodu.
Tady na té abstraktní rovině jsme měli víc možností, jak modelovat některé jevy.
Nevýhoda byla, že celkově ta cesta byla delší a byl to velmi komplikovaný systém.
Takže tady zrovna ilustruju na této větě otázku, zda máme nail přeložit jako hřebík nebo jako nehet.
Ono je to teda zrovna ukázka z písničky a tam člověk nikdy neví.
Ale co je zajímavé.
My jsme si natrénovali maximum entropy model, který má různé rysy, features.
A bylo zajímavé sledovat, vlastně, které rysy vedou k tomu překladu hřebík a které vedou k tomu překladu nehet.
Něco z toho bych si asi tipnul.
Třeba právě pokud předchozí slovo bylo kladivo, tak bude pravděpodobnější překlad hřebík.
Ale objevil jsem tam i něco, vlastně o jazyce, jak funguje, co jsem předem netušil.
Například, že záleží na tom, jestli v tom stromě, který reprezentuje ten větný rozbor, se to slovo nail nachází za tím svým závislostním rodičem nebo před ním.
Což souvisí.
Dejme tomu s tím, jestli je to podnět nebo předmět, nebo že závisí na tom, jestli to sloveso je v aktivním nebo trpném rodě.
Tak a teďka zase pro změnu.
A dejme tomu odlehčení.
Kvízová otázka.
Tipne si někdo, co je na této fotce?
Někdo, kdo jí ještě neviděl.
Můžete hádat.
Nějaký server?
Ano, ano.
Takže toto je server, respektive několik serverů ve skříni, které používáme právě pro ten neuronový překlad.
Tady konkrétně jsou to vlastně grafické karty.
Tento typ ani nebudu říkat kolik peněz to stojí, když jich tam máme čtyřicet.
A je to vlastně jeden z důvodů, proč ten neuronový překlad se prosadil až v těch posledních letech.
Ono takové podobné myšlenky měli lidé už dřív, ale velmi základní předpoklad je velký výpočetní výkon, který je nutný jednak na natrénování těch modelu.
To obzvlášť.
A také potom, když chceme ty modely použít tady.
Proč ukazuju tenhle ten obrázek?
Proč je tak zajímavě barevný?
To má takovou historku.
Málo času zbývá, ale ještě jí zkusím říct.
Zjistili jsme, že jedna z těch karet je vadná.
Tak jsme se zeptali výrobce Nvidie.
Jak zjistíme, která ta karta to je, když máme nějaké její číslo, jak zjistíme, kterou tu kartu máme vytáhnout?
Oni řekli: No, to nezjistíte.
To prostě zkuste postupně vytahovat a až to bude ta, ona, tak to zjistíte.
No ovšem, kolegové moji na tom počítali tady na těch všech kartách takže jsme nechtěli přerušit jejich výpočty.
Naštěstí náš admin měl dobrý nápad.
Vzal termo kameru, zjistil, které ty karty opravdu počítají a ta jedna vadná je tam prostě temně.
Ta nepočítala.
Takže jsme si poradili i bez Nvidie bez jejího oficiálního postupu.
Tak a tady v názvu přednášky jsem měl i umělou inteligenci.
Takže jenom velmi stručně.
Tento termín se začal používat, dejme tomu někdy v padesátých letech.
A pak se vydělila taková pod oblast, které se říkalo strojové učení machine learning, dejme tomu v osmdesátých letech.
A okolo roku dva tisíce deset se zase vydělila z něho pod oblast hluboké učení deep learning.
Dneska se to někdy bere už jako zcela oddělené obory nebo tak, ale vzešlo to takhle.
Pořád to spolu úzce souvisí.
A zase kdybych měl říct, v umělé inteligenci často šlo jenom o to, že někdo napsal vlastně algoritmus, přesně pravidla-
If than else, jak se má postupovat.
Ve strojovém učení stále je potřeba ten člověk.
Ale ten jenom navrhne nějaké rysy.
Dejme tomu, pokud chci rozpoznávat, jestli na obrázku je auto nebo není, tak navrhnu, mohl bych vzít třeba kolik je tam koleček a rovných čar a tak případně něco trochu složitější, složitějšího.
A z těchto rysů potom na nich se natrénuje neuronová síť, která ze začátku mívala jenom několik málo skrytých vrstev.
V čem se liší, hluboké učení?
Je, že vlastně i tuto úlohu už zastal, zastane ten model výpočetní.
Takže on na vstupu dostane přímo prostě jednotlivé pixely, červená, zelená a tak dál.
A těch hlubokých v těch skrytých vrstev neuronové sítě je tam víc.
Takže si dokáže sám vlastně zjistit, jaké rysy jsou podstatné pro tu danou úlohu.
Zase nemám čas jít do detailu.
A ty sítě mají různé architektury.
Toto je architektura té sítě, kterou používám pro překlad.
Tu architekturu jsem nevymyslel já.
Autoři z Googlu jí vymysleli.
Nazvali jí Transformer.
Já jsem potom vylepšil ten způsob, jakým se ta síť trénuje.
Tady ještě ilustrace.
Ten tady je ta architektura a se stává se to ze dvou částí.
Takzvaný encoder kóduje nějak tu vstupní větu.
Nejdřív jí převede.
Tady jsou právě ty slovní embeddingy.
A potom je tady N vrstev, které mají nějaké podvrstvy.
Myslím, že používám šest vrstev.
A stále se vlastně také vytváří abstraktnější reprezentace.
Ovšem na rozdíl od toho příkladu Tecto MT, který tam byl, tady jsou pořád vlastně založené na těch vektorech.
A je velmi těžké to nějak interpretovat, co se tam ve skutečnosti děje.