-
Notifications
You must be signed in to change notification settings - Fork 5
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Umgang mit Encodings im Rahmen des BibTeX-Imports #41
Comments
|
bis auf das komponierte Zeichen (Akzent) in Zeile 1885 können alle Nicht-ASCII-Zeichen durch entsprechende Umformungen ersetzt werden, wenn man den Befehl
aufruft Das Akzent-Zeichen in Zeile 1885 müsste vermutlich durch
ersetzt werden. |
Auch der BibTeX-Export in OPUS4 erzeugt nicht standardkonforme (weil UTF8-codierte) BibTeX-Files. |
Problematisch ist, dass der Begriff BibTeX überladen ist: er kann sich sowohl auf das Programm beziehen, aber auch auf das Format der Datenbankdatei mit der Endung .bib. BibTeX (das Programm) unterstützt kein Unicode. Damit sind UTF-8 codierte .bib Dateien nicht oder nur bedingt nutzbar, wenn BibTeX verwendet wird. Eine neuere Entwicklung ist BibLaTeX (ein LaTeX-Macro), das BibTeX (das Programm) als Backend nutzen kann. Im Gegensatz zum alten (aus den 80ern) BibTeX erlaubt es auch das Arbeiten mit Unicode. Demnach können die Datenbankdateien (*.bib) als UTF-8 codiert sein. Ein sehr guter SO-Artikel, der die Begriffe voneinander abgrenzt, ist https://tex.stackexchange.com/a/25702 Auch die Abbildung in https://tex.stackexchange.com/a/299286 ist zum Verständnis sehr hilfreich. Ein großer Vorteil von BibTeX (und das ist vermutlicher auch der einzige Grund, warum es noch in Nutzung ist) ist die Verbreitung und die Tool-Unterstützung (und auch die Unterstützung durch Verlage usw.) Wir sollten also im Bezug auf das Encoding klären, was wir hier genau unterstützen wollen. |
Laut BibTeX-Standard können BibTeX-Files eigentlich kein UTF-8 als Encoding verwenden. Der Standard 0.99c stammt aus 1998. UTF-8 ist deutlich jünger. Beim Schreiben des Standards wurden nur 8-Bit-Encodings betrachtet: https://wiki.lyx.org/BibTeX/Tips#encoding
Es gab wohl Bestrebungen (mit der 2010 in Aussicht gestellten BibTeX-Version 0.99d) auch UTF-8 (Multi-Byte-Encoding) zu unterstützen, aber diese Version wurde nie verabschiedet.
Die von Euch bereitgestellten BibTeX-Files nutzen unterschiedliche Encodings:
Bei den verwendeten Beispieltdateien liegt eines im ASCII-Encoding vor (ist damit standardgemäß). Das andere ist UTF-8 codiert und erfüllt damit streng genommen nicht den Standard. Ursache ist die Verwendung folgender Zeichen:
Wenn ich diese 5 Zeichen in entsprechende ASCII-Umschreibungen umwandle, dann entsteht eine ASCII-codierte Datei.
Es ist wichtig zu klären, wie wir beim Import mit dem Encoding umgehen wollen, damit wir am Ende nicht "Zeichengulasch" in der OPUS4-Datenbank haben.
Daher folgende Fragen:
Für das Erkennen des Encodings kann vermutlich https://www.php.net/manual/de/function.mb-detect-encoding.php verwendet werden. Über mögliche Drawbacks (Performance der Erkennung bei "großen" Dateien und Genauigkeit der Erkennung) kann ich aktuell noch nichts sagen.
Ich sehe das Ticket erstmal als Diskussionsgrundlage. Aber wir sollten bereits jetzt diesen Punkt besprechen.
Intern: https://tickets.zib.de/jira/browse/OPUSVIER-4502
The text was updated successfully, but these errors were encountered: