Arch Linux

[C] UTF-8 Strings verarbeiten

linux-ka

Hi,

ich habe zwar schon ne menge mit C geschrieben, aber scheinbar kam ich dabei immer nur mit ASCII Zeichen aus. Ich würde gerne Strings verarbeiten, was problemlos funktioniert, wenn man von den Umlauten und ß absieht.

Ich habe zwar schon locale.h eingebunden, aber weiter komme ich damit leider nicht. wchar_t soll da weiterhelfen, aber wenn ich den jeweiligen String so deklariere zb wchar_t *string; und ihn via printf("%ls",string); ausgeben möchte, habe ich ein Ausgabeproblem ( zumal da schon der Compiler schreit).

Kann man denn auf einfachem Wege (zur not auch umständlich) den UTF-8 support einbinden, sodass man reibungslos mit den Strings arbeiten kann?

Danke für die Hilfe,

Linux-ka

T.M.

linux-ka schriebHi, ich habe zwar schon ne menge mit C geschrieben, aber scheinbar kam ich dabei immer nur mit ASCII Zeichen aus. Ich würde gerne Strings verarbeiten, was problemlos funktioniert, wenn man von den Umlauten und ß absieht.

Du arbeitest wahrscheinlich mit Werkzeugen, die nicht sauber aufeinander abgestimmt sind, schätze mal Dein Editor benutzt einen Zeichensatz, Deine shell oder ein anderer Editor einen anderen. Probleme gibt's nur, wenn Du ein Gemisch hast. Es gibt dann sehr schnell kaputteditierte Dateien, die gleichzeitig Zeichen aus mehreren Zeichensätzen enthalten. Du mußt Dir darüber klar sein, daß in der Realität ein Gemisch von solchen Werkzeugen immer ein Problem, allerdings auch immer legitim ist. Du behältst folglich immer eine gewisse Verantwortung dafür.

linux-ka schriebIch habe zwar schon locale.h eingebunden, aber weiter komme ich damit leider nicht. wchar_t soll da weiterhelfen, aber wenn ich den jeweiligen String so deklariere zb wchar_t *string; und ihn via printf("%ls",string); ausgeben möchte, habe ich ein Ausgabeproblem ( zumal da schon der Compiler schreit).

Eine Verwendung von wchar_t ist für UTF-8 nicht immer zwingend nötig. Es hängt davon ab, was Du machen, konkret ob Du strings wirklich manipulieren (oder nur einlesen und wieder ausgeben) willst. wchar_t erweitert jedes Zeichen grundsätzlich auf zwei byte (entspricht also UTF-16!) und erfordert zudem einen anderen Satz an Funktionen und andere string-Konstanten, in C++ auch andere Klassen. printf nutzt Dir da nix, Du brauchst dann wprintf, statt strlen brauchste wcslen usw. Intern UTF-16 zu verwenden, wäre natürlich sauber, erfordert dann aber eben die Umstellung des gesamten Programms und einigen Aufwand an allen Schnittstellen nach draußen.

linux-ka schriebKann man denn auf einfachem Wege (zur not auch umständlich) den UTF-8 support einbinden, sodass man reibungslos mit den Strings arbeiten kann?

Einfach ist es nicht. Du mußt, wie gesagt, alle Ein- und Ausgaben, die Dein Programm macht, darauf umstellen, d.h. eine Prüfung und ggf. eine Konvertierung durchlaufen lassen und darfst dabei nirgends ein Loch lassen. Du wirst, da Du oft nicht wissen kannst, was von draußen kommt, konfigurierbare Vorgaben vorsehen, d.h. dem Programm irgendwie explizit sagen müssen, daß es diesen oder jenen Zeichensatz annehmen soll. Wenn es sich um große Datenmengen handelt, wird die Laufzeit interessant, denn die Konvertierung kostet natürlich Zeit. Zur Umwandlung von Zeichenketten kannste Funktionen wie iconv benutzen. Du mußt aber eben wissen, was Du wohin konvertierst.

[gelöscht]

Du kannst auch die GLib verwenden, die hat extra UTF-8-Stringfunktionen:
http://library.gnome.org/devel/glib/stable/glib-Unicode-Manipulation.html

linux-ka

Hm, vielleicht müsste ich mich mal damit genauer auseinander setzen, aber mal dazu das Problem in klein:

Wenn ich den string char string="äüöß" via printf("%s",string) ausgebe, dann wirds korrekt ausgegeben. Wenn ich aber den String characterweise ausgeben lassen möchte, gehts nicht.

Ich weiß nun nicht, ob ich deswegen gleich mit iconv.h losarbeiten muss. Übersehe ich was Character spezifisches?

badboy

linux-ka schriebHm, vielleicht müsste ich mich mal damit genauer auseinander setzen, aber mal dazu das Problem in klein:

Wenn ich den string char string="äüöß" via printf("%s",string) ausgebe, dann wirds korrekt ausgegeben. Wenn ich aber den String characterweise ausgeben lassen möchte, gehts nicht.

Ich weiß nun nicht, ob ich deswegen gleich mit iconv.h losarbeiten muss. Übersehe ich was Character spezifisches?

ja, übersiehst du. Wenn du deinen Code in einem Editor eingibst, der die Datei als UTF-8 speichert, belegen ä, ü, ö und ß 2 Bytes. Werden die nun hardcoded ausgegeben, ist alles wunderbar. Byte-für-Byte allerdings kommt's dann zu Problemen. Und dafür gibt es halt die ganzen Libs zur Verarbeitung solcher Strings.

[gelöscht]

Ein UTF-8-Zeichen kann zwischen 1 bis zu 6 Bytes einnehmen. Natürlich kannst du da nicht Byte für Byte drüberiterieren. So geht's mit den GLib-Funktionen:

#include <stdio.h>
#include <glib.h>

int main()
{
	char *string = "äüöß";
	char *p;

	for (p = string; *p != '\0'; p = g_utf8_next_char(p)) {
		gunichar c = g_utf8_get_char(p);
		/* ... */
	}

	return 0;
}

gcc utf8-demo.c -o utf8-demo `pkg-config glib-2.0 --cflags --libs`

g_utf8_next_char() springt dann automatisch um die jeweils richtige variable Anzahl an Bytes weiter. Ein gunichar ist UTF-32, also die direkte 32-Bit-Repräsentation des Zeichen-Codepoints.

linux-ka

Sehr anschaulich, danke dir 🙂
Habe mir den Link zu glib schon angesehen, und war dann doch etwas von der Funktionenvielfalt erschlagen.

Das beutet aber, dass ich alle Strings, die eingelesen werden, erstmal konvertieren muss. Habe gerade gegoogelt, aber keine Tabelle für UTF-32
gefunden. In welchem Bereich befinden sich denn unsere Buchstaben?

T.M.

linux-ka schriebDas beutet aber, dass ich alle Strings, die eingelesen werden, erstmal konvertieren muss.

Das hab ich ja so gesagt. Und zwar ohne irgendeinen Schleichweg dran vorbei. Und das gilt natürlich genauso auch für die Ausgaben. Dein Programm könnte dann intern sauber z.B. mit UTF-16 arbeiten und praktisch alles einlesen.

linux-ka schriebHabe gerade gegoogelt, aber keine Tabelle für UTF-32 gefunden. In welchem Bereich befinden sich denn unsere Buchstaben?

Die Frage ist irrelevant. Du konvertierst üblicherweise einen ganzen Puffer durch Aufruf einer Bibliotheksfunktion, der Du lediglich sagen musst, was Du wohin konvertieren willst. Den Rest macht die Funktion. Du musst nie einzelne Zeichen suchen gehen. Das ist ja der Sinn dieser Funktionen. Siehe hier.

Nur für diesen Zweck allein würde ich glib nicht nehmen. Man macht sich ja dadurch auch abhängig.

linux-ka

Nun ist es ja so, dass ich nicht immer weiß welchen Zeichensatz ich da gerade einlese. Da ich iconv() sagen muss von WO nach WO ich überstzen will, ist das für mich noch ein Fragezeichen. Oder nehme ich einfach pauschal an, dass es ISO-8851-15 ist, was ich da einlese?

[gelöscht]

linux-ka schriebNun ist es ja so, dass ich nicht immer weiß welchen Zeichensatz ich da gerade einlese. Da ich iconv() sagen muss von WO nach WO ich überstzen will, ist das für mich noch ein Fragezeichen. Oder nehme ich einfach pauschal an, dass es ISO-8851-15 ist, was ich da einlese?

Unter Linux ist heutzutage UTF-8 Standard. Den Zeichensatz einer Datei kann man höchstens erraten. Deshalb sollten alle Tools den gleichen Zeichensatz annehmen. Wenn du mehrere Zeichensätze unterstützen möchtest, dann solltest du dem Benutzer eine entsprechende Option anbieten (Kommandozeilenparameter oder Konfigurationsdialog) oder dein Dateiformat so gestalten, dass dort der Zeichensatz angegeben werden kann, wie das bei HTML möglich ist.

T.M.

linux-ka schriebNun ist es ja so, dass ich nicht immer weiß welchen Zeichensatz ich da gerade einlese. Da ich iconv() sagen muss von WO nach WO ich überstzen will, ist das für mich noch ein Fragezeichen. Oder nehme ich einfach pauschal an, dass es ISO-8851-15 ist, was ich da einlese?

Du kannst versuchen, es zu erraten, kostet aber Zeit. Dazu müsstest Du Deine Datei erstmal abscannen und mögliche Spezialzeichen suchen. UTF-16 und UTF-32 erkennt man wahrscheinlich leicht. Schwieriger ist es, UTF-8 und ISO-8859-1 sowie die ganzen ISO-Zeichensätze untereinander zu unterscheiden. Das ist fast unmöglich. Wahrscheinlich ist es eben klüger, das per Option oder Konfigurationsdatei zu vereinbaren. Wenn die Option dann doch nicht zu der Datei passt, musst Du das Programm halt noch einmal mit einer anderen Option starten. Alle modernen Editoren haben irgendwo so eine Einstellung, die dann auch in einer Konfigurationsdatei abgelegt wird.