Odpowiedź

Perl z początku nie był przyjazny dla Unicode, a praca z UTF-8 wymaga wyraźnych wskazówek. Nowoczesny Perl potrafi przechowywać ciągi jako wewnętrzne abstrakcje (skalary z flagą utf8), ale operacje wejścia-wyjścia wymagają szczególnej uwagi.

Poprawne czytanie/zapisywanie:

Ustawiaj warstwy IO (binmode, :encoding(UTF-8)).
Używaj use utf8; w kodzie źródłowym, jeśli zawiera literały w Unicode.
Dla STDIN, STDOUT, plików opisz warstwę:

open my $fh, '<:encoding(UTF-8)', 'myfile.txt' or die $!;
binmode STDOUT, ':encoding(UTF-8)';

Praca z ciągami Unicode:

Moduły Encode, utf8, open, charnames.
Nie mieszaj bajtów i ciągów z ustawioną flagą utf8.

use Encode;
my $bytes = encode('UTF-8', $string); # Otrzymujemy bajty
my $string = decode('UTF-8', $bytes); # Otrzymujemy ciąg

Szczegóły:

Pliki bez "warstwy" są czytane w bajtach — operacje length/substr/regularki dają niepoprawne wyniki!
Interakcje z zewnętrznymi źródłami (BD, sieć) wymagają osobnej konwersji.
Nawet standardowe funkcje print/read wymagają ustawienia warstw.

Pytanie podchwytliwe

Czy wystarczy dodać use utf8; na początku skryptu, aby wszystkie operacje wejścia-wyjścia odbywały się w UTF-8?

Odpowiedź: Nie! Dyrektywa use utf8; tylko interpretuje literały Unicode w kodzie źródłowym. Dla wejścia-wyjścia należy ustawić warstwy IO przy open lub przez binmode/open pragma! Na przykład:

binmode STDOUT, ':encoding(UTF-8)';
open my $fh, '>:encoding(UTF-8)', $filename;

Historia

W wielojęzycznym projekcie interfejsy wyświetlały krzaki przy wypisywaniu do konsoli, ponieważ shell pracował w UTF-8, a Perl nie ustawił potrzebnej warstwy STDOUT (nie używano binmode, tylko use utf8). Symptom: długość i substr dla ciągów cyrylickich dawały "łamany" wynik.

Historia

Skrypt przetwarzający pliki XML (UTF-8) nie ustawił warstwy przy open, w wyniku czego ciągi były "brudnymi" mixem bajtów i UTF-8. Niektóre regularki w ogóle nie działały, a przy próbie serializacji danych do JSON moduł zgłosił błędy o "szerokich znakach".

Historia

Podczas integracji usługi Perl z klientem MySQL ignorowano ustawienie klienta na utf8, pracując z bajtowymi ciągami. Na styku z web-interfejsem pojawiły się usterki — część znaków była złamana, część zapytań "łamała" strukturę danych. Pomogła wyraźna przekodowanie przez Encode i ustawienie 'mysql_enable_utf8'.

Opisz cechy pracy z Unicode (UTF-8) w Perl. Jak poprawnie czytać, pisać i przetwarzać ciągi w różnych kodowaniach oraz jakie szczegóły często prowadzą do błędów?

Odpowiedź

Poprawne czytanie/zapisywanie:

Praca z ciągami Unicode:

Szczegóły:

Pytanie podchwytliwe

W wielojęzycznym projekcie interfejsy wyświetlały krzaki przy wypisywaniu do konsoli, ponieważ shell pracował w UTF-8, a Perl nie ustawił potrzebnej warstwy STDOUT (nie używano binmode, tylko use utf8). Symptom: długość i substr dla ciągów cyrylickich dawały "łamany" wynik.

Skrypt przetwarzający pliki XML (UTF-8) nie ustawił warstwy przy open, w wyniku czego ciągi były "brudnymi" mixem bajtów i UTF-8. Niektóre regularki w ogóle nie działały, a przy próbie serializacji danych do JSON moduł zgłosił błędy o "szerokich znakach".