Cevap

Perl başlangıçta Unicode dostu değildi ve UTF-8 ile çalışmak belirli talimatlar gerektiriyor. Modern Perl, dizeleri içsel soyutlamalar (utf8-flagged scalars) olarak saklayabiliyor, ancak girdi/çıktı işlemleri özel bir dikkat gerektiriyor.

Doğru okuma/yazma:

IO katmanlarını ayarlayın (binmode, :encoding(UTF-8)).
Kodun içinde Unicode edebiyatları varsa use utf8; kullanın.
STDIN, STDOUT, dosyalar için katmanı tanımlayın:

open my $fh, '<:encoding(UTF-8)', 'myfile.txt' or die $!;
binmode STDOUT, ':encoding(UTF-8)';

Unicode dizeleri ile çalışma:

Encode, utf8, open, charnames modülleri.
Baytları ve utf8 bayrağı olan dizeleri karıştırmayın.

use Encode;
my $bytes = encode('UTF-8', $string); # Baytları alır
my $string = decode('UTF-8', $bytes); # Diziyi alır

İncelikler:

"Katmanı" olmayan dosyalar bayt olarak okunur — length/substr/regüler ifadeler hatalı sonuçlar verir!
Dış kaynaklarla (veritabanı, ağ) etkileşim ayrı bir dönüştürme gerektirir.
Hatta standart print/read fonksiyonları katmanların ayarlanmasını gerektirir.

Hileli Soru

use utf8; ifadesini skriptin başına eklemek, tüm girdi/çıktı işlemlerinin UTF-8 ile gerçekleşmesi için yeterli midir?

Cevap: Hayır! use utf8; ifadesi yalnızca kaynaktaki Unicode edebiyatlarını yorumlar. Girdi/çıktı için open sırasında veya binmode/open pragma ile IO katmanlarını ayarlamak gerekir! Örneğin:

binmode STDOUT, ':encoding(UTF-8)';
open my $fh, '>:encoding(UTF-8)', $filename;

Tarih

Çok dilli projede arayüzler, konsolda çıkış yaparken krakozyabra gösteriyordu, çünkü shell UTF-8 ile çalışıyordu ama Perl gerekli STDOUT katmanını ayarlamamıştı (binmode kullanılmamış, sadece use utf8). Belirti: kiril alfabesindeki dizeler için length ve substr "bozuk" sonuç veriyordu.

Tarih

XML dosyalarını (UTF-8) işleyen skript, open sırasında katman ayarlamadı, sonuç olarak dizeler "kirli" bir bayt ve UTF-8 karışımına sahipti. Bazı düzenli ifadeler hiç çalışmadı ve JSON'da verileri serileştirme girişiminde "wide characters" hatası verildi.

Tarih

Perl servisini MySQL istemcisi ile entegre ederken, istemcinin utf8 ayarını göz ardı ettiler ve bayt dizeleri ile çalıştılar. Web arayüzüyle kesişimde bazı semboller bozuk geldi ve bazı sorgular veri yapısını "bozdu". Encode üzerinden açık bir dönüştürme ve 'mysql_enable_utf8' ayarını kullanmak yardımcı oldu.

Unicode (UTF-8) ile çalışmanın özelliklerini açıklayın. Farklı kodlamalarda dizeleri nasıl doğru bir şekilde okumalı, yazmalı ve işlemeniz gerektiğini ve sık karşılaşılan hatalara neden olan incelikleri belirtin.

Cevap

Doğru okuma/yazma:

Unicode dizeleri ile çalışma:

İncelikler:

Hileli Soru

XML dosyalarını (UTF-8) işleyen skript, open sırasında katman ayarlamadı, sonuç olarak dizeler "kirli" bir bayt ve UTF-8 karışımına sahipti. Bazı düzenli ifadeler hiç çalışmadı ve JSON'da verileri serileştirme girişiminde "wide characters" hatası verildi.