回答

PerlはもともとUnicodeフレンドリーではなく、UTF-8の操作には明示的な指示が必要です。現代のPerlは文字列を内部抽象（utf8フラグ付きスカラー）として保持できますが、入出力操作は特別な注意が必要です。

正しい読み書き:

IO層を設定する（binmode, :encoding(UTF-8)）。
ソースコードにUnicodeリテラルが含まれている場合は、use utf8;を使用します。
STDIN、STDOUT、ファイルのために層を記述します：

open my $fh, '<:encoding(UTF-8)', 'myfile.txt' or die $!;
binmode STDOUT, ':encoding(UTF-8)';

Unicode文字列の操作:

モジュールEncode、utf8、open、charnames。
utf8フラグの付いたバイトと文字列を混合しないでください。

use Encode;
my $bytes = encode('UTF-8', $string); # バイトを取得
my $string = decode('UTF-8', $bytes); # 文字列を取得

微妙な点:

"層"のないファイルはバイトで読み込まれます — length/substr/正規表現の操作は不正確な結果を返します！
外部ソース（DB、ネットワーク）との相互作用には別途変換が必要です。
標準のprint/read関数ですら、層を設定する必要があります。

ひっかけ問題

スクリプトの冒頭にuse utf8;を追加するだけで、すべての入出力操作がUTF-8で行われますか？

回答: いいえ！use utf8;ディレクティブはソース内のUnicodeリテラルのみを解釈します。入出力にはopen時またはbinmode/openプラグマを介してIO層を設定する必要があります！例えば：

binmode STDOUT, ':encoding(UTF-8)';
open my $fh, '>:encoding(UTF-8)', $filename;

歴史

多言語プロジェクトでは、インターフェースがコンソール出力時にクラクシャブリを表示しました。これはshellがUTF-8で動作していたのに対し、PerlがSTDOUTの適切な層を設定していなかったためです（binmodeは使用せず、ただuse utf8を使っていただけ）。症状：キリル文字列に対するlengthとsubstrが「壊れた」結果を返しました。

歴史

XMLファイル（UTF-8）を処理するスクリプトがopen時に層を設定せず、その結果、文字列が「汚れた」バイトとUTF-8の混合になりました。いくつかの正規表現はまったく機能せず、データをJSONにシリアライズしようとした際にモジュールが「ワイドキャラクター」に関するエラーを出しました。

歴史

PerlサービスをMySQLクライアントと統合する際、クライアントの設定をutf8に無視して、バイト文字列で作業しました。Webインターフェースとの接点で欠陥が発生し、一部の文字が壊れ、いくつかのリクエストがデータ構造を「壊しました」です。Encodeを介した明示的な再エンコードと'mysql_enable_utf8'の設定が役立ちました。

PerlにおけるUnicode（UTF-8）の操作の特性について説明してください。異なるエンコーディングで文字列を正しく読み書き処理する方法、およびよくあるエラーの原因となる細かな点は何ですか？

回答

正しい読み書き:

Unicode文字列の操作:

微妙な点:

ひっかけ問題