Ответ.

Парсинг больших файлов и потоков «на лету» (one-pass parsing) — важный приём в Perl для задач лог-аналитики, обработки данных, пакетирования и взаимодействия с внешними сервисами. Однопроходные парсеры требуют высокой эффективности и минимального потребления памяти, поскольку не позволяют загрузить весь файл или поток в память полностью.

История вопроса

С самого начала Perl был популярен среди сисадминов и аналитиков логов из-за мощных строковых операций и возможности обрабатывать гигантские текстовые потоки без больших затрат на память. Использование регулярных выражений и генераторов потоковой обработки стало стандартом при построении таких парсеров.

Проблема

Главные трудности:

избегание утечек памяти
правильный разбор сложных шаблонов на лету
корректная обработка ошибок
устойчивость к невалидным/частично разбитым данным

Решение

Базовые приёмы:

Использовать построчное чтение файлов/потоков (while (<$fh>) { ... })
Для сложной логики разбора — постепенно накапливать частичные результаты
Парсить строки или блоки только по мере поступления

Пример кода:

open my $fh, '<', 'big.log' or die $!;
while (my $line = <$fh>) {
    next unless $line =~ /^ERROR/;
    if ($line =~ /code=(\d+)/) {
        print "Error code: $1
";
    }
}
close $fh;

Ключевые особенности:

Не создаётся массив всех строк — данные обрабатываются по одной
Гибкая возможность пропускать или заканчивать обработку по частичному совпадению
Композиция с файлами, сокетами, каналами, STDIN/STDOUT

Вопросы с подвохом.

Можно ли безопасно использовать slurp (чтение всего файла в память) при обработке однопроходных парсеров?

Нет, slurp (чтение всего файла в строку через local $/;) приведёт к резкому росту потребления памяти, что неприемлемо для больших файлов в условиях большого потока данных.

Чем опасен простой while (<$fh>) без явной обработки ошибок чтения?

Если не проверять результат чтения и не обрабатывать ошибки, можно пропустить повреждённые или незаконченые строки, либо потерять данные при сбое потока.

while (defined(my $line = <$fh>)) { ... }

Как правильно обрабатывать бинарные и мультибайтовые потоки?

Перл по умолчанию работает с текстовыми файлами. Для обработки бинарных данных важно установить binmode для дескриптора: binmode($fh);, а для мультибайтового UTF-8 потока: binmode($fh, ":encoding(UTF-8)");.

Типовые ошибки и анти-паттерны

Использование slurp при работе с большими файлами
Необработанные ошибки ввода-вывода
Нарушение границ блоков (например, при парсинге мультистрочных записей)

Пример из жизни

Негативный кейс

Компания анализировала логи, прочитывая их полностью через slurp для последующего разбиения на строки. С ростом количества данных сервер начал "умирать" из-за нехватки памяти на каждой итерации.

Плюсы:

Короткий и понятный код для маленьких файлов

Минусы:

Абсолютная неработоспособность на больших логах, рост задержек, падение системы

Позитивный кейс

Аналитик строил цепочку однопроходных парсеров: из каждой строки выделялись только интересующие события, результат тут же сбрасывался либо агрегировался в памяти с ограничением (например, count или sum).