Powershell: Про чтение содержимого файлов и скорость

18.06.21

Разработка - Инструментарий разработчика

Как читать большие файлы? сколько времени займет поиск в файле 144Мб? Сколько ищет в папке логов на 14Гб?

Скачать исходный код

Наименование Файл Версия Размер
Тест времени чтения и поиска
.ps1 1,19Kb
0
.ps1 1,19Kb Скачать

В Powershell существует множество способов прочитать файлы. Можно использовать встроенные cmdlets, можно использовать функции .NET. Захотелось узнать, какие быстрее.

Тесты проводились на PowerShell 5.1. Просто чтение файлов используется редко, поэтому замерял время чтения и поиска простой строки. В качестве данных использовался файл 144 мб, файл 1Гб и папка с полными логами ТЖ, размером 14Гб. Все специально лежало на обычном HDD.

1. Get-Content

Самый очевидный способ. У данной команды есть псевдоним cat, для тех, кто привык к linux.

Небольшое отступление: В Powershell есть уже встроенные псевдонимы, поэтому такие команды как grep, cat, ls будут отлично работать и делать именно то, что вы от них ожидаете при вызове без параметров. Параметры в Powershell свои, поэтому скопировать сложный вызов один в один не получится.

Get-Content "E:\exchange\logs_analyze\full\*\*.log" |
    Select-String -Pattern "CALL"

Результаты:

файл 144Мб - 12.1 сек

файл 1Гб - 92.8

папка 14Гб - 2608.5 сек

2. Get-Content -ReadCount

У данной команды есть параметр, который заставляет читать файл пачками строк, что должно быть быстрее на больших файлах.

2.1 Читаем по 1 строке

Get-Content "E:\exchange\logs_analyze\full\*\*.log" -ReadCount 1 |
    Select-String -Pattern ",CALL," -SimpleMatch

Результаты:

файл 144Мб - 13.4 сек

файл 1Гб - не проверял

папка 14Гб -  не проверял, очевидно будет долго

2.2 Читаем по 1000 строк.

Функция теперь выдает 1000 строк, поэтому пришлось добавить цикл обхода %{$_}, который передает дальше по одной строке.

Get-Content "E:\exchange\logs_analyze\full\*\*.log" -ReadCount 1000 | %{$_} |
    Select-String -Pattern "CALL"

Результаты:

файл 144Мб - 5.8 сек

файл 1Гб - 42.5 сек

папка 14Гб - 1131.2 сек

2.3 Читаем по 1000 строк. Другой способ поиска

Сразу ищем в цикле

Get-Content "E:\exchange\logs_analyze\full\*\*.log" -ReadCount 1000 | %{$_ -match "CALL"}

Результаты:

файл 144Мб - 1.7 сек

файл 1Гб - 13.2 сек

папка 14Гб - 173.3 сек

папка 14Гб, чтение по 10000 строк - 178.4 сек

3. Select-String

У функции Select-String есть параметр в котором можно указать путь до файлов, и она сама прочитает их без использования Get-Content

Select-String -Path "E:\exchange\logs_analyze\full\*\*.log" -Pattern "CALL"

Результаты:

файл 144Мб - 1.7 сек

файл 1Гб - 13 сек

папка 14Гб - 173 сек

4. StreamReader

Читаем файлы используя .NET

$reader = [System.IO.StreamReader]::New(".\21053021.log")
while (!$reader.EndOfStream) {
  $line = $reader.ReadLine()
  if ($line.Contains("CALL")) {
    $lines += $line
  }
}   

Результаты:

файл 144Мб - 2.5 сек

файл 1Гб - 20 сек

папка 14Гб - не тестировал

5. ReadAllLines

Читаем сразу все строки файла. При тестах оказалось, что этот метод есть много памяти.

$Lines = [System.IO.File]::ReadAllLines(".\21053021.log")
[Regex]::Matches($Lines, "CALL")

Результаты:

файл 144Мб - 2.8 сек

файл 1Гб - 21,5 сек

папка 14Гб -  не тестировал

6. ReadLines

Get-ChildItem -Path "E:\exchange\logs_analyze\full\*\*.log" | % {
  foreach($line in [System.IO.File]::ReadLines($_))
  {
      if ($line.Contains("CALL")) {
        $line
      }
  }
}

Результаты:

файл 144Мб - 1.65 сек

файл 1Гб - 12.5 сек

папка 14Гб - 177 сек

Выводы

При одинаковой скорости работы способов 2.3, 3, 6, удобнее всего использовать простой Select-String.

Сравнивать по скорости с grep из linux нет никакой необходимости, тут PowerShell проигрывает без шансов.

Powershell

См. также

Infostart Toolkit: Инструменты разработчика 1С 8.3 на управляемых формах

Инструментарий разработчика Роли и права Запросы СКД Платформа 1С v8.3 Управляемые формы Запросы Система компоновки данных Конфигурации 1cv8 Платные (руб)

Набор инструментов программиста и специалиста 1С для всех конфигураций на управляемых формах. В состав входят инструменты: Консоль запросов, Консоль СКД, Консоль кода, Редактор объекта, Анализ прав доступа, Метаданные, Поиск ссылок, Сравнение объектов, Все функции, Подписки на события и др. Редактор запросов и кода с раскраской и контекстной подсказкой. Доработанный конструктор запросов тонкого клиента. Продукт хорошо оптимизирован и обладает самым широким функционалом среди всех инструментов, представленных на рынке.

10000 руб.

02.09.2020    126163    683    389    

736

Infostart PrintWizard - создание и редактирование печатных форм в 1С 8.3

Пакетная печать Печатные формы Инструментарий разработчика Платформа 1С v8.3 Запросы 1С:Зарплата и кадры бюджетного учреждения 1С:Конвертация данных 1С:ERP Управление предприятием 2 1С:Управление торговлей 11 Платные (руб)

Инструмент, позволяющий абсолютно по-новому взглянуть на процесс разработки печатных форм. Благодаря конструктору можно значительно снизить затраты времени на разработку печатных форм, повысить качество и "прозрачность" разработки, а также навести порядок в многообразии корпоративных печатных форм.

18000 руб.

06.10.2023    8217    24    6    

44

Infostart УДиФ: Управление данными и формами 1С

Инструменты администратора БД Инструментарий разработчика Роли и права Платформа 1С v8.3 Конфигурации 1cv8 Россия Платные (руб)

Расширение позволяет без изменения кода конфигурации выполнять проверки при вводе данных, скрывать от пользователя недоступные ему данные, выполнять код в обработчиках. Не изменяет данные конфигурации, легко устанавливается практически на любую конфигурацию на управляемых формах.

10000 руб.

10.11.2023    4592    12    2    

38

SALE! %

PowerTools

Инструментарий разработчика Инструменты администратора БД Платформа 1С v8.3 Управляемые формы Конфигурации 1cv8 Россия Платные (руб)

Универсальный инструмент программиста для администрирования конфигураций. Сборник наиболее часто используемых обработок под единым интерфейсом.

3600 2280 руб.

14.01.2013    178799    1084    0    

862

Бустер Конвертации данных 3 (Infostart Toolkit)

Инструментарий разработчика 8.3.14 1С:Конвертация данных Россия Платные (руб)

Расширение для конфигурации “Конвертация данных 3”. Добавляет подсветку синтаксиса, детальную контекстную подсказку, глобальный поиск по коду.

15000 руб.

07.10.2021    15059    3    12    

37

Многопоточность. Универсальный «Менеджер потоков» 2.1

Инструментарий разработчика Платформа 1С v8.3 Конфигурации 1cv8 Россия Платные (руб)

Восстановление партий или взаиморасчетов, расчет зарплаты, пакетное формирование документов или отчетов - теперь все это стало доступнее. * Есть желание повысить скорость работы медленных алгоритмов! Но... * Нет времени думать о реализации многопоточности? * о запуске и остановке потоков? * о поддержании потоков в рабочем состоянии? * о передаче данных в потоки и как получить ответ из потока? * об организации последовательности? Тогда ЭТО - то что надо!!!

5000 руб.

07.02.2018    99734    239    97    

298

1С HTML Шаблоны / HTML Templates

Инструментарий разработчика Платформа 1С v8.3 Конфигурации 1cv8 Платные (руб)

Быстрая и удобная обработка для работы с шаблонами HTML. Позволяет легко и быстро формировать код HTML.

2040 руб.

27.12.2017    28385    4    10    

16

[ЕХТ] Фреймворк для Расширений 1С

Инструментарий разработчика Платформа 1С v8.3 Управляемые формы Платные (руб)

"Фреймворк для Расширений 1С" это универсальное и многофункциональное решение, упрощающее разработку и поддержку создаваемых Расширений. Поставляется в виде комплекта из нескольких Расширений с открытым исходным кодом. Работает в любых Конфигурациях в режиме Управляемого приложения с режимом совместимости 8.3.12 и выше без необходимости внесения изменений в Конфигурацию.

3000 руб.

27.08.2019    18470    6    8    

40
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. cdiamond 233 07.08.21 15:40 Сейчас в теме
PS C:\temp\10> measure-command { dir -path "rphost*\*.log" | % -parallel { (gc $_ -raw) -replace "`n(?!\d\d:\d\d\.\d+-\d+)"," " | out-file $_.FullName } }

Days              : 0
Hours             : 0
Minutes           : 1
Seconds           : 28
Milliseconds      : 673
Ticks             : 886732106
TotalDays         : 0,00102631030787037
TotalHours        : 0,0246314473888889
TotalMinutes      : 1,47788684333333
TotalSeconds      : 88,6732106
TotalMilliseconds : 88673,2106
Показать

10 ГБ логов перезаписывает обратно в однострочные записи за 1 минуту 30 секунд на Ryzen 5 3500U (чтобы потом без извращений доставать полные тексты запросов или контекста). Память сожрет всю, но не вывалится и при этом с ключом -AsJob выполняется в фоне и можно немедленно после запуска продолжать писать скрипты. Шансы догнать есть. Версия PowerShell Core 7.1.3
2. cdiamond 233 07.08.21 16:40 Сейчас в теме
(1) ну и для сравнения простой запрос наподобие вашего, на папке размером 10 ГБ:
PS C:\temp\10> measure-command { dir -path "rphost*\*.log" | % -parallel { sls ",CALL," $_ } }

Days              : 0
Hours             : 0
Minutes           : 0
Seconds           : 31
Milliseconds      : 789
Ticks             : 317894181
TotalDays         : 0,000367933079861111
TotalHours        : 0,00883039391666667
TotalMinutes      : 0,529823635
TotalSeconds      : 31,7894181
TotalMilliseconds : 31789,4181
Показать

На той же машине с помощью git-bash:
$ time (grep -Hr ",CALL," rphost*/*.log > 1.log)

real    0m14.937s
user    0m5.531s
sys     0m2.046s
Оставьте свое сообщение