ЧтениеДанных и ЗаписьДанных. Работа со строками

08.11.19

Разработка - Механизмы платформы 1С

Использование потоков и двоичных данных для работы со строками.

Начиная с релиза 8.3.9, в 1С есть инструментарий для работы с двоичными данными и потоками, широко уже освещённый и разобранный на примерах, в 8.3.10 добавлись ещё полезные глобальные функции. Но большинство примеров касаются именно т.н. BLOB, больших бинарных объектов, иная обработка которых, чем этими инструментами, невозможна.

В данном обзоре речь идёт о работе со строковыми данными разной степени форматированности, для которых есть и другие объекты в языке 1С, но в ряде случаев могут оказаться полезными и новшества. Особенно это касается сверхбольших объёмов, единовременная обработка которых затруднительна или невозможна привычным образом.

Новые инструменты могут работать на клиентском ПК в тонком и веб-клиентах, что убыстряет работу с файлами, и лишь для веб-клиента накладывает ограничения на поддерживаемые кодировки (см. СП). В обзоре подразумевается кодировка UTF-8, она же в платформе по умолчанию. Большинство рассмотренных операций можно выполнить несколькими способами, их различие в степени нагрузки на оперативку и процессор, т.е. и в быстродействии, и в степени надёжности по мере роста объёмов. Соответственно, становятся важны не только мощности сервера приложения, но и клиентского ПК.


Инструментарий

ДвоичныеДанные (далее ДД) - по сути, указатель на некую кучу (heap) в ОЗУ. Никак не упорядочены, но именно оперируя ими, наиболее экономим ресурсы. Размер можно только узнать. Доступа к внутренностям нет.

Буфер - по сути, тоже множество данных в ОЗУ, но с возможностью точечно, адресно, указав позицию в байтах, обратиться к данным, прочесть, изменить, вставить их; никакой структуры внутри себя не имеет - просто набор байтов. Буфер позволяет обработать все байты (отзеркалить, инвертировать итд). Размер можно узнать, изменить, назначить заранее (зависит от доступной ОЗУ, на диск не дампится). Доступ к внутренностям - произвольный.

Поток - по сути, данные с указателем текущей позиции, который двигается при операциях вперёд и который можно позиционировать. Поток может быть файловый, т.е. связанный с указателем на файл, наиболее близкий аналог связи и ограничений доступа, которые налагает такой объект в рамках файловой системы ОС это объект "СсылкаНаФайл" из 8.3.12 (в смысле блокировки при чтении/записи). Неудобен непредсказуемостью кэширования, выполняемого ОС, и неравномерной нагрузкой на жёсткий диск. Поток может быть в оперативке, созданный "на лету" из других объектов, обрабатываемый ими. Поток обрабатывается постепенно и может "съесть" весьма большие данные. Размер может расти произвольно, платформа предпринимает меры по поддержанию потока при любой нехватке ОЗУ. Доступ к внутренностям - последовательный.

ЧтениеДанных и ЗаписьДанных - по сути, насадки на потоки, расширяющие их возможности в части чтения фрагментов, в т.ч. по маркерам и разделителям, и более гибкой записи. Даже если их создавали по двоичным данным или файлу, всегда у чтения есть "исходный поток", у записи "целевой поток", причём с одним потоком могут поработать несколько чтений, несколько записей, равно те и другие. Они просто инструменты удобной обработки потоков, в т.ч. если явно с потоком и не работают, он всё равно - основной объект. Доступ к внутренностям - произвольный и последовательный, но и при произвольном указатель позиции двигается к концу данных.

РезультатЧтенияДанных - по сути, данные выборки в оптимизированном хранилище (если на клиенте, то могут дампиться во временные файлы, если на сервере, то могут помещаться в сеансовые файлы). Существуют отдельно от объекта чтения, породившего их, и от его исходного потока (даже если тот закрыт). По нагрузке на svhost наиболее схожи с ДД.

Большинство этих объектов получается друг из друга соответствующими методами и глобальными функциями.

Для работы со строками, особенно больших объёмов, интерес представляют ДД, потоки, чтение и запись. Буфер бесполезен, т.к. строка может содержать любые символы, чей размер разнится (например, латиница 1 байт, кириллица 2 байта итд), однозначно позиционироваться и порционно читать такое нельзя. Но буфер можно использовать как единый и неделимый промежуточный носитель неких данных, если операция с его участием быстрее иных способов. Операции разделения и слияния для буфера кэшируются, этим он тоже полезен.

Объекты имеют и синхронные, и асинхронные методы; в примерах использованы синхронные. Кстати, на сервере, очевидно, применимы только синхронные методы.

 

Из глобальных функций для случая строк представляют интерес следующие:

ИтоговыеДД=ПолучитьДвоичныеДанныеИзСтроки(ИсходнаяСтрока,Кодировка,СимволBOM);
ИтоговаяСтрока=ПолучитьСтрокуИзДвоичныхДанных(ИсходныеДД);
ИтоговыеДД=СоединитьДвоичныеДанные(МассивИсходныхДД);

Буфер=ПолучитьБуферДвоичныхДанныхИзСтроки(ИсходнаяСтрока,Кодировка,СимволBOM);
Буфер=ПолучитьБуферДвоичныхДанныхИзДвоичныхДанных(ИсходныеДД);
ИтоговыеДД=ПолучитьДвоичныеДанныеИзБуфераДвоичныхДанных(Буфер);
ИтоговаяСтрока=ПолучитьСтрокуИзБуфераДвоичныхДанных(Буфер,Кодировка);
ИтоговыйБуфер=СоединитьБуферыДвоичныхДанных(МассивИсходныхБуферов);

 

В части работы с файлами есть нюанс в режиме записи, системное перечисление "РежимОткрытияФайла". При использовании менеджера файловых потоков или одного файлового потока в конструкторе режим указывается явно; а если задействована ЗаписьДанных, то повлиять на режим нельзя, и работает она как "ОткрытьИлиСоздать". При этом, если файл уже был, и перезаписывается меньшим количеством данных, то старые данные будут "торчать" из-под новых, как некий недозатёртый "хвост" наподобие новой аудио/видео записи на кассетах, из-под которой в конце видна предыдущая запись на этом же месте. Рекомендуется для существующих файлов ставить режим "Обрезать", или удалять файлы средствами ОС, или очищать иначе.


Примеры

В качестве иллюстрации возможностей и разнообразия способов применения - общеизвестная задача разбивки строки на массив подстрок по разделителю. Любой из ниже перечисленных способов в разы и десятки раз медленнее, чем СтрРазделить и прочие варианты, но при больших объёмах все, кроме буферов, с гораздо большей вероятностью работоспособны.

// Все приведённые варианты ведут себя как СтрЗаменить(рСтрока,рРазделитель,Истина), т.е. включая пустые строки в результат
// Указаны времязатраты для 100'000 вызовов в цикле, СтрЗаменить показала время 1-2 сек.

// Только буферы данных, разовое разделение методом буфера; 22-26 сек.
Функция РазделитьСтрокуНаМассивПодстрок1(рСтрока,рРазделитель=" ")
	буфСтроки=ПолучитьБуферДвоичныхДанныхИзСтроки(рСтрока);
	буфРазделителя=ПолучитьБуферДвоичныхДанныхИзСтроки(рРазделитель);
	//
	мБуферов=буфСтроки.Разделить(буфРазделителя);
	//
	мРезультатов=Новый Массив;
	Для каждого рБуфер Из мБуферов Цикл
		мРезультатов.Добавить(ПолучитьСтрокуИзБуфераДвоичныхДанных(рБуфер));
	КонецЦикла;	
	Возврат мРезультатов;
КонецФункции

// ДвоичныеДанные и ЧтениеДанных, разовое разделение методом ЧтениеДанных; 28-32 сек.
Функция РазделитьСтрокуНаМассивПодстрок2(рСтрока,рРазделитель=" ")
	рЧтение=Новый ЧтениеДанных(ПолучитьДвоичныеДанныеИзСтроки(рСтрока));
	мРезЧтения=рЧтение.Разделить(рРазделитель);
	рЧтение.Закрыть();
	//
	мРезультатов=Новый Массив;
	Для каждого рРезультат Из мРезЧтения Цикл
		мРезультатов.Добавить(ПолучитьСтрокуИзДвоичныхДанных(рРезультат.ПолучитьДвоичныеДанные()));
	КонецЦикла;
	Возврат мРезультатов;
КонецФункции

// ДвоичныеДанные и ЧтениеДанных, последовательное чтение строк по разделителю; 27-31 сек.
Функция РазделитьСтрокуНаМассивПодстрок3(рСтрока,рРазделитель=" ")
	рЧтение=Новый ЧтениеДанных(ПолучитьДвоичныеДанныеИзСтроки(рСтрока));
	//
	мРезультатов=Новый Массив;
	Пока Истина Цикл
		#Если Клиент Тогда
			ОбработкаПрерыванияПользователя();
		#КонецЕсли
		мРезультатов.Добавить(рЧтение.ПрочитатьСтроку(,рРазделитель));
		// или так (но это дольше и более ресурсоёмко, 46-52 сек.), даже если без промежуточных переменных:
		//рез=рЧтение.ПрочитатьДо(рРазделитель);
		//рДД=рез.ПолучитьДвоичныеДанные();
		//мРезультатов.Добавить(ПолучитьСтрокуИзДвоичныхДанных(рДД));
		//
		Если рЧтение.ЧтениеЗавершено Тогда Прервать КонецЕсли;
	КонецЦикла;
	рЧтение.Закрыть();
	Возврат мРезультатов;
КонецФункции

Эти примеры иллюстрируют разнообразие приёмов в рассматриваемом инструментарии по части чтения. Замечу, что "ПрочитатьСтроку" и вообще все методы, возвращающие символы и строки, ведут себя как буферы, а не как потоки, поэтому следует осмотрительно относиться к возможному объёму прочитанного, дабы не превысить выделенные объёмы ОЗУ.

 

С помощью этих инструментов можно решать вопрос конкатенации, особенно это эффективно для одинаковых строк (мы знаем, что  строковые операции весьма времяёмки), пример: 

// этот код выполняется примерно 30 сек.
а="Это";
б=" круто";
Для й=1 По 100000 Цикл
	а=а+б;
КонецЦикла;

// этот код выполняется 1 сек.
мДД=Новый Массив;
мДД.Добавить(ПолучитьДвоичныеДанныеИзСтроки("Это"));
рДДДобавка=ПолучитьДвоичныеДанныеИзСтроки(" круто"));
Для й=1 По 100000 Цикл
	мДД.Добавить(рДДДобавка);
КонецЦикла;
а=ПолучитьСтрокуИзДвоичныхДанных(СоединитьДвоичныеДанные(мДД));

 

Более сложный пример иллюстрирует чтение и запись с применением потоков. Задача: разделение xml-файла большого размера, с большим количеством однотипно повторяющихся узлов. Решение не вполне универсальное, но работоспособное:

	// разбивка хмл-файла на примере файла Import CML 2.X в нотации 1С-Битрикс
	
	// входные параметры
	имяф="C:\НекийПутьКФайлу\import___f3b35232-98a0-4b75-b7c5-6aa8c7199ff2.xml";
	квоБлоковВФайле=100; // последний файл может быть меньшего размера
	рТег="<Товар>";
	рСтаршийТег="<Товары>";
	рКодировка=КодировкаТекста.UTF8;
	
	// собственно действия
	рЗакрытиеСтаршегоТега=СтрЗаменить(рСтаршийТег,"<","</");
	
	рФайл=Новый Файл(имяф);	
	рПоток=Новый ФайловыйПоток(имяф,РежимОткрытияФайла.Открыть);
	
	рЧтение=Новый ЧтениеДанных(рПоток,рКодировка);	
	ддНачало=рЧтение.ПрочитатьДо(рТег).ПолучитьДвоичныеДанные();
	рЧтение.ПропуститьДо(рЗакрытиеСтаршегоТега);
	ддКонец=рЧтение.Прочитать().ПолучитьДвоичныеДанные();
	рЧтение.Закрыть();
	
	рПоток.Перейти(0,ПозицияВПотоке.Начало); // т.к. чтение упёрлось в конец потока
	
	рДДТега=ПолучитьДвоичныеДанныеИзСтроки(рТег);
	рДДЗакрытиеСтаршегоТега=ПолучитьДвоичныеДанныеИзСтроки(рЗакрытиеСтаршегоТега);
	
	// разные способы манипуляции кусками данных
	рПодвариант=3;
	Если рПодвариант=1 Тогда
		рЧтение=Новый ЧтениеДанных(рПоток,рКодировка);
		мДоИПослеСтаршего=рЧтение.Разделить(рЗакрытиеСтаршегоТега); // самое ресурсоёмкое
		резДоСтаршего=мДоИПослеСтаршего.Получить(0);
		подПоток=резДоСтаршего.ОткрытьПотокДляЧтения();
		рЧтениеБлоков=Новый ЧтениеДанных(подПоток);
		рЧтение.Закрыть();
		рЧтениеБлоков.ПропуститьДо(рСтаршийТег);
		//
	ИначеЕсли рПодвариант=2 Тогда
		рЧтение=Новый ЧтениеДанных(рПоток,рКодировка);
		рЧтение.ПропуститьДо(рСтаршийТег);
		рез1=рЧтение.ПрочитатьДо(рЗакрытиеСтаршегоТега); // самое ресурсоёмкое
		подПоток=рез1.ОткрытьПотокДляЧтения();
		рЧтениеБлоков=Новый ЧтениеДанных(подПоток);
		рЧтение.Закрыть();
		//
	ИначеЕсли рПодвариант=3 Тогда // наиболее быстрый способ, оперирует значительно меньшими объёмами
		рЧтениеБлоков=Новый ЧтениеДанных(рПоток,рКодировка);
		//
	КонецЕсли;	
	
	мБлоков=рЧтениеБлоков.Разделить(рТег); // саму рТег не включает в результат
	рЧтениеБлоков.Закрыть();
	квоБлоковВсего=мБлоков.Количество();
	
	рПоток.Закрыть();
	
	рНомерБлока=999999;
	рСчётчикФайлов=1;
	рИмяРезФайла="";
	рЗапись=Неопределено;
	
	Для й=0 По квоБлоковВсего-1 Цикл
		рБлок=мБлоков.Получить(й);
		ОбработкаПрерыванияПользователя();
		//
		Если рНомерБлока>квоБлоковВФайле Тогда
			// заканчиваем предыдущий
			Если рЗапись<>Неопределено Тогда	
				рЗапись.Записать(рДДЗакрытиеСтаршегоТега);
				рЗапись.Записать(ддКонец);
				рЗапись.Закрыть();
				Сообщить("Обработан файл "+рИмяРезФайла);
			КонецЕсли;
			// начинаем новый
			рИмяРезФайла=рФайл.Путь+рФайл.ИмяБезРасширения+"_part"+Формат(рСчётчикФайлов,"ЧГ=0")+рФайл.Расширение;
			рЗапись=Новый ЗаписьДанных(рИмяРезФайла,рКодировка);
			рЗапись.Записать(ддНачало);
			рНомерБлока=0;
			рСчётчикФайлов=рСчётчикФайлов+1;
		КонецЕсли;
		//
		// вписываем текущий блок
		рДДБлока=рБлок.ПолучитьДвоичныеДанные();
		Если рПодвариант<>3 и й<>0 Тогда
			рЗапись.Записать(рДДТега);
		ИначеЕсли рПодвариант=3 Тогда			
			Если й=0 Тогда // чтение взяло блок от начала до разделителя целиком, вырезаем заголовочную часть
				рЧтениеПервогоБлока=Новый ЧтениеДанных(рДДБлока);
				рЧтениеПервогоБлока.ПропуститьДо(рТег);
				рДДБлока=рЧтениеПервогоБлока.Прочитать().ПолучитьДвоичныеДанные();
				рЧтениеПервогоБлока.Закрыть();
			ИначеЕсли й=квоБлоковВсего-1 Тогда // чтение взяло блок от разделителя до конца, вырезаем хвостовую часть
				рЧтениеПоследнегоБлока=Новый ЧтениеДанных(рДДБлока);
				рДДБлока=рЧтениеПоследнегоБлока.ПрочитатьДо(рЗакрытиеСтаршегоТега).ПолучитьДвоичныеДанные();
				рЧтениеПоследнегоБлока.Закрыть();
				рЗапись.Записать(рДДТега);
			Иначе
				рЗапись.Записать(рДДТега);
			КонецЕсли;			
		КонецЕсли;		
		рЗапись.Записать(рДДБлока);
		рНомерБлока=рНомерБлока+1;
	КонецЦикла;
	
	// заканчиваем последний
	Если рЗапись<>Неопределено Тогда
		рЗапись.Записать(рДДЗакрытиеСтаршегоТега);
		рЗапись.Записать(ддКонец);
		рЗапись.Закрыть();
		Сообщить("Обработан файл "+рИмяРезФайла);
	КонецЕсли;
	
	Сообщить("Всё!");

 

Если работа с потоком идёт через объекты-"насадки", то есть основная, доступная для чтения позиция, и неявные системные позиции по мнению 1С, недоступные из языка. Поэтому перепозиционирование указателя на потоке-владельце Чтения или Записи в процессе работы с ними выполнять не следует - сначала их надо закрыть, потом изменить позицию и лишь потом сделать новые Чтение/Запись. Так, например, команда 

рЧтение.ИсходныйПоток().Перейти(0,ПозицияВПотоке.Начало);

вызывает ошибки вроде "В процессе работы с ЧтениеДанных произошло изменение позиции нижележащего потока извне. Это может привести к некорректной работе приложения.", после этого платформа закрывает ошибкоопасный контекст с очисткой кэша и удалением всех данных из сеанса и из памяти.
 

Итого

Сочетая избирательное чтение и запись вышеописанными способами с такими инструментами, как DOM, XDTO, XML+XPath+Xslt, RegExp и прочим, можно создать успешное решение для строковых big data промышленных масштабов - например, для обменов или библиографических систем.

Тестирование выполнялось на релизах 8.3.10.2561, 8.3.15.1534 и 8.3.15.1565.

Если тема интересует, могу выложить более развёрнутый пример, а также сведения о сравнительной производительности наиболее общих действий, имеющих варианты воплощения.

 

p.s. Долго думал, как правильно во множественном числе - "буферы" или "буфера". Не взыщите)))

Двоичные данные ЧтениеДанных ЗаписьДанных Поток Буфер Разбивка XML

См. также

Поинтегрируем: сервисы интеграции – новый стандарт или просто коннектор?

Обмен между базами 1C Администрирование СУБД Механизмы платформы 1С Платформа 1С v8.3 Бесплатно (free)

В платформе 8.3.17 появился замечательный механизм «Сервисы интеграции». Многие считают, что это просто коннектор 1С:Шины. Так ли это?

11.03.2024    4490    dsdred    53    

71

Как готовить и есть массивы

Механизмы платформы 1С Платформа 1С v8.3 Бесплатно (free)

Все мы используем массивы в своем коде. Это один из первых объектов, который дают ученикам при прохождении обучения программированию. Но умеем ли мы ими пользоваться? В этой статье я хочу показать все методы массива, а также некоторые фишки в работе с массивами.

24.01.2024    5286    YA_418728146    25    

63

Планы обмена VS История данных

Обмен между базами 1C Механизмы платформы 1С Платформа 1С v8.3 Бесплатно (free)

Вы все еще регистрируете изменения только на Планах обмена и Регистрах сведений?

11.12.2023    6402    dsdred    36    

111

1С-ная магия

Механизмы платформы 1С Бесплатно (free)

Язык программирования 1С содержит много нюансов и особенностей, которые могут приводить к неожиданным для разработчика результатам. Сталкиваясь с ними, программист начинает лучше понимать логику платформы, а значит, быстрее выявлять ошибки и видеть потенциальные узкие места своего кода там, где позже можно было бы ещё долго медитировать с отладчиком в поисках источника проблемы. Мы рассмотрим разные примеры поведения кода 1С. Разберём результаты выполнения и ответим на вопросы «Почему?», «Как же так?» и «Зачем нам это знать?». 

06.10.2023    18467    SeiOkami    46    

118

Дефрагментация и реиндексация после перехода на платформу 8.3.22

Механизмы платформы 1С Платформа 1С v8.3 Бесплатно (free)

Начиная с версии платформы 8.3.22 1С снимает стандартные блокировки БД на уровне страниц. Делаем рабочий скрипт, как раньше.

14.09.2023    12086    human_new    27    

74

Валидация JSON через XDTO (включая массивы)

WEB-интеграция Универсальные функции Механизмы платформы 1С Платформа 1С v8.3 Конфигурации 1cv8 Бесплатно (free)

При работе с интеграциями рано или поздно придется столкнуться с получением JSON файлов. И, конечно же, жизнь заставит проверять файлы перед тем, как записывать данные в БД.

28.08.2023    8807    YA_418728146    6    

141

Внешние компоненты Native API на языке Rust - Просто!

Механизмы платформы 1С Платформа 1С v8.3 Конфигурации 1cv8 Бесплатно (free)

Внешние компоненты для 1С можно разработывать очень просто, пользуясь всеми преимуществами языка Rust - от безопасности и кроссплатформенности до удобного менеджера библиотек.

20.08.2023    6274    sebekerga    54    

94

Все скопируем и вставим! (Буфер обмена в 1С 8.3.24)

Механизмы платформы 1С Платформа 1С v8.3 Конфигурации 1cv8 Бесплатно (free)

Рассмотрим новую возможность 8.3.24 и как её можно эффективно использовать

27.06.2023    15976    SeiOkami    31    

103
Комментарии
В избранное Подписаться на ответы Сортировка: Древо развёрнутое
Свернуть все
1. nbeliaev 828 04.10.19 12:05 Сейчас в теме
Я бы еще добавил, что Строка есть не что иное как массив символом (chars). Также Строка не мутабельна (то есть "а" + "б" -> всегда новая строка в памяти "аб"), отсюда требовательность к ресурсам.
2. A_Max 19 04.10.19 12:10 Сейчас в теме
тоже добавлю:

мДД=Новый Массив;
мДД.Добавить("Это");
Для й=1 По 100000 Цикл
	мДД.Добавить(" круто");
КонецЦикла;
а=СтрСоединить(мДД, "");


Тоже выполниться за секунду
user1367144; chembulatov76; Perfolenta; wowik; +4 Ответить
3. cosmo2004 38 05.10.19 20:20 Сейчас в теме
(2) Для данного случая хорошо, но массив полностью находится в оперативке и можно получить нехватку памяти, поток универсальнее.
5. Yashazz 4709 06.10.19 09:01 Сейчас в теме
(3) Именно, поэтому я разные варианты и показываю. Опять же, между Поток.Записать(Буфер,0,Буфер.Размер) и Запись.Записать(Буфер) тоже есть разница.
6. Yashazz 4709 06.10.19 09:02 Сейчас в теме
(2) Потому как есть у меня подозрение, что оное действие в потрохах платформы чем-то вроде двоичных данных и реализовано)
4. Gossluzh 05.10.19 22:17 Сейчас в теме
что это вообще такое????
7. Cyberhawk 135 30.10.19 14:47 Сейчас в теме
ведут себя как СтрЗаменить
СтрРазделить
8. Altez 256 24.10.20 00:40 Сейчас в теме
С Чтением из COM1: порта прокатит?
9. Yashazz 4709 25.10.20 19:01 Сейчас в теме
(8) Можно конкретнее? Чтение из серийного порта, старт/стоп-биты и прочее?
10. Altez 256 25.10.20 23:07 Сейчас в теме
(9) Читал вес с весов CAS AD 2.5. (RS-232, 9600, N, 1) через MSCOMMLib
Ищу способы работать с COMпортом на чтение и запись средствами платформы 1с. (MSCOMM ограничивает 32битной платформой)

Тестировал ещё 3 варианта:
1) Через ActiveX CasAD_AP_DB_EM - плавающая проблема инициализации на платформе выше 8.3.13 (https://t.me/osminog1s/209910)
2) Через свою компоненту-обертку на C# над ActiveX CasAD_AP_DB_EM - не перенеслась на другой ПК
3) Через чтение/запись в порт из С# напрямую - нужно больше доступа к весам для отладки
11. Yashazz 4709 26.10.20 12:06 Сейчас в теме
(10) Скажем так: если будет некий объём данных, входящий в 1С и распознаваемый ею (хоть Base64, хоть двоичные данные, хоть поток), то обработается. Я из js двоичный поток ловил, он был объектом "ПотокВПамяти". Насчёт обёрток сказать трудно - внешние компоненты, отдающие такое, ни разу не встречал и не щупал.
12. kembrik 10 22.07.21 17:26 Сейчас в теме
Бьюсь сейчас над сохранением m3u8 потока неизвестной заранее длины с помощью 1С. если встречали где наработки направьте)
13. Yashazz 4709 22.07.21 19:11 Сейчас в теме
(12) Встречал, на каком-то профильном сайте, то ли Кодерлайн, то ли 1сПрограммист, был разбор именно на подобном примере. Ссылок не найду, это гуглить надо, но было.
14. kembrik 10 23.07.21 14:45 Сейчас в теме
15. kembrik 10 19.01.22 13:34 Сейчас в теме
(13) Ссылку так и не нашел, немного подсмотрел в имеющихся питоновских либах и сейчас думаю над наиболее быстрым и безопасным слиянием файлов. В результате на входе у меня следующее: за раз в одном манифесте читаются три *.ts файла, продолжительностью 2 секунды каждый, ну от битрейта зависит конечно но в масштабах имеющейся оперативки размер несущественен. Обычно маленькие ts сливаются в один любым аналогом copy /b *.ts joined_files.ts, поэтому сейчас реализовано "быстро но небезопасно", каждый файлик читается в поток и СоединитьДвоичныеДанные, (получили 6 секунд) и результирующий кидается в новый массив и уже после прекращение источника вещания или после наступления "время "Ч" добавление в массив прекращается и данные соединяются. Подход плох тем что на диске у нас никаких промежуточных результатов и любой краш приводит к тому что на диске у нас пусто, а хотелось бы чтобы пропали не все два часа вещания m3u8 а только несколько минут. Соответственно как человека который с потоками уже плотно поработал хочется спросить, какой вариант реализации вы бы выбрали эмпирически

1. Всегда сливаются вместе предыдущие два потока, начиная с третьего через СоединитьДвоичныеДанные, результат сбрасывается на диск. Приходит четвертый пакет - поток создается из файла на диске, двоичные данные из него забрасываются в массив, третий пакет в массив, СоединитьДвоичныеДанные и опять пишем на диск. вопрос который возникает - при увеличении размера файла запись может занимать длительное время - тогда мы можем упустить несколько ts файлов - значит надо организовывать очередь и тд,
2. Начало как в п.1, но поток создаем из файла на диске, вычисляем размер, переходим через перейти в ПозицияВПотоке.Конец и делаем Добавить из буфера, СоединитьДвоичныеДанные не используем
3. не ломаем голову, пишем каждый мелкий ts сразу на диск, корректно сортируем и делаем объединение либо средствами файловой системы, либо через добавление в массив и СоединитьДвоичныеДанные , самостоятельно разбивая на порции перед объединением (у нас 4000 файлов, бьем на порции по 200, потом бьем на порции по 10, и начинаем соединять, укрупняя пакеты
4. ваш вариант.

Понятно я постараюсь реализовать максимальное количество вариантов и попробовать, но вдруг вы какие то подводные камни укажете сразу
16. vandalsvq 1537 21.08.22 15:45 Сейчас в теме
Столкнулся с тем, что часть методов объекта ЧтениеДанных не работает в веб-клиенте. Обратите внимание, что РезультатЧтенияДанных например не может в веб-клиенте выдавать двоичные данные или буфер двоичных данных. Что значительно усложняет работу, а некоторые возможности попросту аннулируются.
Так же есть особенность, что чтение данных иногда в веб-клиенте показывает диалоговое окно с разрешением копирования файла. В общем рекомендую иметь в виду, если пишите код потенциально для веб клиента
Оставьте свое сообщение