Fix to_csv chunk sizing

2025-12-25 21:04:45 -05:00 · 2023-01-30 17:05:03 -08:00 · 2023-01-30 17:05:03 -08:00 · 4e8d6c9b6b
commit 4e8d6c9b6b
parent 33b5b938c1
1 changed files with 14 additions and 1 deletions
--- a/scripts/to_csv.py
+++ b/scripts/to_csv.py
@ -21,12 +21,25 @@ log.setLevel(logging.DEBUG)
 log.addHandler(logging.StreamHandler())


+def read_and_decode(reader, chunk_size, max_window_size, previous_chunk=None, bytes_read=0):
+	chunk = reader.read(chunk_size)
+	bytes_read += chunk_size
+	if previous_chunk is not None:
+		chunk = previous_chunk + chunk
+	try:
+		return chunk.decode()
+	except UnicodeDecodeError:
+		if bytes_read > max_window_size:
+			raise UnicodeError(f"Unable to decode frame after reading {bytes_read:,} bytes")
+		return read_and_decode(reader, chunk_size, max_window_size, chunk, bytes_read)
+
+
 def read_lines_zst(file_name):
 	with open(file_name, 'rb') as file_handle:
 		buffer = ''
 		reader = zstandard.ZstdDecompressor(max_window_size=2**31).stream_reader(file_handle)
 		while True:
-			chunk = reader.read(2**27).decode()
+			chunk = read_and_decode(reader, 2**27, (2**29) * 2)
 			if not chunk:
 				break
 			lines = (buffer + chunk).split("\n")