使用谷歌云中的数据流从云存储中读取数百万个文件的问题
发布时间:2022-07-31 19:50:12 294
相关标签: # java# java# json# 数据
场景:我正在尝试读取文件并将数据发送到 pub/sub
-
数百万文件存储在云存储文件夹(GCP)中
-
我使用来自 pub/sub 主题的模板“云存储上的文本文件到 Pub/Sub”创建了一个数据流管道
-
但是上面的模板无法读取数百万个文件,并且由于以下错误而失败
java.lang.IllegalArgumentException: Total size of the BoundedSource objects generated by split() operation is larger than the allowable limit. When splitting gs://filelocation/data/*.json into bundles of 28401539859 bytes it generated 2397802 BoundedSource objects with total serialized size of 199603686 bytes which is larger than the limit 20971520.
系统配置:Apache beam:2.38 Java SDK机器:高性能n1-highmem-16
你知道怎么解决这个问题吗?提前感谢
特别声明:以上内容(图片及文字)均为互联网收集或者用户上传发布,本站仅提供信息存储服务!如有侵权或有涉及法律问题请联系我们。
举报