返回

使用谷歌云中的数据流从云存储中读取数百万个文件的问题

发布时间:2022-07-31 19:50:12 294
# java# java# json# 数据

场景:我正在尝试读取文件并将数据发送到 pub/sub

  1. 数百万文件存储在云存储文件夹(GCP)中

  2. 我使用来自 pub/sub 主题的模板“云存储上的文本文件到 Pub/Sub”创建了一个数据流管道

  3. 但是上面的模板无法读取数百万个文件,并且由于以下错误而失败

    java.lang.IllegalArgumentException: Total size of the BoundedSource objects generated by split() operation is larger than the allowable limit. When splitting gs://filelocation/data/*.json into bundles of 28401539859 bytes it generated 2397802 BoundedSource objects with total serialized size of 199603686 bytes which is larger than the limit 20971520.

系统配置:Apache beam:2.38 Java SDK机器:高性能n1-highmem-16

你知道怎么解决这个问题吗?提前感谢

特别声明:以上内容(图片及文字)均为互联网收集或者用户上传发布,本站仅提供信息存储服务!如有侵权或有涉及法律问题请联系我们。
举报
评论区(1)
按点赞数排序
用户头像