Spark进行昂贵的S3 API调用

Docker 6年前 34

+-

Spark进行昂贵的S3 API调用

我有一个spark作业，该作业会收到约100k个文件的列表，并每10分钟调用一次。这些文件在s3中。路径看起来像：

s3://<bucket>/<folder>/<file_name>

文件加载如下：

df = spark.read.option("mergeSchema", "true").schema(schema).parquet(*files)

在幕后，似乎spark对每个文件进行了LIST和HEAD API调用。这是非常浪费的，因为这些是files而不是directories，并且由于工作性质而被[保证]存在。 Ive查看了Spark代码库，看来，此行为是InMemoryFileIndex的一部分。有没有一种方法可以将spark配置为直接进行GET调用并跳过列表/标题调用？

我有一个spark作业，该作业会收到约100k个文件的列表，并每10分钟调用一次。这些文件在s3中。路径看起来像：s3：//
/ / 文件是...

0
投票

这非常浪费，因为这些文件不是目录，并且由于作业的性质而保证存在。

这里的问题是文件系统层不知道“工作的本质”，因此它有时会自己进行探测

看起来也像InMemoryFileIndex.scala那样效率很低；它除了HDFS的一些硬编码位外，还执行自己的树形遍历，并且似乎确实重新扫描了刚刚列出的所有文件。

是的，正如开源项目所说，还有改进的余地。但是因为他们也倾向于说“请提交补丁”

Spring Boot Spring Cloud Docker Spring node.js angular react-native avalon django vue.js hadoop .net

2024年可用、好用、值得推荐的磁力搜索引擎汇总（长期更新）

2024年可用、好用、值得推荐的磁力搜索引擎汇总（长期更新）

每日神器 5年前 208104

23个全网VIP影视剧解析工具（内置接口、有些支持搜索）

23个全网VIP影视剧解析工具（内置接口、有些支持搜索）

每日神器 4年前 5674

python – 如何更改Pandas数据帧中的特定行标签？

python – 如何更改Pandas数据帧中的特定行标签？

Python 6年前 88

这个国产 AI 报告生成神器，真的起飞。

这个国产 AI 报告生成神器，真的起飞。

GitHub项目推荐 1年前 210

c# – 在DataGridViewComboboxColumn上设置所选项目

c# – 在DataGridViewComboboxColumn上设置所选项目

C# 7年前 79

python – 为什么timedeltas不能乘以/除以NumPy？

python – 为什么timedeltas不能乘以/除以NumPy？

Python 7年前 37

黑枫视界TV302会员解锁版：任意注册即可解锁！新增多个大厂片源、超级流畅~

黑枫视界TV302会员解锁版：任意注册即可解锁！新增多个大厂片源、超级流畅~

每日神器 4年前 790

ZYPlayer285电脑版：全网影视资源聚合搜索+播放（附福利源导入教程）

ZYPlayer285电脑版：全网影视资源聚合搜索+播放（附福利源导入教程）

每日神器 4年前 3198

DeepMind 提出 Perceiver：使用RNN的方式进行注意力，通过交叉注意力节省计算量，附使用方法

神经网络 5年前 118

告别手动剪辑！这款开源API让CapCut实现自动化视频处理

告别手动剪辑！这款开源API让CapCut实现自动化视频处理

GitHub项目推荐 10月前 302

python-Kivy TextInput如何结合使用hint_text和focus

python-Kivy TextInput如何结合使用hint_text和focus

Python 6年前 37

三流员工卖命，二流员工卖时间，一流员工.....

三流员工卖命，二流员工卖时间，一流员工.....

每日神器 5年前 27

spring – 在微服务架构中存储文件的正确方法是什么？

spring – 在微服务架构中存储文件的正确方法是什么？

Docker 6年前 68

python – 导入错误：找不到paho.mqtt.client

python – 导入错误：找不到paho.mqtt.client

Docker 7年前 51

kube-router实现networkpolicy的原理

kube-router实现networkpolicy的原理

Docker 5年前 156

安装docker版本的superset[完整过程]

安装docker版本的superset[完整过程]

Docker 5年前 435

尝试运行docker-compose.yml文件时接收拉取访问被拒绝错误

尝试运行docker-compose.yml文件时接收拉取访问被拒绝错误

Docker 7年前 38

docker安装xxl-job-admin

docker安装xxl-job-admin

Docker 5年前 42

将容器端口绑定到Dockerfile内的主机

将容器端口绑定到Dockerfile内的主机

Docker 6年前 26

如何限制`docker run`执行时间？

如何限制`docker run`执行时间？

Docker 6年前 134

amazon-web-services – Kubernetes：如何设置VolumeMount用户组和文件权限

amazon-web-services – Kubernetes：如何设置VolumeMount用户组和文件权限

Docker 6年前 243

centos – Linux命令“systemctl status”在Docker容器中不起作用

centos – Linux命令“systemctl status”在Docker容器中不起作用

Docker 6年前 27

在Dockerfile中的ENV指令中未设置$PWD

在Dockerfile中的ENV指令中未设置$PWD

Docker 7年前 67

使用Minikube的Docker中的Hyper-v和VirtualBox冲突

使用Minikube的Docker中的Hyper-v和VirtualBox冲突

Docker 6年前 59