Sail 的使命是统一流处理、批处理和计算密集型(AI)工作负载。目前,Sail 提供了 Spark SQL 和 Spark DataFrame API 的掉入式替代品,在单节点和分布式环境中均可使用。
sail
命令启动本地 Sail 服务器。sail spark server --port 50051
from pysail.spark import SparkConnectServer
server = SparkConnectServer(port=50051)
server.start(background=False)
kubectl apply -f sail.yaml
kubectl -n sail port-forward service/sail-spark-server 50051:50051
一旦有了运行中的 Sail 服务器,您就可以通过 PySpark 连接。无需更改您的 PySpark 代码!
from pyspark.sql import SparkSession
spark = SparkSession.builder.remote("sc://localhost:50051").getOrCreate()
spark.sql("SELECT 1 + 1").show()
请参考 快速入门指南 了解更多详细信息。
Sail 作为 Python 包在 PyPI 上可用。您可以使用 pip
进行安装。
pip install "pysail[spark]"
或者,您可以从源代码安装以获得针对硬件架构的更好性能。您可以按照 安装指南 了解更多详细信息。
我们欢迎社区的贡献!您可以通过以下方式参与:
如需商业支持,请联系 LakeSail。
© 2024 LakeSail. 保留所有权利。