MongoDB工具 >MongoDB Spark连接器 > Spark Connector Scala指南
源代码
有关包含以下示例的源代码,请参见 Introduction.scala。
启动Spark Shell时,请指定:
--packages
下载MongoDB Spark Connector软件包的选项。提供以下软件包:
mongo-spark-connector_2.11
用于Scala 2.11.x--conf
用于配置MongoDB Spark Connnector 的选项。这些设置配置SparkConf
对象。
注意
通过指定连接器配置时SparkConf
,您必须在设置之前添加适当的前缀。有关详细信息和其他可用的MongoDB Spark Connector选项,请参阅“
配置选项”。
例如,
127.0.0.1
),数据库连接(test
),和收集(myCollection
)从中读取数据,读偏好。127.0.0.1
),数据库连接(test
),和收集(myCollection
)要写入的数据。27017
默认情况下连接到端口。packages
选项以格式指定Spark Connector的Maven坐标groupId:artifactId:version
。SparkSession
通过在Spark shell中导入以下软件包,为和RDD(弹性分布式数据集)启用MongoDB Connector特定的功能和隐式
:
如果您需要对配置进行精细控制,则该
MongoSpark
随行程序提供了builder()
一种用于配置Mongo Spark连接器所有方面的方法。它也提供了一些方法来创建RDD,DataFrame
或Dataset
。
如果你得到一个,java.net.BindException: Can't assign requested address
检查以确保您尚未运行其他Spark Shell。
尝试设置SPARK_LOCAL_IP
环境变量;例如
启动Spark Shell时,尝试包括以下选项:
如果在运行本教程中的示例时遇到错误,则可能需要清除本地常春藤缓存(~/.ivy2/cache/org.mongodb.spark
和
~/.ivy2/jars
)。