MongoDB工具 >MongoDB Spark连接器 > Spark Connector R指南
源代码
有关包含以下示例的源代码,请参见 Introduction.R。
sparkR
贝壳本教程使用sparkR
Shell,但是代码示例与独立的R应用程序同样有效。
启动sparkR
外壳程序时,可以指定:
--packages
下载MongoDB Spark Connector软件包的选项。提供以下软件包:
mongo-spark-connector_2.11
用于Scala 2.11.x--conf
用于配置MongoDB Spark Connnector 的选项。这些设置配置SparkConf
对象。
注意
通过指定连接器配置时SparkConf
,您必须在设置之前添加适当的前缀。有关详细信息和其他可用的MongoDB Spark Connector选项,请参阅“
配置选项”。
例如,
127.0.0.1
),数据库连接(test
),和收集(myCollection
)从中读取数据,读偏好。127.0.0.1
),数据库连接(test
),和收集(myCollection
)要写入的数据。27017
默认情况下连接到端口。packages
选项以格式指定Spark Connector的Maven坐标groupId:artifactId:version
。SparkSession
对象注意
启动时,默认情况下sparkR
会得到一个SparkSession
对象
spark
。在独立的R应用程序中,您需要SparkSession
显式创建对象,如下所示。
如果在启动时指定spark.mongodb.input.uri
和spark.mongodb.output.uri
配置选项sparkR
,则默认SparkSession
对象将使用它们。如果您想SparkSession
从中创建自己的对象
sparkR
,则可以使用sparkr.session()
并指定不同的配置选项。
您可以使用SparkSession
对象将数据写入MongoDB,从MongoDB读取数据,创建DataFrame以及执行SQL操作。