pandas和spark dataframe互相转换实例详解
这篇文章主要介绍了pandas和sparkdataframe互相转换实例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
frompyspark.sqlimportSparkSession #初始化spark会话 spark=SparkSession\ .builder\ .getOrCreate() spark_df=spark.createDataFrame(pandas_df)
spark的dataframe转pandas的dataframe
importpandasaspd pandas_df=spark_df.toPandas()
由于pandas的方式是单机版的,即toPandas()的方式是单机版的,所以参考breeze_lsw改成分布式版本:
importpandasaspd def_map_to_pandas(rdds): return[pd.DataFrame(list(rdds))] deftopas(df,n_partitions=None): ifn_partitionsisnotNone:df=df.repartition(n_partitions) df_pand=df.rdd.mapPartitions(_map_to_pandas).collect() df_pand=pd.concat(df_pand) df_pand.columns=df.columns returndf_pand pandas_df=topas(spark_df)
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持毛票票。