Import CSV and Parquet Files into PySpark Dataframe

–

Import CSV File

%%pyspark ## Magic Command, set language
import pyspark.sql.functions as f

#Absolute OneLake Path
pathContainer = 'abfss://a3663432-1fc7-4d96-afa5-01491fe98a3c@onelake.dfs.fabric.microsoft.com/03894def-6a71-405a-ac13-4a744161b0e7'
pathFile =  pathContainer + '/Files/Orders.csv'

#Relative path
pathFile = 'Files/Orders.csv'

#Whole folder
pathFile = 'Files/*.csv'

## Read CSV File
df = spark.read.load(pathFile, format='csv', header=True,sep=";", inferSchema=True)

df = df.withColumn("OrderDate", f.to_date(df['OrderDate'], "MM/dd/yyyy"))
df = df.withColumn("Price", f.regexp_replace(df["Price"], ",", "").cast("double"))

df = df.withColumn("LineTotal", f.round( df["Price"] * df["Quantity"] ,2))


## SELECT top 5
display(df.schema)
display(df.limit(5))

Import Parquet File

#Relative path folder
pathFile ='Files/sales-parquet/*/*/*/*/*.parquet'
df = spark.read.load(pathFile, format='parquet')

#Recursive
pathFile = 'Files/sales-parquet/'
df = spark.read.option("recursiveFileLookup","true").load(pathFile, format='parquet')


## SELECT top 5
df.printSchema()
display(df.limit(5))

Import CSV File

Import Parquet File

Author: Arthur Graus

Leave a Reply Cancel reply