Left Semi Join in dataset spark Java.

2 min readMay 23, 2020

A left semi join returns that all rows from the first dataset which do have a match in the second dataset.
This is like an inner join, with only the left dataset columns and values are selected.

Also find video link : https://youtu.be/g1brXIJL3Cw

Example with code:

/*Read data from Employee.csv */
Dataset<Row> employee = sparkSession.read().option(“header”, “true”)
.csv(“C:\\Users\\Desktop\\Spark\\Employee.csv”);
employee.show();

/*Read data from Employee1.csv */
Dataset<Row> employee1 = sparkSession.read().option(“header”, “true”)
.csv(“C:\\Users\\Desktop\\Spark\\Employee1.csv”);
employee1.show();

/*Apply left semi join*/
Dataset<Row> leftSemiJoin = employee.join(employee1, employee.col(“name”).equalTo(employee1.col(“name”)), “leftsemi”);

leftSemiJoin.show();

Output:

Left Semi Join in dataset spark Java.

Written by Arun Kumar Gupta