1
如何在PySpark中設置流式傳輸DataFrame
的模式。使用套接字進行火花傳輸,設置SCHEMA,在控制檯中顯示DATAFRAME
from pyspark.sql import SparkSession
from pyspark.sql.functions import explode
from pyspark.sql.functions import split
# Import data types
from pyspark.sql.types import *
spark = SparkSession\
.builder\
.appName("StructuredNetworkWordCount")\
.getOrCreate()
# Create DataFrame representing the stream of input lines from connection to localhost:5560
lines = spark\
.readStream\
.format('socket')\
.option('host', '192.168.0.113')\
.option('port', 5560)\
.load()
比如我需要一個像一個表:
Name, lastName, PhoneNumber
Bob, Dylan, 123456
Jack, Ma, 789456
....
如何設置頁眉/模式爲[ '姓名', 'lastName的', '******中國'] 與它們的數據類型。
此外,是否有可能持續顯示此表,或說是DataFrame
的前20行。當我嘗試了,我得到了錯誤
「pyspark.sql.utils.AnalysisException:不支持「完全輸出模式時,有上的流DataFrames /數據集;; \ nProject沒有流聚合」