
pyspark dataframe in sql
Publicado por BathanF (8 intervenciones) el 09/03/2023 09:28:26
Tengo un conjunto de datos para el que quiero calcular el rango por fila. Este es un ejemplo de juguete panda.
Sin embargo, como no pude ubicar un equivalente de axis=1 en Pyspark, no pude convertirlo. Mi conjunto de datos consta de 60 millones de filas y 40 columnas, por lo que la recomendación debería ser práctica (p. ej., no puedo recorrerlas).
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
import pandas as pd
df = pd.DataFrame({"ID":[1,2,3,4], "a":[2,7,9,10],
"b":[6,7,4,2], "c":[3,4,8,5]})
print(df)
# ID a b c
# 0 1 2 6 3
# 1 2 7 7 4
# 2 3 9 4 8
# 3 4 10 2 5
df[["a","b","c"]] = df[["a","b","c"]].rank(method="min",
ascending=False,
axis=1).astype("int")
print(df)
# ID a b c
# 0 1 3 1 2
# 1 2 1 1 3
# 2 3 1 3 2
# 3 4 1 3 2
Sin embargo, como no pude ubicar un equivalente de axis=1 en Pyspark, no pude convertirlo. Mi conjunto de datos consta de 60 millones de filas y 40 columnas, por lo que la recomendación debería ser práctica (p. ej., no puedo recorrerlas).
Valora esta pregunta


0