Toutes les paires possibles dans tidyverse
mrhd
Je voudrais créer toutes les paires possibles entre les lignes d'un dataframe sans doublons (c'est-à-dire que A_B est le même que B_A).
Existe-t-il une manière élégante de le faire dans tidyverse?
Exemple de données:
df <- tibble(
id = 1:5,
name = c( 'Alice', 'Bob', 'Charlie', 'Diane', 'Fred' )
)
Production attendue:
> df_pairs
# A tibble: 10 x 2
id name
<chr> <chr>
1 1_2 Alice_Bob
2 1_3 Alice_Charlie
3 1_4 Alice_Diane
4 1_5 Alice_Fred
5 2_3 Bob_Charlie
6 2_4 Bob_Diane
7 2_5 Bob_Fred
8 3_4 Charlie_Diane
9 3_5 Charlie_Fred
10 4_5 Diane_Fred
J'ai pu le faire en traversant , mais j'aimerais savoir s'il existe un moyen plus simple:
df_pairs <- df %>% select( id1 = id, name1 = name ) %>%
crossing(df %>% select(id2 = id, name2 = name) ) %>%
dplyr::filter( id1 < id2) %>%
unite( id, id1, id2 ) %>%
unite( name, name1, name2 )
Ronak shah
Il semble que vous deviez utiliser combn
pour éviter les doublons.
get_combn <- function(x) {
combn(x, 2, paste, collapse = "_")
}
as.data.frame(lapply(df, get_combn))
# id name
#1 1_2 Alice_Bob
#2 1_3 Alice_Charlie
#3 1_4 Alice_Diane
#4 1_5 Alice_Fred
#5 2_3 Bob_Charlie
#6 2_4 Bob_Diane
#7 2_5 Bob_Fred
#8 3_4 Charlie_Diane
#9 3_5 Charlie_Fred
#10 4_5 Diane_Fred
qui peut également être appliqué avec purrr::map_df
purrr::map_df(df, get_combn)