studio - merge r dummies




Como juntar(mesclar) quadros de dados(interno, externo, esquerdo, direito)? (9)

Dados dois quadros de dados:

df1 = data.frame(CustomerId = c(1:6), Product = c(rep("Toaster", 3), rep("Radio", 3)))
df2 = data.frame(CustomerId = c(2, 4, 6), State = c(rep("Alabama", 2), rep("Ohio", 1)))

df1
#  CustomerId Product
#           1 Toaster
#           2 Toaster
#           3 Toaster
#           4   Radio
#           5   Radio
#           6   Radio

df2
#  CustomerId   State
#           2 Alabama
#           4 Alabama
#           6    Ohio

Como posso fazer estilo de banco de dados, ou seja, estilo sql, junta-se ? Ou seja, como obtenho:

  • Uma junção interna de df1 e df2 :
    Retorna apenas as linhas nas quais a tabela da esquerda tem chaves correspondentes na tabela da direita.
  • Uma junção externa de df1 e df2 :
    Retorna todas as linhas das duas tabelas, associa registros da esquerda que possuem chaves correspondentes na tabela da direita.
  • Uma junção externa esquerda (ou simplesmente junção esquerda) de df1 e df2
    Retorna todas as linhas da tabela da esquerda e todas as linhas com as chaves correspondentes da tabela da direita.
  • Uma junção externa direita de df1 e df2
    Retorna todas as linhas da tabela da direita e todas as linhas com as chaves correspondentes da tabela da esquerda.

Crédito extra:

Como posso fazer uma instrução de seleção de estilo SQL?


  1. Usando a mergefunção, podemos selecionar a variável da tabela da esquerda ou da direita, da mesma forma como todos nós estamos familiarizados com a instrução select no SQL (EX: Selecione a. * ... ou Selecione b. * De .....)
  2. Temos que adicionar código extra que será subconjunto da tabela recém-unida.

    • SQL: - select a.* from df1 a inner join df2 b on a.CustomerId=b.CustomerId

    • R: - merge(df1, df2, by.x = "CustomerId", by.y = "CustomerId")[,names(df1)]

Mesmo caminho

  • SQL: - select b.* from df1 a inner join df2 b on a.CustomerId=b.CustomerId

  • R: - merge(df1, df2, by.x = "CustomerId", by.y = "CustomerId")[,names(df2)]


Ao unir dois quadros de dados com ~ 1 milhão de linhas cada, um com 2 colunas e outro com ~ 20, surpreendentemente achei que merge(..., all.x = TRUE, all.y = TRUE) era mais rápido do que dplyr::full_join() Isso é com dplyr v0.4

Mesclar leva ~ 17 segundos, full_join leva ~ 65 segundos.

Alguns alimentos, embora eu geralmente padrão para dplyr para tarefas de manipulação.


Eu recomendaria verificar o pacote sqldf de Gabor Grothendieck , que permite expressar essas operações no SQL.

library(sqldf)

## inner join
df3 <- sqldf("SELECT CustomerId, Product, State 
              FROM df1
              JOIN df2 USING(CustomerID)")

## left join (substitute 'right' for right join)
df4 <- sqldf("SELECT CustomerId, Product, State 
              FROM df1
              LEFT JOIN df2 USING(CustomerID)")

Acho a sintaxe SQL mais simples e mais natural do que seu equivalente R (mas isso pode refletir apenas o viés do meu RDBMS).

Veja o GldHub do Gabor para obter mais informações sobre joins.


Existe a abordagem data.table para uma junção interna, que é muito eficiente em termos de tempo e memória (e necessária para alguns quadros de dados maiores):

library(data.table)

dt1 <- data.table(df1, key = "CustomerId") 
dt2 <- data.table(df2, key = "CustomerId")

joined.dt1.dt.2 <- dt1[dt2]

merge também funciona em data.tables (como é genérico e chama merge.data.table )

merge(dt1, dt2)

data.table documentado em :
Como fazer uma operação de mesclagem de data.table
Traduzindo junções SQL em chaves estrangeiras para a sintaxe de dados.
Alternativas eficientes para mesclar dados maiores.frames R
Como fazer uma junção externa esquerda básica com data.table em R?

Ainda outra opção é a função de join encontrada no pacote plyr

library(plyr)

join(df1, df2,
     type = "inner")

#   CustomerId Product   State
# 1          2 Toaster Alabama
# 2          4   Radio Alabama
# 3          6   Radio    Ohio

Opções para o type : inner , left , right , full .

De ?join : Ao contrário de merge , [ join ] preserva a ordem de x não importa qual tipo de junção é usado.


Novo em 2014:

Especialmente se você também estiver interessado em manipulação de dados em geral (incluindo classificação, filtragem, subconjuntos, resumos, etc.), você deve definitivamente dar uma olhada no dplyr , que vem com uma variedade de funções todas projetadas para facilitar seu trabalho especificamente com dados quadros e alguns outros tipos de banco de dados. Ele ainda oferece uma interface SQL bem elaborada, e até mesmo uma função para converter (a maioria) código SQL diretamente em R.

As quatro funções relacionadas à junção no pacote dplyr são (para citar):

  • inner_join(x, y, by = NULL, copy = FALSE, ...) : retorna todas as linhas de x onde há valores correspondentes em y e todas as colunas de xey
  • left_join(x, y, by = NULL, copy = FALSE, ...) : retorna todas as linhas de x e todas as colunas de xey
  • semi_join(x, y, by = NULL, copy = FALSE, ...) : retorna todas as linhas de x onde há valores correspondentes em y, mantendo apenas colunas de x.
  • anti_join(x, y, by = NULL, copy = FALSE, ...) : retorna todas as linhas de x onde não há valores correspondentes em y, mantendo apenas colunas de x

Está tudo here em grande detalhe.

A seleção de colunas pode ser feita por select(df,"column") . Se isso não é o suficiente para você, então há a função sql() , na qual você pode inserir o código SQL como está, e fará a operação que você especificou exatamente como você estava escrevendo em R o tempo todo (para mais informações , por favor, consulte a vinheta dplyr / databases ). Por exemplo, se aplicado corretamente, o sql("SELECT * FROM hflights") selecionará todas as colunas da tabela dplyr "hflights" (um "tbl").


Para o caso de uma junção esquerda com uma cardinalidade 0..*:0..1 ou uma junção direita com uma 0..1:0..* é possível atribuir no local as colunas unilaterais do marceneiro ( a tabela 0..1 ) diretamente para o participante (a tabela 0..* ) e, assim, evitar a criação de uma tabela inteiramente nova de dados. Isso requer a correspondência das colunas-chave do participante ao marceneiro e à indexação + ordenando as linhas do marceneiro de acordo com a atribuição.

Se a chave for uma única coluna, podemos usar uma única chamada para match() para fazer a correspondência. Este é o caso que eu cobrirei nesta resposta.

Aqui está um exemplo baseado no OP, exceto que eu adicionei uma linha extra ao df2 com um id de 7 para testar o caso de uma chave não correspondente no marceneiro. Isso é efetivamente df1 left join df2 :

df1 <- data.frame(CustomerId=1:6,Product=c(rep('Toaster',3L),rep('Radio',3L)));
df2 <- data.frame(CustomerId=c(2L,4L,6L,7L),State=c(rep('Alabama',2L),'Ohio','Texas'));
df1[names(df2)[-1L]] <- df2[match(df1[,1L],df2[,1L]),-1L];
df1;
##   CustomerId Product   State
## 1          1 Toaster    <NA>
## 2          2 Toaster Alabama
## 3          3 Toaster    <NA>
## 4          4   Radio Alabama
## 5          5   Radio    <NA>
## 6          6   Radio    Ohio

No acima, codifiquei uma suposição de que a coluna-chave é a primeira coluna de ambas as tabelas de entrada. Eu diria que, em geral, isso não é uma suposição razoável, já que, se você tiver um data.frame com uma coluna-chave, seria estranho se ele não tivesse sido configurado como a primeira coluna do data.frame o começo. E você sempre pode reordenar as colunas para fazer isso. Uma conseqüência vantajosa dessa suposição é que o nome da coluna-chave não precisa ser codificado, embora eu suponha que esteja apenas substituindo uma suposição por outra. A concisão é outra vantagem da indexação de números inteiros, bem como da velocidade. Nos benchmarks abaixo, alterarei a implementação para usar a indexação do nome da string para corresponder às implementações concorrentes.

Eu acho que esta é uma solução particularmente apropriada se você tem várias tabelas que você quer deixar juntar em uma única tabela grande. Recriar repetidamente a tabela inteira para cada mesclagem seria desnecessário e ineficiente.

Por outro lado, se você precisa que o participante permaneça inalterado através desta operação por qualquer motivo, então esta solução não pode ser usada, uma vez que modifica o joinee diretamente. Embora nesse caso você possa simplesmente fazer uma cópia e executar a (s) atribuição (ões) no local na cópia.

Como uma nota lateral, examinei brevemente possíveis soluções de correspondência para chaves de várias colunas. Infelizmente, as únicas soluções correspondentes encontradas foram:

  • concatenações ineficientes. por exemplo, match(interaction(df1$a,df1$b),interaction(df2$a,df2$b)) , ou a mesma ideia com paste() .
  • conjunções cartesianas ineficientes, por exemplo, outer(df1$a,df2$a,`==`) & outer(df1$b,df2$b,`==`) .
  • base R merge() e funções de mesclagem baseadas em pacotes equivalentes, que sempre alocam uma nova tabela para retornar o resultado mesclado e, portanto, não são adequadas para uma solução baseada em atribuição no local.

Por exemplo, consulte Como combinar várias colunas em diferentes estruturas de dados e obter outra coluna como resultado , corresponder duas colunas com duas outras colunas , Correspondência em várias colunas e o dupe dessa pergunta em que eu originalmente criei a solução no local, Combinar dois quadros de dados com diferentes números de linhas em R.

avaliação comparativa

Eu decidi fazer o meu próprio benchmarking para ver como a abordagem de atribuição no local se compara às outras soluções que foram oferecidas nesta questão.

Código de teste:

library(microbenchmark);
library(data.table);
library(sqldf);
library(plyr);
library(dplyr);

solSpecs <- list(
    merge=list(testFuncs=list(
        inner=function(df1,df2,key) merge(df1,df2,key),
        left =function(df1,df2,key) merge(df1,df2,key,all.x=T),
        right=function(df1,df2,key) merge(df1,df2,key,all.y=T),
        full =function(df1,df2,key) merge(df1,df2,key,all=T)
    )),
    data.table.unkeyed=list(argSpec='data.table.unkeyed',testFuncs=list(
        inner=function(dt1,dt2,key) dt1[dt2,on=key,nomatch=0L,allow.cartesian=T],
        left =function(dt1,dt2,key) dt2[dt1,on=key,allow.cartesian=T],
        right=function(dt1,dt2,key) dt1[dt2,on=key,allow.cartesian=T],
        full =function(dt1,dt2,key) merge(dt1,dt2,key,all=T,allow.cartesian=T) ## calls merge.data.table()
    )),
    data.table.keyed=list(argSpec='data.table.keyed',testFuncs=list(
        inner=function(dt1,dt2) dt1[dt2,nomatch=0L,allow.cartesian=T],
        left =function(dt1,dt2) dt2[dt1,allow.cartesian=T],
        right=function(dt1,dt2) dt1[dt2,allow.cartesian=T],
        full =function(dt1,dt2) merge(dt1,dt2,all=T,allow.cartesian=T) ## calls merge.data.table()
    )),
    sqldf.unindexed=list(testFuncs=list( ## note: must pass connection=NULL to avoid running against the live DB connection, which would result in collisions with the residual tables from the last query upload
        inner=function(df1,df2,key) sqldf(paste0('select * from df1 inner join df2 using(',paste(collapse=',',key),')'),connection=NULL),
        left =function(df1,df2,key) sqldf(paste0('select * from df1 left join df2 using(',paste(collapse=',',key),')'),connection=NULL),
        right=function(df1,df2,key) sqldf(paste0('select * from df2 left join df1 using(',paste(collapse=',',key),')'),connection=NULL) ## can't do right join proper, not yet supported; inverted left join is equivalent
        ##full =function(df1,df2,key) sqldf(paste0('select * from df1 full join df2 using(',paste(collapse=',',key),')'),connection=NULL) ## can't do full join proper, not yet supported; possible to hack it with a union of left joins, but too unreasonable to include in testing
    )),
    sqldf.indexed=list(testFuncs=list( ## important: requires an active DB connection with preindexed main.df1 and main.df2 ready to go; arguments are actually ignored
        inner=function(df1,df2,key) sqldf(paste0('select * from main.df1 inner join main.df2 using(',paste(collapse=',',key),')')),
        left =function(df1,df2,key) sqldf(paste0('select * from main.df1 left join main.df2 using(',paste(collapse=',',key),')')),
        right=function(df1,df2,key) sqldf(paste0('select * from main.df2 left join main.df1 using(',paste(collapse=',',key),')')) ## can't do right join proper, not yet supported; inverted left join is equivalent
        ##full =function(df1,df2,key) sqldf(paste0('select * from main.df1 full join main.df2 using(',paste(collapse=',',key),')')) ## can't do full join proper, not yet supported; possible to hack it with a union of left joins, but too unreasonable to include in testing
    )),
    plyr=list(testFuncs=list(
        inner=function(df1,df2,key) join(df1,df2,key,'inner'),
        left =function(df1,df2,key) join(df1,df2,key,'left'),
        right=function(df1,df2,key) join(df1,df2,key,'right'),
        full =function(df1,df2,key) join(df1,df2,key,'full')
    )),
    dplyr=list(testFuncs=list(
        inner=function(df1,df2,key) inner_join(df1,df2,key),
        left =function(df1,df2,key) left_join(df1,df2,key),
        right=function(df1,df2,key) right_join(df1,df2,key),
        full =function(df1,df2,key) full_join(df1,df2,key)
    )),
    in.place=list(testFuncs=list(
        left =function(df1,df2,key) { cns <- setdiff(names(df2),key); df1[cns] <- df2[match(df1[,key],df2[,key]),cns]; df1; },
        right=function(df1,df2,key) { cns <- setdiff(names(df1),key); df2[cns] <- df1[match(df2[,key],df1[,key]),cns]; df2; }
    ))
);

getSolTypes <- function() names(solSpecs);
getJoinTypes <- function() unique(unlist(lapply(solSpecs,function(x) names(x$testFuncs))));
getArgSpec <- function(argSpecs,key=NULL) if (is.null(key)) argSpecs$default else argSpecs[[key]];

initSqldf <- function() {
    sqldf(); ## creates sqlite connection on first run, cleans up and closes existing connection otherwise
    if (exists('sqldfInitFlag',envir=globalenv(),inherits=F) && sqldfInitFlag) { ## false only on first run
        sqldf(); ## creates a new connection
    } else {
        assign('sqldfInitFlag',T,envir=globalenv()); ## set to true for the one and only time
    }; ## end if
    invisible();
}; ## end initSqldf()

setUpBenchmarkCall <- function(argSpecs,joinType,solTypes=getSolTypes(),env=parent.frame()) {
    ## builds and returns a list of expressions suitable for passing to the list argument of microbenchmark(), and assigns variables to resolve symbol references in those expressions
    callExpressions <- list();
    nms <- character();
    for (solType in solTypes) {
        testFunc <- solSpecs[[solType]]$testFuncs[[joinType]];
        if (is.null(testFunc)) next; ## this join type is not defined for this solution type
        testFuncName <- paste0('tf.',solType);
        assign(testFuncName,testFunc,envir=env);
        argSpecKey <- solSpecs[[solType]]$argSpec;
        argSpec <- getArgSpec(argSpecs,argSpecKey);
        argList <- setNames(nm=names(argSpec$args),vector('list',length(argSpec$args)));
        for (i in seq_along(argSpec$args)) {
            argName <- paste0('tfa.',argSpecKey,i);
            assign(argName,argSpec$args[[i]],envir=env);
            argList[[i]] <- if (i%in%argSpec$copySpec) call('copy',as.symbol(argName)) else as.symbol(argName);
        }; ## end for
        callExpressions[[length(callExpressions)+1L]] <- do.call(call,c(list(testFuncName),argList),quote=T);
        nms[length(nms)+1L] <- solType;
    }; ## end for
    names(callExpressions) <- nms;
    callExpressions;
}; ## end setUpBenchmarkCall()

harmonize <- function(res) {
    res <- as.data.frame(res); ## coerce to data.frame
    for (ci in which(sapply(res,is.factor))) res[[ci]] <- as.character(res[[ci]]); ## coerce factor columns to character
    for (ci in which(sapply(res,is.logical))) res[[ci]] <- as.integer(res[[ci]]); ## coerce logical columns to integer (works around sqldf quirk of munging logicals to integers)
    ##for (ci in which(sapply(res,inherits,'POSIXct'))) res[[ci]] <- as.double(res[[ci]]); ## coerce POSIXct columns to double (works around sqldf quirk of losing POSIXct class) ----- POSIXct doesn't work at all in sqldf.indexed
    res <- res[order(names(res))]; ## order columns
    res <- res[do.call(order,res),]; ## order rows
    res;
}; ## end harmonize()

checkIdentical <- function(argSpecs,solTypes=getSolTypes()) {
    for (joinType in getJoinTypes()) {
        callExpressions <- setUpBenchmarkCall(argSpecs,joinType,solTypes);
        if (length(callExpressions)<2L) next;
        ex <- harmonize(eval(callExpressions[[1L]]));
        for (i in seq(2L,len=length(callExpressions)-1L)) {
            y <- harmonize(eval(callExpressions[[i]]));
            if (!isTRUE(all.equal(ex,y,check.attributes=F))) {
                ex <<- ex;
                y <<- y;
                solType <- names(callExpressions)[i];
                stop(paste0('non-identical: ',solType,' ',joinType,'.'));
            }; ## end if
        }; ## end for
    }; ## end for
    invisible();
}; ## end checkIdentical()

testJoinType <- function(argSpecs,joinType,solTypes=getSolTypes(),metric=NULL,times=100L) {
    callExpressions <- setUpBenchmarkCall(argSpecs,joinType,solTypes);
    bm <- microbenchmark(list=callExpressions,times=times);
    if (is.null(metric)) return(bm);
    bm <- summary(bm);
    res <- setNames(nm=names(callExpressions),bm[[metric]]);
    attr(res,'unit') <- attr(bm,'unit');
    res;
}; ## end testJoinType()

testAllJoinTypes <- function(argSpecs,solTypes=getSolTypes(),metric=NULL,times=100L) {
    joinTypes <- getJoinTypes();
    resList <- setNames(nm=joinTypes,lapply(joinTypes,function(joinType) testJoinType(argSpecs,joinType,solTypes,metric,times)));
    if (is.null(metric)) return(resList);
    units <- unname(unlist(lapply(resList,attr,'unit')));
    res <- do.call(data.frame,c(list(join=joinTypes),setNames(nm=solTypes,rep(list(rep(NA_real_,length(joinTypes))),length(solTypes))),list(unit=units,stringsAsFactors=F)));
    for (i in seq_along(resList)) res[i,match(names(resList[[i]]),names(res))] <- resList[[i]];
    res;
}; ## end testAllJoinTypes()

testGrid <- function(makeArgSpecsFunc,sizes,overlaps,solTypes=getSolTypes(),joinTypes=getJoinTypes(),metric='median',times=100L) {

    res <- expand.grid(size=sizes,overlap=overlaps,joinType=joinTypes,stringsAsFactors=F);
    res[solTypes] <- NA_real_;
    res$unit <- NA_character_;
    for (ri in seq_len(nrow(res))) {

        size <- res$size[ri];
        overlap <- res$overlap[ri];
        joinType <- res$joinType[ri];

        argSpecs <- makeArgSpecsFunc(size,overlap);

        checkIdentical(argSpecs,solTypes);

        cur <- testJoinType(argSpecs,joinType,solTypes,metric,times);
        res[ri,match(names(cur),names(res))] <- cur;
        res$unit[ri] <- attr(cur,'unit');

    }; ## end for

    res;

}; ## end testGrid()

Aqui está uma referência do exemplo baseado no OP que demonstrei anteriormente:

## OP's example, supplemented with a non-matching row in df2
argSpecs <- list(
    default=list(copySpec=1:2,args=list(
        df1 <- data.frame(CustomerId=1:6,Product=c(rep('Toaster',3L),rep('Radio',3L))),
        df2 <- data.frame(CustomerId=c(2L,4L,6L,7L),State=c(rep('Alabama',2L),'Ohio','Texas')),
        'CustomerId'
    )),
    data.table.unkeyed=list(copySpec=1:2,args=list(
        as.data.table(df1),
        as.data.table(df2),
        'CustomerId'
    )),
    data.table.keyed=list(copySpec=1:2,args=list(
        setkey(as.data.table(df1),CustomerId),
        setkey(as.data.table(df2),CustomerId)
    ))
);
## prepare sqldf
initSqldf();
sqldf('create index df1_key on df1(CustomerId);'); ## upload and create an sqlite index on df1
sqldf('create index df2_key on df2(CustomerId);'); ## upload and create an sqlite index on df2

checkIdentical(argSpecs);

testAllJoinTypes(argSpecs,metric='median');
##    join    merge data.table.unkeyed data.table.keyed sqldf.unindexed sqldf.indexed      plyr    dplyr in.place         unit
## 1 inner  644.259           861.9345          923.516        9157.752      1580.390  959.2250 270.9190       NA microseconds
## 2  left  713.539           888.0205          910.045        8820.334      1529.714  968.4195 270.9185 224.3045 microseconds
## 3 right 1221.804           909.1900          923.944        8930.668      1533.135 1063.7860 269.8495 218.1035 microseconds
## 4  full 1302.203          3107.5380         3184.729              NA            NA 1593.6475 270.7055       NA microseconds

Aqui, faço benchmark em dados de entrada aleatórios, tentando diferentes escalas e padrões diferentes de sobreposição de chaves entre as duas tabelas de entrada. Esse benchmark ainda é restrito ao caso de uma chave inteira de coluna única. Além disso, para garantir que a solução no local funcione para junções esquerda e direita das mesmas tabelas, todos os dados de teste aleatório usam 0..1:0..1cardinalidade. Isso é implementado pela amostragem sem substituição da coluna-chave do primeiro data.frame ao gerar a coluna-chave do segundo data.frame.

makeArgSpecs.singleIntegerKey.optionalOneToOne <- function(size,overlap) {

    com <- as.integer(size*overlap);

    argSpecs <- list(
        default=list(copySpec=1:2,args=list(
            df1 <- data.frame(id=sample(size),y1=rnorm(size),y2=rnorm(size)),
            df2 <- data.frame(id=sample(c(if (com>0L) sample(df1$id,com) else integer(),seq(size+1L,len=size-com))),y3=rnorm(size),y4=rnorm(size)),
            'id'
        )),
        data.table.unkeyed=list(copySpec=1:2,args=list(
            as.data.table(df1),
            as.data.table(df2),
            'id'
        )),
        data.table.keyed=list(copySpec=1:2,args=list(
            setkey(as.data.table(df1),id),
            setkey(as.data.table(df2),id)
        ))
    );
    ## prepare sqldf
    initSqldf();
    sqldf('create index df1_key on df1(id);'); ## upload and create an sqlite index on df1
    sqldf('create index df2_key on df2(id);'); ## upload and create an sqlite index on df2

    argSpecs;

}; ## end makeArgSpecs.singleIntegerKey.optionalOneToOne()

## cross of various input sizes and key overlaps
sizes <- c(1e1L,1e3L,1e6L);
overlaps <- c(0.99,0.5,0.01);
system.time({ res <- testGrid(makeArgSpecs.singleIntegerKey.optionalOneToOne,sizes,overlaps); });
##     user   system  elapsed
## 22024.65 12308.63 34493.19

Eu escrevi algum código para criar gráficos log-log dos resultados acima. Eu criei um gráfico separado para cada porcentagem de sobreposição. É um pouco confuso, mas eu gosto de ter todos os tipos de solução e tipos de junção representados no mesmo enredo.

Eu usei a interpolação de spline para mostrar uma curva suave para cada combinação de tipo de solução / junção, desenhada com símbolos pch individuais. O tipo de junção é capturado pelo símbolo pch, usando um ponto para os colchetes angulares internos, esquerdos e direitos para esquerda e direita e um losango para cheio. O tipo de solução é capturado pela cor, conforme mostrado na legenda.

plotRes <- function(res,titleFunc,useFloor=F) {
    solTypes <- setdiff(names(res),c('size','overlap','joinType','unit')); ## derive from res
    normMult <- c(microseconds=1e-3,milliseconds=1); ## normalize to milliseconds
    joinTypes <- getJoinTypes();
    cols <- c(merge='purple',data.table.unkeyed='blue',data.table.keyed='#00DDDD',sqldf.unindexed='brown',sqldf.indexed='orange',plyr='red',dplyr='#00BB00',in.place='magenta');
    pchs <- list(inner=20L,left='<',right='>',full=23L);
    cexs <- c(inner=0.7,left=1,right=1,full=0.7);
    NP <- 60L;
    ord <- order(decreasing=T,colMeans(res[res$size==max(res$size),solTypes],na.rm=T));
    ymajors <- data.frame(y=c(1,1e3),label=c('1ms','1s'),stringsAsFactors=F);
    for (overlap in unique(res$overlap)) {
        x1 <- res[res$overlap==overlap,];
        x1[solTypes] <- x1[solTypes]*normMult[x1$unit]; x1$unit <- NULL;
        xlim <- c(1e1,max(x1$size));
        xticks <- 10^seq(log10(xlim[1L]),log10(xlim[2L]));
        ylim <- c(1e-1,10^((if (useFloor) floor else ceiling)(log10(max(x1[solTypes],na.rm=T))))); ## use floor() to zoom in a little more, only sqldf.unindexed will break above, but xpd=NA will keep it visible
        yticks <- 10^seq(log10(ylim[1L]),log10(ylim[2L]));
        yticks.minor <- rep(yticks[-length(yticks)],each=9L)*1:9;
        plot(NA,xlim=xlim,ylim=ylim,xaxs='i',yaxs='i',axes=F,xlab='size (rows)',ylab='time (ms)',log='xy');
        abline(v=xticks,col='lightgrey');
        abline(h=yticks.minor,col='lightgrey',lty=3L);
        abline(h=yticks,col='lightgrey');
        axis(1L,xticks,parse(text=sprintf('10^%d',as.integer(log10(xticks)))));
        axis(2L,yticks,parse(text=sprintf('10^%d',as.integer(log10(yticks)))),las=1L);
        axis(4L,ymajors$y,ymajors$label,las=1L,tick=F,cex.axis=0.7,hadj=0.5);
        for (joinType in rev(joinTypes)) { ## reverse to draw full first, since it's larger and would be more obtrusive if drawn last
            x2 <- x1[x1$joinType==joinType,];
            for (solType in solTypes) {
                if (any(!is.na(x2[[solType]]))) {
                    xy <- spline(x2$size,x2[[solType]],xout=10^(seq(log10(x2$size[1L]),log10(x2$size[nrow(x2)]),len=NP)));
                    points(xy$x,xy$y,pch=pchs[[joinType]],col=cols[solType],cex=cexs[joinType],xpd=NA);
                }; ## end if
            }; ## end for
        }; ## end for
        ## custom legend
        ## due to logarithmic skew, must do all distance calcs in inches, and convert to user coords afterward
        ## the bottom-left corner of the legend will be defined in normalized figure coords, although we can convert to inches immediately
        leg.cex <- 0.7;
        leg.x.in <- grconvertX(0.275,'nfc','in');
        leg.y.in <- grconvertY(0.6,'nfc','in');
        leg.x.user <- grconvertX(leg.x.in,'in');
        leg.y.user <- grconvertY(leg.y.in,'in');
        leg.outpad.w.in <- 0.1;
        leg.outpad.h.in <- 0.1;
        leg.midpad.w.in <- 0.1;
        leg.midpad.h.in <- 0.1;
        leg.sol.w.in <- max(strwidth(solTypes,'in',leg.cex));
        leg.sol.h.in <- max(strheight(solTypes,'in',leg.cex))*1.5; ## multiplication factor for greater line height
        leg.join.w.in <- max(strheight(joinTypes,'in',leg.cex))*1.5; ## ditto
        leg.join.h.in <- max(strwidth(joinTypes,'in',leg.cex));
        leg.main.w.in <- leg.join.w.in*length(joinTypes);
        leg.main.h.in <- leg.sol.h.in*length(solTypes);
        leg.x2.user <- grconvertX(leg.x.in+leg.outpad.w.in*2+leg.main.w.in+leg.midpad.w.in+leg.sol.w.in,'in');
        leg.y2.user <- grconvertY(leg.y.in+leg.outpad.h.in*2+leg.main.h.in+leg.midpad.h.in+leg.join.h.in,'in');
        leg.cols.x.user <- grconvertX(leg.x.in+leg.outpad.w.in+leg.join.w.in*(0.5+seq(0L,length(joinTypes)-1L)),'in');
        leg.lines.y.user <- grconvertY(leg.y.in+leg.outpad.h.in+leg.main.h.in-leg.sol.h.in*(0.5+seq(0L,length(solTypes)-1L)),'in');
        leg.sol.x.user <- grconvertX(leg.x.in+leg.outpad.w.in+leg.main.w.in+leg.midpad.w.in,'in');
        leg.join.y.user <- grconvertY(leg.y.in+leg.outpad.h.in+leg.main.h.in+leg.midpad.h.in,'in');
        rect(leg.x.user,leg.y.user,leg.x2.user,leg.y2.user,col='white');
        text(leg.sol.x.user,leg.lines.y.user,solTypes[ord],cex=leg.cex,pos=4L,offset=0);
        text(leg.cols.x.user,leg.join.y.user,joinTypes,cex=leg.cex,pos=4L,offset=0,srt=90); ## srt rotation applies *after* pos/offset positioning
        for (i in seq_along(joinTypes)) {
            joinType <- joinTypes[i];
            points(rep(leg.cols.x.user[i],length(solTypes)),ifelse(colSums(!is.na(x1[x1$joinType==joinType,solTypes[ord]]))==0L,NA,leg.lines.y.user),pch=pchs[[joinType]],col=cols[solTypes[ord]]);
        }; ## end for
        title(titleFunc(overlap));
        readline(sprintf('overlap %.02f',overlap));
    }; ## end for
}; ## end plotRes()

titleFunc <- function(overlap) sprintf('R merge solutions: single-column integer key, 0..1:0..1 cardinality, %d%% overlap',as.integer(overlap*100));
plotRes(res,titleFunc,T);

Aqui está um segundo benchmark de grande escala que é mais pesado, com relação ao número e tipos de colunas-chave, além da cardinalidade. Para esse benchmark eu uso três colunas-chave: um caractere, um inteiro e um lógico, sem restrições de cardinalidade (isto é, 0..*:0..*). (Em geral, não é aconselhável definir colunas-chave com valores duplos ou complexos devido a complicações de comparação de ponto flutuante, e basicamente ninguém usa o tipo bruto, muito menos para colunas-chave, então não incluí esses tipos na chave Além disso, para fins informativos, eu inicialmente tentei usar quatro colunas principais incluindo uma coluna de chave POSIXct, mas o tipo POSIXct não funcionou bem com a sqldf.indexedsolução por algum motivo, possivelmente devido a anomalias de comparação de ponto flutuante, então eu removido.)

makeArgSpecs.assortedKey.optionalManyToMany <- function(size,overlap,uniquePct=75) {

    ## number of unique keys in df1
    u1Size <- as.integer(size*uniquePct/100);

    ## (roughly) divide u1Size into bases, so we can use expand.grid() to produce the required number of unique key values with repetitions within individual key columns
    ## use ceiling() to ensure we cover u1Size; will truncate afterward
    u1SizePerKeyColumn <- as.integer(ceiling(u1Size^(1/3)));

    ## generate the unique key values for df1
    keys1 <- expand.grid(stringsAsFactors=F,
        idCharacter=replicate(u1SizePerKeyColumn,paste(collapse='',sample(letters,sample(4:12,1L),T))),
        idInteger=sample(u1SizePerKeyColumn),
        idLogical=sample(c(F,T),u1SizePerKeyColumn,T)
        ##idPOSIXct=as.POSIXct('2016-01-01 00:00:00','UTC')+sample(u1SizePerKeyColumn)
    )[seq_len(u1Size),];

    ## rbind some repetitions of the unique keys; this will prepare one side of the many-to-many relationship
    ## also scramble the order afterward
    keys1 <- rbind(keys1,keys1[sample(nrow(keys1),size-u1Size,T),])[sample(size),];

    ## common and unilateral key counts
    com <- as.integer(size*overlap);
    uni <- size-com;

    ## generate some unilateral keys for df2 by synthesizing outside of the idInteger range of df1
    keys2 <- data.frame(stringsAsFactors=F,
        idCharacter=replicate(uni,paste(collapse='',sample(letters,sample(4:12,1L),T))),
        idInteger=u1SizePerKeyColumn+sample(uni),
        idLogical=sample(c(F,T),uni,T)
        ##idPOSIXct=as.POSIXct('2016-01-01 00:00:00','UTC')+u1SizePerKeyColumn+sample(uni)
    );

    ## rbind random keys from df1; this will complete the many-to-many relationship
    ## also scramble the order afterward
    keys2 <- rbind(keys2,keys1[sample(nrow(keys1),com,T),])[sample(size),];

    ##keyNames <- c('idCharacter','idInteger','idLogical','idPOSIXct');
    keyNames <- c('idCharacter','idInteger','idLogical');
    ## note: was going to use raw and complex type for two of the non-key columns, but data.table doesn't seem to fully support them
    argSpecs <- list(
        default=list(copySpec=1:2,args=list(
            df1 <- cbind(stringsAsFactors=F,keys1,y1=sample(c(F,T),size,T),y2=sample(size),y3=rnorm(size),y4=replicate(size,paste(collapse='',sample(letters,sample(4:12,1L),T)))),
            df2 <- cbind(stringsAsFactors=F,keys2,y5=sample(c(F,T),size,T),y6=sample(size),y7=rnorm(size),y8=replicate(size,paste(collapse='',sample(letters,sample(4:12,1L),T)))),
            keyNames
        )),
        data.table.unkeyed=list(copySpec=1:2,args=list(
            as.data.table(df1),
            as.data.table(df2),
            keyNames
        )),
        data.table.keyed=list(copySpec=1:2,args=list(
            setkeyv(as.data.table(df1),keyNames),
            setkeyv(as.data.table(df2),keyNames)
        ))
    );
    ## prepare sqldf
    initSqldf();
    sqldf(paste0('create index df1_key on df1(',paste(collapse=',',keyNames),');')); ## upload and create an sqlite index on df1
    sqldf(paste0('create index df2_key on df2(',paste(collapse=',',keyNames),');')); ## upload and create an sqlite index on df2

    argSpecs;

}; ## end makeArgSpecs.assortedKey.optionalManyToMany()

sizes <- c(1e1L,1e3L,1e5L); ## 1e5L instead of 1e6L to respect more heavy-duty inputs
overlaps <- c(0.99,0.5,0.01);
solTypes <- setdiff(getSolTypes(),'in.place');
system.time({ res <- testGrid(makeArgSpecs.assortedKey.optionalManyToMany,sizes,overlaps,solTypes); });
##     user   system  elapsed
## 38895.50   784.19 39745.53

Os gráficos resultantes, usando o mesmo código de plotagem dado acima:

titleFunc <- function(overlap) sprintf('R merge solutions: character/integer/logical key, 0..*:0..* cardinality, %d%% overlap',as.integer(overlap*100));
plotRes(res,titleFunc,F);


Você também pode fazer junções usando o incrível pacote dplyr Hadley Wickham.

library(dplyr)

#make sure that CustomerId cols are both type numeric
#they ARE not using the provided code in question and dplyr will complain
df1$CustomerId <- as.numeric(df1$CustomerId)
df2$CustomerId <- as.numeric(df2$CustomerId)

Junções mutantes: adicione colunas ao df1 usando correspondências no df2

#inner
inner_join(df1, df2)

#left outer
left_join(df1, df2)

#right outer
right_join(df1, df2)

#alternate right outer
left_join(df2, df1)

#full join
full_join(df1, df2)

Junções de filtragem: filtre as linhas no df1, não modifique as colunas

semi_join(df1, df2) #keep only observations in df1 that match in df2.
anti_join(df1, df2) #drops all observations in df1 that match in df2.

dplyr desde 0.4 implementado todas as junções, incluindo outer_join, mas foi importante notar que para os primeiros lançamentos ele não costumava oferecer outer_join, e como resultado, havia um monte de código de usuário muito ruim hacky solução flutuando por um bom tempo ( você ainda pode encontrar isso nas respostas do SO e do Kaggle daquele período).

Destaques da versão relacionada à associação :

v0.5 (6/2016)

  • Manipulação para o tipo POSIXct, fusos horários, duplicatas, diferentes níveis de fator. Melhores erros e avisos.
  • Novo argumento de sufixo para controlar o sufixo que os nomes de variáveis ​​duplicadas recebem (# 1296)

v0.4.0 (1/2015)

  • Implementar junção direita e junção externa (# 96)
  • Junções de mutação, que adicionam novas variáveis ​​a uma tabela de linhas correspondentes em outra. Junções de filtragem, que filtram as observações de uma tabela com base no fato de corresponderem ou não a uma observação na outra tabela.

v0.3 (10/2014)

  • Pode agora left_join por diferentes variáveis ​​em cada tabela: df1%>% left_join (df2, c ("var1" = "var2"))

v0.2 (5/2014)

  • * _join () não reordena mais os nomes das colunas (# 324)

v0.1.3 (4/2014)

Soluções alternativas por comentários de hadley nessa edição:

  • right_join (x, y) é o mesmo que left_join (y, x) em termos de linhas, apenas as colunas serão ordens diferentes. Facilmente trabalhado com select (new_column_order)
  • outer_join é basicamente union (left_join (x, y), right_join (x, y)) - isto é, preserva todas as linhas em ambos os quadros de dados.

Para uma junção interna em todas as colunas, você também pode usar a fintersectpartir do pacote data.table ou intersectdo pacote dplyr como alternativa a mergesem especificar as bycolunas. isso dará as linhas que são iguais entre dois quadros de dados:

merge(df1, df2)
#   V1 V2
# 1  B  2
# 2  C  3
dplyr::intersect(df1, df2)
#   V1 V2
# 1  B  2
# 2  C  3
data.table::fintersect(setDT(df1), setDT(df2))
#    V1 V2
# 1:  B  2
# 2:  C  3

Exemplo de dados:

df1 <- data.frame(V1 = LETTERS[1:4], V2 = 1:4)
df2 <- data.frame(V1 = LETTERS[2:3], V2 = 2:3)






r-faq