duplicates 데이터 - SQL 테이블에서 중복 값 찾기




중복값 하나만 (21)

하나의 필드로 duplicates 것을 쉽게 찾을 수 있습니다.

SELECT name, COUNT(email) 
FROM users
GROUP BY email
HAVING COUNT(email) > 1

그래서 테이블이 있다면

ID   NAME   EMAIL
1    John   [email protected]
2    Sam    [email protected]
3    Tom    [email protected]
4    Bob    [email protected]
5    Tom    [email protected]

이 쿼리는 John, Sam, Tom, Tom 모두에게 동일한 email 이 있기 때문에 제공됩니다.

그러나, 내가 원하는 것은 동일한 emailname 중복 된 것을 얻는 것입니다.

즉, 저는 "Tom", "Tom"을 얻고 싶습니다.

내가 이것을 필요로하는 이유 : 나는 실수를했고 중복되는 nameemail 값을 삽입하는 것을 허용했다. 이제 사본을 제거 / 변경 해야하므로 먼저 사본을 찾아야 합니다.


Answers

이렇게하면 각 중복 그룹에서 하나의 레코드를 제외한 모든 중복 레코드를 선택 / 삭제합니다. 따라서 삭제는 모든 고유 레코드 + 중복 된 각 그룹의 레코드 하나를 남겨 둡니다.

중복 항목 선택 :

SELECT *
FROM table
WHERE
    id NOT IN (
        SELECT MIN(id)
        FROM table
        GROUP BY column1, column2
);

중복 삭제 :

DELETE FROM table
WHERE
    id NOT IN (
        SELECT MIN(id)
        FROM table
        GROUP BY column1, column2
);

더 많은 양의 레코드를 인식하면 성능 문제가 발생할 수 있습니다.


테이블에 중복 행이 있는지 확인하려면 아래 쿼리를 사용합니다.

create table my_table(id int, name varchar(100), email varchar(100));

insert into my_table values (1, 'shekh', '[email protected]');
insert into my_table values (1, 'shekh', '[email protected]');
insert into my_table values (2, 'Aman', '[email protected]');
insert into my_table values (3, 'Tom', '[email protected]');
insert into my_table values (4, 'Raj', '[email protected]');


Select COUNT(1) As Total_Rows from my_table 
Select Count(1) As Distinct_Rows from ( Select Distinct * from my_table) abc 

테이블에 중복 레코드를 얻는 방법

SELECT COUNT (코드), 직원 코드 WHERE 상태 = 1 GROUP BY 코드 COUNT (코드)> 1


SELECT id, COUNT(id) FROM table1 GROUP BY id HAVING COUNT(id)>1;

나는 이것이 특정 열의 반복 된 값을 검색하는 데 제대로 작동 할 것이라고 생각한다.


이 코드를 시험해 보라.

WITH CTE AS

( SELECT Id, Name, Age, Comments, RN = ROW_NUMBER()OVER(PARTITION BY Name,Age ORDER BY ccn)
FROM ccnmaster )
select * from CTE 

이것은 또한 작동해야합니다, 어쩌면 그것을 시도하십시오.

  Select * from Users a
            where EXISTS (Select * from Users b 
                where (     a.name = b.name 
                        OR  a.email = b.email)
                     and a.ID != b.id)

당신의 경우에 특히 좋다 어떤 종류의 접두어 나 일반적인 변경 사항 (예 : 메일의 새로운 도메인)이있는 중복을 검색하는 경우. 그런 다음이 열에서 replace ()를 사용할 수 있습니다.


select name, email
, case 
when ROW_NUMBER () over (partition by name, email order by name) > 1 then 'Yes'
else 'No'
end "duplicated ?"
from users

SELECT
    name, email, COUNT(*)
FROM
    users
GROUP BY
    name, email
HAVING 
    COUNT(*) > 1

두 열 모두를 그룹으로 묶기 만하면됩니다.

참고 : 이전 ANSI 표준은 GROUP BY에 모든 집계되지 않은 열을 포함하지만 "기능적 종속성" 이라는 개념으로 변경되었습니다.

관계형 데이터베이스 이론에서 함수 적 종속성은 데이터베이스의 관계에있는 두 세트의 속성 사이의 제약입니다. 즉, 함수 종속성은 관계에있는 속성 간의 관계를 설명하는 제약 조건입니다.

지원이 일관되지 않습니다.

  • 최근의 PostgreSQL 은 그것을 지원합니다 .
  • SQL Server (SQL Server 2017에서와 같이)는 여전히 GROUP BY의 모든 집계되지 않은 열을 필요로합니다.
  • MySQL은 예측할 수 없으며 sql_mode=only_full_group_by 가 필요합니다.
  • 오라클은 충분히 주류가 아닙니다 (경고 : 유머, 나는 오라클에 대해 모른다).

이 시도:

SELECT name, email
FROM users
GROUP BY name, email
HAVING ( COUNT(*) > 1 )

중복 된 값을 어떻게 계산할 수 있습니까 ?? 그것은 2 번 또는 2 번 반복됩니다. 단지 그들을 카운트하고, 현명한 그룹은 아닙니다.

간단하게

select COUNT(distinct col_01) from Table_01

SELECT * FROM users u where rowid = (select max(rowid) from users u1 where
u.email=u1.email);

다음을 시도하십시오.

SELECT * FROM
(
    SELECT Id, Name, Age, Comments, Row_Number() OVER(PARTITION BY Name, Age ORDER By Name)
        AS Rank 
        FROM Customers
) AS B WHERE Rank>1

CTE를 사용하여 중복 값을 찾을 수도 있습니다.

with MyCTE
as
(
select Name,EmailId,ROW_NUMBER() over(PARTITION BY EmailId order by id) as Duplicate from [Employees]

)
select * from MyCTE where Duplicate>1

select id,name,COUNT(*) from India group by Id,Name having COUNT(*)>1

중복을 삭제하려면 짝수 / 홀수 행을 트리플 하위 선택으로 찾아야하는 것보다 훨씬 간단한 방법이 있습니다.

SELECT id, name, email 
FROM users u, users u2
WHERE u.name = u2.name AND u.email = u2.email AND u.id > u2.id

삭제할 수 있습니다.

DELETE FROM users
WHERE id IN (
    SELECT id/*, name, email*/
    FROM users u, users u2
    WHERE u.name = u2.name AND u.email = u2.email AND u.id > u2.id
)

IMHO를 읽고 이해하는 것이 훨씬 쉬워졌습니다.

참고 : 유일한 문제는 삭제 된 행이 없어 질 때까지 요청을 실행해야한다는 것입니다. 매번 각 복제본 중 하나만 삭제하기 때문입니다


이것은 내가 생각해내는 쉬운 일입니다. 공통 테이블 식 (CTE)과 파티션 창을 사용합니다 (SQL Server 2008 이상에서 이러한 기능이 있다고 생각합니다).

이 예제는 중복 된 이름과 dob를 가진 모든 학생을 찾습니다. 중복을 확인하려는 필드는 OVER 절에 있습니다. 프로젝션에 원하는 다른 필드를 포함 할 수 있습니다.

with cte (StudentId, Fname, LName, DOB, RowCnt)
as (
SELECT StudentId, FirstName, LastName, DateOfBirth as DOB, SUM(1) OVER (Partition By FirstName, LastName, DateOfBirth) as RowCnt
FROM tblStudent
)
SELECT * from CTE where RowCnt > 1
ORDER BY DOB, LName

 select emp.ename, emp.empno, dept.loc 
          from emp
 inner join dept 
          on dept.deptno=emp.deptno
 inner join
    (select ename, count(*) from
    emp
    group by ename, deptno
    having count(*) > 1)
 t on emp.ename=t.ename order by emp.ename
/

오라클과 협력 할 경우 다음과 같은 방법이 바람직합니다.

create table my_users(id number, name varchar2(100), email varchar2(100));

insert into my_users values (1, 'John', '[email protected]');
insert into my_users values (2, 'Sam', '[email protected]');
insert into my_users values (3, 'Tom', '[email protected]');
insert into my_users values (4, 'Bob', '[email protected]');
insert into my_users values (5, 'Tom', '[email protected]');

commit;

select *
  from my_users
 where rowid not in (select min(rowid) from my_users group by name, email);

하나 또는 여러 기준으로 중복 데이터를 찾고 실제 행을 선택하려는 경우

with MYCTE as (
    SELECT DuplicateKey1
        ,DuplicateKey2 --optional
        ,count(*) X
    FROM MyTable
    group by DuplicateKey1, DuplicateKey2
    having count(*) > 1
) 
SELECT E.*
FROM MyTable E
JOIN MYCTE cte
ON E.DuplicateKey1=cte.DuplicateKey1
    AND E.DuplicateKey2=cte.DuplicateKey2
ORDER BY E.DuplicateKey1, E.DuplicateKey2, CreatedAt

http://developer.azurewebsites.net/2014/09/better-sql-group-by-find-duplicate-data/


파티가 좀 늦었지만 모든 중복 ID를 찾는 멋진 해결 방법을 발견했습니다.

SELECT GROUP_CONCAT( id )
FROM users
GROUP BY email
HAVING ( COUNT(email) > 1 )

SQL Server 2008에서는 단일 SQL INSERT 문을 사용하여 여러 행을 삽입 할 수 있습니다.

INSERT INTO MyTable ( Column1, Column2 ) VALUES
( Value1, Value2 ), ( Value1, Value2 )

이것에 관해서는 MOC Course 2778A - SQL Server 2008에서 SQL 쿼리 작성하기를보십시오.

예 :

INSERT INTO MyTable ( Column1, Column2, Column3 )
VALUES ('John', 123, 'Lloyds Office'), 
('Jane', 124, 'Lloyds Office'), 
('Billy', 125, 'London Office'),
('Miranda', 126, 'Bristol Office');




sql duplicates