ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 그래프 알고리즘
    Algorithm 2020. 9. 16. 03:07

    그래프란?

    노드와 간선으로 이루어져있다. 간선은 노드와 노드의 연결을 나타낸다.

    서로 다른 개체가 연결되어 있다고 하면 그래프 알고리즘을 떠올려야 한다.

      그래프 트리
    방향성 방향 그래프 or 무방향 그래프 방향 그래프
    순환성 순환 및 비순환 비순환
    루트 노드 존재 여부 루트 노드 존재 하지 않음 루트 노드 존재
    노드간 관계성 부모와 자식 관계 없음 부모와 자식 관계
    모델의 종류 네트워크 모델 계층 모델

     

    그래프의 구현 방법

     

    1. 인접 행렬 : 2차원 배열을 사용하는 방식
    2. 인접 리스트 : 리스트를 사용하는 방식

    2가지 모두 그래프 알고리즘에서 매우 많이 사용된다. 두 방식은 메모리와 속도 측면에서 구별 된다.

     

    노드의 개수가 V, 간선의 개수가 E인 그래프인 경우

     

    • 인접 행렬을 이용한 경우 간선 정보를 저장하기 위한 O(V^2)만큼의 메모리 공간이 필요하지만
    • 인접리스트를 이용한 경우 O(E)만큼만 메모리 공간이 필요하다.

    반면 인접 행렬의 경우 특정한 노드 A에서 다른 특정한 노드 B로 이어진 간선의 비용을 O(1)의 시간으로 즉시 알수 있다.

    인접리스트의 경우 O(V)만큼의 시간이 소요된다.

     

    우선순위 큐를 이용하는 다익스트라 최단 경로 알고리즘은 인접 리스트를 이용하는 방식이다.

    노드의 개수가 V개일 때는 V개의 리스트를 만들어서 각 노드와 연결된 모든 간선에 대한 정보를 리스트에 저장했다.

    플로이드 워셜 알고리즘의 경우 인접 행렬을 이용하여 모든 노드에 대하여 다른 노드로 가는 최소 비용을 V^2크기의 2차원 리스트에 저장한 뒤에 해당 비용을 갱신해서 최단 거리를 계산했다.

     

     

    서로소 집합

    공통 원소가 없는 두 집합을 의미한다.

     

    ex) [1,2] [3,4]는 서로소 관계이다. [1,2] , [1,3]은 1이라는 공통 원소가 존재하여 서로소 집합이 아니다.

     

    • 서로소 집합 자료구조란 서로소 부분 집합들로 나누어진 원소들의 데이터를 처리하기 위한 자료구조이다.
    • 서로소 집합 자료구조는 union과 find 2개의 연산으로 조작할 수 있다.
    • union(합집합) 연산은 2개의 원소가 포함된 집합을 하나의 집합으로 합치는연산
    • find(찾기) 연산은 특정한 원소가 속한 집합이 어떤 집합인지 알려주는 연산
    • 서로소 집합 자료구조는 union-find 자료구조라고 불리기도 한다.

     

    서로소 집합 자료구조(Union - Find)

    서로소 집합 자료구조를 구현할 때는 트리 자료구조를 이용하여 집합을 표현한다.

    서로소 집합정보(합집합 연산)가 주어 졌을 때 트리 자료구조를 이용해서 집합을 표현하는 서로소 집합 계산 알고리즘

    • union(합집합) 연산을 확인하여, 서로 연결된 두 노드 A, B를 확인한다.
    • a와 b의 루트 노드 A, B를 각각 찾는다. A를 B의 부모 노드로 설정한다. (B가 A를 가리키도록 한다.)
    • 모든 union(합집합) 연산을 처리할 때까지 1과정을 반복한다.

     

    ex) union [1,4] union[2,3] union[2,4] union[5,6] 4개의 union 연산 존재

    원소는 그래프에서 노드로 표현되고 같은 집합에 속하는 정보인 union 연산은 간선으로 표현된다.

    즉 4개의 간선과 6개의 노드가 있는 그래프로 볼 수 있다.

    #특정 원소가 포함된 집합 찾기
    def find_parent(parent, x):
        # 루트 노드가 아니라면, 루트 노드를 찾을 때 까지 재귀적으로 호출한다.
        if parent[x] != x: #루트까지 계속 거슬러 올라가는 재귀 호출
            return find_parent(parent,parent[x]) # x가 자기 자신을 가리킬때 루트임 -> 처음 입력 받은 x라는 보장은 아님
        return x
    
    # 두 원소가 속한 집합을 합치기
    def union_parent(parent,a,b):
        a = find_parent(parent,a)
        b = find_parent(parent,b)
    
        if a<b:
            parent[b]=a
        else:
            parent[a]=b
    
    if __name__ == '__main__':
        v, e  =map(int, input().split())
        parent = [0]*(v+1) #부모 테이블 초기화
    
    
        #부모테이블에서 자기 자신으로 초기화
        for i in range(1,len(parent)):
            parent[i]=i
        #union 연산 각각 수행
        for i in range(e):
            a,b = map(int,input().split())
            union_parent(parent,a,b)
        for i in range(1,v+1):
            print(find_parent(parent,i),end=' ')
        print()
        for i in range(1, v + 1):
            print(parent[i], end=' ')
    
    
    output:
    	6 4
    	1 4
    	2 3
    	2 4
    	5 6
    	1 1 1 1 5 5 
    	1 1 2 1 5 5 

    위와 같은 방식으로 하면 답은 구할 수 있지만 find 함수가 비효율적으로 동작한다. 최악의 경우 find 함수가 모든 노드를 다 확인해 O(V)가 나올 수 있다.

    이러한 find 함수는 경로 압축(Path Compression) 기법을 사용하면 효과적으로 시간 복잡도를 개선시킬 수 있다.

    def find_parent(parent,x):
    	if parent[x] != x:
        	parent[x] = find_parent(parent,parent[x])
        return parent[x]

    이렇게 하면 각 노드에 대하여 find를 호출한 후 해당 노드의 루트 노드가 바로 부모 노드가 된다.

    즉 부모노드가 가르키고 있는 부모노드를 자신의 부모노드로 만드는 셈이다.

     

    시간복잡도

    경로 압축을 사용했을 경우 시간 복잡도는 노드의 개수가 V개이고 최대 V-1개의 union 연산과 M개의 find 연산이 가능할 때 경로 압축 방법을 적용한 시간 복잡도는 O(V+M(1+log2-m/v V))라 한다... 하하..

    ex) 노드의 개수가 1000개 union 및 find 연산이 총 100만번 수행 된다 고 했을 경우 대략 V+Mlog2V를 계산하면

    약 1000만번 가량 연산이 필요한다고 생각하면 된다.

     

    서로소 집합을 활용한 사이클 판별

     

    서로소 집합은 무방향 그래프 내에서의 사이클 판별할 때 사용할 수 있다. 방향 그래프 사이클 여부는 DFS를 사용해 판별 할 수 있다.

    union 연산은 그래프에서의 간선으로 표현 될 수 있다. 간선을 하나씩 확인 하면서 두 노드가 포함되어 있는 집합을 합치는 과정을 반복하는 것만으로 사이클을 판별할 수 있다.

    1.각 간선을 확인하며 두 노드의 루트 노드를 확인한다.

       1-1. 루트 노드가 서로 다르다면 두 노드에 대하여 union 연산을 수행한다.

       1-2. 루트 노드가 서로 같다면 사이클이 발생한 것이다.

    2.그래프에 포함되어 있는 모든 간선에 대하여 1 과정을 반복한다.



    신장 트리

    하나의 그래프에서 모든 노드를 포함하면서 사이클이 존재하지 않는 부분 그래프

    모든 노드가 포함되어 서로 연결되면서 사이클이 존재하지 않는다는 조건은 트리의 성립조건이기도 해서 신장 트리라고한다.

     

    크루스칼 알고리즘

    최소한의 비용으로 신장트리를 찾아야 할 때 사용한다 즉, 최소 비용으로 모든 노드를 연결할 때 사용, 그리디 알고리즘

    ex) 2개의 도시 A, B를 선택했을 때, 도시 A에서 도시 B로 이동하는 경로가 반드시 존재하도록 도로를 설치 할 경우. 모든 도시를 연결할때 최소한의 비용으로 연결 하는 알고리즘 -> 크루스칼 알고리즘

     

    먼저 모든 간선에 대하여 정렬을 수행한다.

    그 뒤 가장 거리가 짧은 간선부터 집합에 포함시킨다. 이때 사이클을 발생시키는 간선이면 집합에 포함시키지 않는다.

     

    1. 간선 데이터를 비용에 따라 오름차순으로 정렬한다.

    2. 간선을 하나씩 확인하며 현재의 간선이 사이클을 발생시키는지 확인한다.

       2-1. 사이클이 발생하지 않는 경우 최소 신장트리에 포함시킨다.

       2-2. 사이클이 발생하는 경우 최소 신장트리에 포함시키지 않는다.

    3. 모든 간선에 대하여 2번의 과정을 반복한다.

     

    최소 신장 트리는 일종의 트리 자료구조이므로 최종적으로 간선의 개수가 노드의 개수 -1개와 같다.

    따라서 크루스칼의 가장 핵심 원리는 가장 거리가 짧은 간선부터 차례대로 집합에 추가하면 된다는 것이다.

    단 사이클을 발생시키는 간선은 제외하고 연결해야 항상 최적의 해를 보장할 수 있다.

    # 특정 원소가 속한 집합 찾기
    def find_parent(parent, x):
        # 루트 노드가 아니라면 루트노드를 찾을 때까지 재귀적 호출
        if parent[x] != x:
            parent[x] = find_parent(parent, parent[x])
        return parent[x]
    
    
    # 두 원소가 속한 집합 합치기
    
    def union_parent(parent, a, b):
        a = find_parent(parent, a)
        b = find_parent(parent, b)
    
        if a < b:
            parent[b] = a
        else:
            parent[a] = b
    
    
    if __name__ == '__main__':
        # 노드의 개수와 간선(union 연산) 의 개수 입력 받기
        v, e = map(int, input().split())
        parent = [0] * (v + 1)
    
        # 모든 간선을 담을 리스트와 최종 비용을 담을 변수
        edges = list()
        result = 0
    
        # 부모 테이블 상에서 부모를 자기 자신으로 초기화
        for i in range(1, v + 1):
            parent[i] = i
    
        # 모든 간선에 대한 정보 입력 받기
        for _ in range(e):
            a, b, cost = map(int, input().split())
            # 비용순으로 정렬을 위한 튜플의 첫 원소를 비용으로 설정
            edges.append((cost, a, b))
        # 간선 비용으로 정렬
        edges.sort()
    
        # 간선을 하나씩 확인하며
        for edge in edges:
            cost, a, b = edge
            # 사이클이 발생하지 않는 경우 집합에 포함
            if find_parent(parent, a) != find_parent(parent, b):
                union_parent(parent, a, b)
                result += cost
       
    

     

    시간복잡도

    간선의 개수가 E개일 때, O(E logE)의 시간 복잡도를 가진다. 크루스칼 알고리즘 가장 오래걸리는 과정은 간선을 정렬하는 작업. E개의 데이터를 정렬했을 때의 시간 복잡도는 O(E logE) 크루스칼 내부에서 사용되는 서로소 집합 알고리즘의 시간복잡도가 정렬 알고리즘 보다 시간복잡도가 작으므로 무시한다.

     

    위상정렬

    순서가 정해져 있는 일련의 작업을 차례대로 수행해야 할 때 사용할 수 있는 알고리즘.

    방향 그래프의 모든 노드를 `방향성에 거스르지 않도록 순서대로 나열하는 것`

    진입차수란 특정한 노드로 들어오는 간선의 개수를 의미한다. 즉 2단계를 거쳐서 들어올 수 있는 노드의 경우 진입차수가 2이다. 

    위상정렬 알고리즘

    1.진입차수가 0인 노드를 큐에 넣는다.

    2.큐가 빌 때까지 다음의 과정을 반복한다.

       2-1. 큐에서 원소를 꺼내 해당 노드에서 출발하는 간선을 그래프에서 제거한다.

       2-2. 새롭게 진입차수가 0이 된 노드를 큐에 넣는다.

     

    큐가 빌 때까지 큐에서 원소를 계속 꺼내서 처리하는 과정을 반복한다.

    이때 모든 원소를 방문하기전에 큐가 빈다면 사이클이 존재한다고 판단할 수 있다.

    즉, 큐에서 원소가 V번 추출되기 전에 큐가 비어버리면 사이클이 발생한 것.

    사이클이 존재하는 경우 사이클에 포함되어 있는 원소중에서 어떠한 원소도 큐에 들어가지 못하기 때문이다.

     

    from collections import deque
    
    #위상 정렬 함수
    def topology_sort(graph,indegree):
        result = [] #알고리즘 수행결과를 담을 리스트
        que =deque()
    
        #처음 진입시 진입차수 0인 노드 삽입
        for i in range(1,v+1):
            if indegree[i] == 0:
                que.append(i)
        while que:
            now = que.popleft()
            result.append(now)
            #연결 되있는 노드들의 진입차수 1감소
            for j in graph[now]:
                indegree[j]-=1
                #새롭게 진입차수가 0이되는 노드 큐에 삽입
                if indegree[j]==0:
                    que.append(j)
        return result
    if __name__ == '__main__':
        # 입력 받기
        v,e = map(int,input().split())
        #모든 노드에 대한 진입차수는 0으로 초기화
        indegree=[0]*(v+1)
        # 각 노드에 연결된 간선 정보를 담기 위한 연결리스트 초기화
        graph = [[]for i in range(v+1)]
    
        #방향 그래프의 모든 간선 정보를 입력받기
        for _ in range(e):
            a, b = map(int,input().split())
            graph[a].append(b)
            #진입차수를 1증가.
            indegree[b]+=1

    시간복잡도

    O(V+E) 위상 정렬을 수행할 때는 차례대로 모든 노드를 확인하면서, 해당 노드에서 출발하는 간선을 차례대로 제거해야 한다. 

    'Algorithm' 카테고리의 다른 글

    알고리즘 복습..  (0) 2020.12.05
    알고리즘 (소수, 구간 합, 투포인터)  (0) 2020.10.22
    최단경로  (0) 2020.09.02
    다이나믹 프로그래밍  (0) 2020.08.30
    이진탐색  (0) 2020.08.30
Designed by Tistory.