[Algorithm] DFS/BFS

1. 자료구조 기초 개념

탐색: 많은 양의 데이터 중에서 원하는 데이터를 찾는 과정
자료구조: 데이터를 표현하고 관리하기 위한 구조 (삽입 Push, 삭제 Pop → 두 가지가 핵심적인 함수)

스택과 큐를 사용할 때에는 오버플로와 언더플로를 항상 고려해야 함 !

오버플로(Overflow)는 특정 자료구조가 수용할 수 있는 데이터의 크기를 이미 가득 찬 상태에서 연산 수행 시 발생. 즉, 저장 공간을 벗어나 데이터가 넘쳐 흐를 때 발생함. 언더플로(Underflow)는 특정한 자료구조에 데이터가 전혀 들어 있지 않은 상태에서 연산 수행 시 발생.

스택 (Stack)

선입 후출 구조 (박스 쌓기에 비유하기. 밑에 있는 박스는 맨 위에 박스를 꺼내야 뺄 수 있음)
별도의 라이브러리 필요없이 기본 리스트에서 append()와 pop() 메서드를 활용
- append() 메서드는 리스트의 가장 뒤쪽에 데이터를 삽입
- pop() 메서드는 리스트의 가장 뒤쪽에서 데이터를 꺼냄

큐 (Queue)

선입 선출 구조 (먼저 온 사람이 먼저 나간다)
collections 모듈에서 제공하는 deque 자료구조를 활용
- deque는 스택의 큐와 장점을 모두 채택 → 리스트 자료형보다 효율적
- 코드를 짜다가 리스트 형태로 변환하고 싶다면 list() 메서드 활용하여 list(queue) 하면 자료형 변환 가능

from collections import deque

# 큐(Queue) 구현을 위해 deque 라이브러리 사용
queue = deque()

# 삽입, 삭제 반복
queue.append(5)
queue.append(2)
queue.append(3)
queue.append(7)

queue.popleft()

queue.append(1)
queue.append(4)

queue.popleft()

print(queue)     # 먼저 들어온 순서대로 출력
queue.reveerse() # 다음 출력을 위해 역순으로 변경
print(queue)     # 나중에 들어온 원소대로 출력

재귀함수 (Recursive Function)

자기 자신을 다시 호출하는 함수 (대표적 예시: 팩토리얼 문제)
재귀 함수는 문제 풀이에서 사용 시 종료 조건을 반드시 명시 해야 함 (IF문으로 많이 명시)
주로 스택 자료구조를 활용 → 가장 마지막에 호출한 함수가 먼저 수행을 끝내야 그 함수 호출이 종료되기 때문
- 그렇다면, 장점은? 코드가 더 간결함

# 반복적으로 구현한 n!
def factorial_iterative(n):
	result = 1
    # 1부터 n까지의 수를 차례대로 곱하기
    for i in range(1, n+1):
    	result += i
    return result
    
# 재귀적으로 구현한 n!
def factorial_recursive(n):
	if n <= 1:    # n이 1 이하인 경우 1을 반환
    	return 1
    
    # n! = n * (n-1)를 그대로 코드로 작성
    returnn n * factorial_recursive(n-1)

수학적으로 나타내보면 n이 0 혹은 1일 때: factorial(n) = 1

n이 1보다 클 때: factorial(n) = n x factorial(n-1)

2. 탐색 알고리즘 DFS와 BFS

프로그래밍에서 그래프는 크게 2가지 방식으로 표현 → 인접 행렬 / 인접 리스트

인접 행렬은 2차원 배열로 그래프 연결 관계를 표현하는 방식

연결되어 있지 않은 노드끼리는 무한(infinity)의 비용이라고 작성
실제 코드에서는 논리적으로 정답이 될 수 있는 큰 값 중에서 999999, 982323 등 값으로 초기화하는 경우가 많음

INF = 999999999 # 무한의 비용 선언

# 2차원 리스트를 이용해 인접 행렬 표현
graph = [
	[0, 7, 5],
    [7, 0, INF],
    [5, INF, 0]
]

print(graph)
# 결과 예시 [[0, 7, 5], [7, 0, 999999999], [5, 999999999, 0]]

인접 리스트는 리스트로 그래프의 연결 관계를 표현하는 방식

모든 노드에 연결된 노드에 대한 정보를 차례대로 연결하여 저장
C++나 자바에서는 주로 '연결 리스트' 자료구조를 이용해 구현하지만, Python은 2차원 리스트를 활용

# 행(Row)이 3개인 2차원 리스트로 인접 리스트 표현
graph = [[] for _ in range(3)]

# 노드 0에 연결된 노드 정보 저장 (노드, 거리)
graph[0].append((1, 7))
graph[0].append((2, 5))

# 노드 1에 연결된 노드 정보 저장 (노드, 거리)
graph[1].append((0, 7))

# 노드 2에 연결된 노드 정보 저장 (노드, 거리)
graph[2].append((0, 5))

print(graph)

# 결과 예시 [[(1, 7), (2, 5)], [(0, 7)], [(0, 5)]]

인접 행렬과 인접 리스트 비교

(1) 메모리 측면

인접 행렬은 모든 관계를 저장하므로 노드 개수가 많을수록 메모리가 불필요하게 낭비됨
인접 리스트 방식은 연결된 정보만 저장하므로, 메모리를 효율적으로 사용함

(2) 속도 측면

인접 리스트 방식은 인접 행렬 방식에 비해 특정한 두 노드가 연결되어 있는지에 대한 정보를 얻는 속도가 느림
인접 리스트 방식은 연결된 데이터를 하나씩 확인해야 하기 때문

⭐ DFS (깊이 우선 탐색 ; Depth-First Search)

그래프에서 깊은 부분을 우선적으로 탐색하는 알고리즘 (주로, 번호가 낮은 순서부터 처리하도록 구현하는 것이 관행)

특정한 경로를 탐색하다가 특정한 상황에서 최대한 깊숙이 들어가서 노드를 방문한 후, 다시 돌아가 다른 경로 탐색

그래프(노드, 간선으로 구성) 탐색은 하나의 노드를 시작으로 다수의 노드를 방문하는 것
여기서 간선으로 연결되어 있으면 '두 노드는 인접하다'라고 표현

동작 과정

탐색 시작 노드를 스택에 삽입하고 방문 처리를 한다
스택의 최상단 노드에 방문하지 않은 인접 노드가 있으면 그 인접 노드를 스택에 넣고 방문 처리를 한다.
방문하지 않은 인접 노드가 없으면 스택에서 최상단 노드를 꺼낸다.
2번의 과정을 더 이상 수행할 수 없을 때까지 반복한다.

특징

DFS는 스택 자료구조에 기초한다는 점에서 구현이 간단 → 주로 재귀 함수를 많이 사용
데이터의 개수가 N개인 경우 O(N)의 시간이 소요됨

### DFS 예제 ###

# DFS 메서드 정의
def dfs(graph, v, visited):

	# 현재 노드를 방문 처리
    visited[v] = True
    print(v, end=' ')
    
    # 현재 노드와 연결된 다른 노드를 재귀적으로 방문
    for i in graph(v):
    	if not visited[i]:
        	dfs(graph, i, visited)

# 각 노드가 연결된 저옵를 리스트 자료형으로 표현 (2차원 리스트)
graph = [
	[],
    [2, 3, 8],
    [1, 7],
    [1, 4, 5],
    [3, 5],
    [3, 4],
    [7],
    [2, 6, 8],
    [1, 7]
]

# 각 노드가 방문된 정보를 리스트 자료형으로 표현 (1차원 리스트)
visited = [False] * 9

# 정의된 DFS 함수 호출
dfs(graph, 1, visited)

⭐ BFS (너비 우선 탐색 ; Breadth First Search)

가까운 노드부터 탐색하는 알고리즘. 선입선출 방식인 큐 자료구조를 이용하는 것이 정석임.

동작 방식

탐색 시작 노드를 큐에 삽입하고 방문 처리를 한다.
큐에서 노드를 꺼내 해당 노드의 인접 노드 중에서 방문하지 않은 노드를 모두 큐에 삽입하고 방문 처리를 한다.
2번 과정을 더 이상 수행할 수 없을 때까지 반복한다.

특징

deque 라이브러리를 사용하는 것이 좋으며, 탐색을 수행함에 있어 O(N)의 시간이 소요
* 실제 수행시간은 DFS보다 좋은 편

### BFS 예제 ###

from collections import deque

# BFS 메서드 정의
def bfs(graph, start, visited):

	# 큐(Queue) 구현을 위해 deque 라이브러리 사용
    queue = deque([start])
    
    # 현재 노드를 방문 처리
    visited[start] = True
    
    # 큐가 빌 때까지 반복
    while queue:
    	# 큐에서 하나의 원소를 뽑아 출력
        v = queue.popleft()
        print(v, end=' ')
        
        # 해당 원소와 연결된, 아직 방문하지 않은 원소들을 큐에 삽입
        for i in graph[v]:
        	if not visited[i]:
            	queue.append(i)
                visited[i] = True

# 각 노드가 연결된 정보를 리스트 자료형으로 표현 (2차원 리스트)
graph = [
	[],
    [2, 3, 8],
    [1, 7],
    [3, 5],
    [3, 4],
    [7],
    [2, 6, 8],
    [1, 7]
]

# 각 노드가 방문된 정보를 리스트 자료형으로 표현 (1차원 리스트)
visited = [False] * 9

# 정의된 BFS 함수 호출
bfs(graph, 1, visited)

DFS와 BFS를 비교하면, DFS는 스택의 동작원리 재귀 함수를 이용 / BFS는 큐의 동작원리로 큐 자료구조 이용

말차에퐁당