알고리즘/백준 BOJ

[백준] 2607: 비슷한 단어 (Python)

한비 2023. 8. 21. 15:58

비슷한 단어

 

2607번: 비슷한 단어

첫째 줄에는 단어의 개수가 주어지고 둘째 줄부터는 한 줄에 하나씩 단어가 주어진다. 모든 단어는 영문 알파벳 대문자로 이루어져 있다. 단어의 개수는 100개 이하이며, 각 단어의 길이는 10 이

www.acmicpc.net

 

문제

영문 알파벳 대문자로 이루어진 두 단어가 다음의 두 가지 조건을 만족하면 같은 구성을 갖는다고 말한다.

  1. 두 개의 단어가 같은 종류의 문자로 이루어져 있다.
  2. 같은 문자는 같은 개수 만큼 있다.

예를 들어 "DOG"와 "GOD"은 둘 다 'D', 'G', 'O' 세 종류의 문자로 이루어져 있으며 양쪽 모두 'D', 'G', 'O' 가 하나씩 있으므로 이 둘은 같은 구성을 갖는다. 하지만 "GOD"과 "GOOD"의 경우 "GOD"에는 'O'가 하나, "GOOD"에는 'O'가 두 개 있으므로 이 둘은 다른 구성을 갖는다.

두 단어가 같은 구성을 갖는 경우, 또는 한 단어에서 한 문자를 더하거나, 빼거나, 하나의 문자를 다른 문자로 바꾸어 나머지 한 단어와 같은 구성을 갖게 되는 경우에 이들 두 단어를 서로 비슷한 단어라고 한다.

예를 들어 "DOG"와 "GOD"은 같은 구성을 가지므로 이 둘은 비슷한 단어이다. 또한 "GOD"에서 'O'를 하나 추가하면 "GOOD" 과 같은 구성을 갖게 되므로 이 둘 또한 비슷한 단어이다. 하지만 "DOG"에서 하나의 문자를 더하거나, 빼거나, 바꾸어도 "DOLL"과 같은 구성이 되지는 않으므로 "DOG"과 "DOLL"은 비슷한 단어가 아니다.

입력으로 여러 개의 서로 다른 단어가 주어질 때, 첫 번째 단어와 비슷한 단어가 모두 몇 개인지 찾아 출력하는 프로그램을 작성하시오.

 

입력

첫째 줄에는 단어의 개수가 주어지고 둘째 줄부터는 한 줄에 하나씩 단어가 주어진다. 모든 단어는 영문 알파벳 대문자로 이루어져 있다. 단어의 개수는 100개 이하이며, 각 단어의 길이는 10 이하이다.

 

출력

입력으로 주어진 첫 번째 단어와 비슷한 단어가 몇 개인지 첫째 줄에 출력한다.

 

입출력 예제

입력 출력
4
DOG
GOD
GOOD
DOLL
2

 

풀이

단어의 구성이 같은 경우: 각 알파벳의 구성 개수가 완전히 동일한 경우 (총 길이도 동일)

단어의 구성이 비슷한 경우: 한 단어에서 한 문자를 더하거나, 빼거나, 하나의 문자를 다른 문자로 바꾸어 나머지 한 단어와 같은 구성을 갖게 되는 경우 (총 길이는 최대 1만큼 차이날 수 있음)

 

비슷한 구성인 경우 3가지

  • 길이가 동일하고 알파벳 구성이 동일한 경우
  • 길이가 동일하고 알파벳 구성이 2만큼 차이나는 경우
  • 길이가 1만큼 다르고 알파벳 구성이 1만큼 차이나는 경우

 

비슷한 구성이 아닌 경우 3가지

  • 길이가 2 이상 차이나는 경우
  • 구성이 3 이상 차이나는 경우
  • 구성이 2만큼 차이나는데 길이가 같지 않은 경우

 

알파벳의 구성을 세는 방법

  1. 딕셔너리 - 알파벳: 개수
  2. 리스트 - 크기 26인 리스트에 개수 저장
  3. 알파벳 개수 세는 카운터 (counter 모듈)

 

풀이 로직

알파벳의 구성을 먼저 모두 센 후, 각 단어를 for문으로 순회하며 조건에 해당하지 않으면 continue로 넘기고 조건을 모두 통과하면 cnt += 1

최초 알파벳의 구성만 저장한 다음에 매번 사본을 만들어 순회하는 단어의 구성만큼 알파벳 개수를 빼는 식으로 diff를 구할 수 있음

diff를 셀 때는 절댓값의 합으로 계산

import sys
input = sys.stdin.readline
n = int(input())
words = [input().rstrip() for _ in range(n)]
alphabet = [0] * 26
for i in words[0]:
	alphabet[ord(i) - ord('A')] += 1
cnt = 0
for word in words[1:]:
	if abs(len(words[0]) -len(word)) > 1: # 단어 길이가 2 이상 차이나면
		continue # 비슷한 구성 아님
	temp = alphabet[:]
	for i in word:
		temp[ord(i) - ord('A')] -= 1
	diff = abs(sum(map(abs, temp)))
	if diff > 2: # 차이가 3개 이상이면
		continue # 비슷한 구성 아님
	if diff == 2 and abs(len(words[0]) -len(word)) != 0: # 차이가 2개 나는데 길이가 다르면 
		continue # 비슷한 구성 아님
	cnt += 1 # 모든 검사를 다 통과했으면 비슷한 단어 
print(cnt)

메모리: 31256 KB / 시간: 40 ms

 

temp를 매번 재할당하는 것과 처음부터 모든 단어의 알파벳 개수를 센 후 비교하는 것에 성능 차이가 있을까?

import sys
input = sys.stdin.readline
n = int(input())
words = [input().rstrip() for _ in range(n)]
alphabet = [[0 for _ in range(26)] for _ in range(n)]
for i in range(n):
	for j in words[i]:
	    alphabet[i][ord(j) - ord('A')] += 1
cnt = 0
for i in range(1, n):
	if abs(len(words[0]) -len(words[i])) > 1: # 단어 길이가 2 이상 차이나면
		continue # 비슷한 구성 아님
	diff = 0
	for j in range(26):
		diff += abs(alphabet[0][j] - alphabet[i][j])
	if diff > 2: # 차이가 3개 이상이면
		continue # 비슷한 구성 아님
	if diff == 2 and abs(len(words[0]) -len(words[i])) != 0: # 차이가 2개 나는데 길이가 다르면 
		continue # 비슷한 구성 아님
	cnt += 1
print(cnt)

메모리: 31256 KB / 시간: 40 ms

동일한 성능이 나왔다. 결국 길이가 26인 배열을 n개 사용하게 되므로 동일하게 나온 것 같다.

'알고리즘 > 백준 BOJ' 카테고리의 다른 글

[백준] 지능형 기차 2 (Python)  (0) 2023.09.28
[백준] 11399: ATM (Python)  (0) 2023.09.04
[백준] 2231: 분해합 (Python)  (0) 2023.08.19
[백준] 3035: 스캐너 (Python)  (0) 2023.08.19
[백준] 1259: 팰린드롬수 (Python)  (0) 2023.08.19