비슷한 단어
문제
영문 알파벳 대문자로 이루어진 두 단어가 다음의 두 가지 조건을 만족하면 같은 구성을 갖는다고 말한다.
- 두 개의 단어가 같은 종류의 문자로 이루어져 있다.
- 같은 문자는 같은 개수 만큼 있다.
예를 들어 "DOG"와 "GOD"은 둘 다 'D', 'G', 'O' 세 종류의 문자로 이루어져 있으며 양쪽 모두 'D', 'G', 'O' 가 하나씩 있으므로 이 둘은 같은 구성을 갖는다. 하지만 "GOD"과 "GOOD"의 경우 "GOD"에는 'O'가 하나, "GOOD"에는 'O'가 두 개 있으므로 이 둘은 다른 구성을 갖는다.
두 단어가 같은 구성을 갖는 경우, 또는 한 단어에서 한 문자를 더하거나, 빼거나, 하나의 문자를 다른 문자로 바꾸어 나머지 한 단어와 같은 구성을 갖게 되는 경우에 이들 두 단어를 서로 비슷한 단어라고 한다.
예를 들어 "DOG"와 "GOD"은 같은 구성을 가지므로 이 둘은 비슷한 단어이다. 또한 "GOD"에서 'O'를 하나 추가하면 "GOOD" 과 같은 구성을 갖게 되므로 이 둘 또한 비슷한 단어이다. 하지만 "DOG"에서 하나의 문자를 더하거나, 빼거나, 바꾸어도 "DOLL"과 같은 구성이 되지는 않으므로 "DOG"과 "DOLL"은 비슷한 단어가 아니다.
입력으로 여러 개의 서로 다른 단어가 주어질 때, 첫 번째 단어와 비슷한 단어가 모두 몇 개인지 찾아 출력하는 프로그램을 작성하시오.
입력
첫째 줄에는 단어의 개수가 주어지고 둘째 줄부터는 한 줄에 하나씩 단어가 주어진다. 모든 단어는 영문 알파벳 대문자로 이루어져 있다. 단어의 개수는 100개 이하이며, 각 단어의 길이는 10 이하이다.
출력
입력으로 주어진 첫 번째 단어와 비슷한 단어가 몇 개인지 첫째 줄에 출력한다.
입출력 예제
입력 | 출력 |
4 DOG GOD GOOD DOLL |
2 |
풀이
단어의 구성이 같은 경우: 각 알파벳의 구성 개수가 완전히 동일한 경우 (총 길이도 동일)
단어의 구성이 비슷한 경우: 한 단어에서 한 문자를 더하거나, 빼거나, 하나의 문자를 다른 문자로 바꾸어 나머지 한 단어와 같은 구성을 갖게 되는 경우 (총 길이는 최대 1만큼 차이날 수 있음)
비슷한 구성인 경우 3가지
- 길이가 동일하고 알파벳 구성이 동일한 경우
- 길이가 동일하고 알파벳 구성이 2만큼 차이나는 경우
- 길이가 1만큼 다르고 알파벳 구성이 1만큼 차이나는 경우
비슷한 구성이 아닌 경우 3가지
- 길이가 2 이상 차이나는 경우
- 구성이 3 이상 차이나는 경우
- 구성이 2만큼 차이나는데 길이가 같지 않은 경우
알파벳의 구성을 세는 방법
- 딕셔너리 - 알파벳: 개수
- 리스트 - 크기 26인 리스트에 개수 저장
- 알파벳 개수 세는 카운터 (counter 모듈)
풀이 로직
알파벳의 구성을 먼저 모두 센 후, 각 단어를 for문으로 순회하며 조건에 해당하지 않으면 continue로 넘기고 조건을 모두 통과하면 cnt += 1
최초 알파벳의 구성만 저장한 다음에 매번 사본을 만들어 순회하는 단어의 구성만큼 알파벳 개수를 빼는 식으로 diff를 구할 수 있음
diff를 셀 때는 절댓값의 합으로 계산
import sys
input = sys.stdin.readline
n = int(input())
words = [input().rstrip() for _ in range(n)]
alphabet = [0] * 26
for i in words[0]:
alphabet[ord(i) - ord('A')] += 1
cnt = 0
for word in words[1:]:
if abs(len(words[0]) -len(word)) > 1: # 단어 길이가 2 이상 차이나면
continue # 비슷한 구성 아님
temp = alphabet[:]
for i in word:
temp[ord(i) - ord('A')] -= 1
diff = abs(sum(map(abs, temp)))
if diff > 2: # 차이가 3개 이상이면
continue # 비슷한 구성 아님
if diff == 2 and abs(len(words[0]) -len(word)) != 0: # 차이가 2개 나는데 길이가 다르면
continue # 비슷한 구성 아님
cnt += 1 # 모든 검사를 다 통과했으면 비슷한 단어
print(cnt)
메모리: 31256 KB / 시간: 40 ms
temp를 매번 재할당하는 것과 처음부터 모든 단어의 알파벳 개수를 센 후 비교하는 것에 성능 차이가 있을까?
import sys
input = sys.stdin.readline
n = int(input())
words = [input().rstrip() for _ in range(n)]
alphabet = [[0 for _ in range(26)] for _ in range(n)]
for i in range(n):
for j in words[i]:
alphabet[i][ord(j) - ord('A')] += 1
cnt = 0
for i in range(1, n):
if abs(len(words[0]) -len(words[i])) > 1: # 단어 길이가 2 이상 차이나면
continue # 비슷한 구성 아님
diff = 0
for j in range(26):
diff += abs(alphabet[0][j] - alphabet[i][j])
if diff > 2: # 차이가 3개 이상이면
continue # 비슷한 구성 아님
if diff == 2 and abs(len(words[0]) -len(words[i])) != 0: # 차이가 2개 나는데 길이가 다르면
continue # 비슷한 구성 아님
cnt += 1
print(cnt)
메모리: 31256 KB / 시간: 40 ms
동일한 성능이 나왔다. 결국 길이가 26인 배열을 n개 사용하게 되므로 동일하게 나온 것 같다.
'알고리즘 > 백준 BOJ' 카테고리의 다른 글
[백준] 지능형 기차 2 (Python) (0) | 2023.09.28 |
---|---|
[백준] 11399: ATM (Python) (0) | 2023.09.04 |
[백준] 2231: 분해합 (Python) (0) | 2023.08.19 |
[백준] 3035: 스캐너 (Python) (0) | 2023.08.19 |
[백준] 1259: 팰린드롬수 (Python) (0) | 2023.08.19 |