본문 바로가기

IT/데이터베이스1

두 문자열의 유사도 측정방법 뜻이 정반대인 "I love you" 라는 문자열과 "I hate you" 라는 문자열의 유사도는 어떻게 구할까? 스펠링검사, 표절검사 같은 분야에 사용되어지는 Levenshtein distance algorithm (A.K.A edit distance)을 이용하여 문자열의 유사도를 측정해보자. 1. 원리는 간단하다. 비교 대상이 되는 두 문자열을 각 a, b 라 할 때, a를 b로 수정하는데 필요한 문자의 추가, 삭제, 수정 횟수를 덧셈하면 그것이 곧 유사도가 된다.. 즉, "I love you"가 "I hate you"가 되기 위해선 I love you ↓↓↓ I hate you "lov" 세글자가 "hat" 로 수정되야 한다. 문자바뀜횟수는 3회이고 따라서 레벤시테인 거리 알고리즘에 의한 유사도는 .. 2011. 3. 9.

이전 1 다음

티스토리툴바