AI는 무엇을 기억하는가… Memorization과 Regurgitation의 경계



인공지능의 ‘기억’은 인간의 기억과 다르다. 정보를 저장했다가 꺼내는 방식이 아니라, 학습을 통해 입력에 대한 반응 구조가 바뀌는 과정에 가깝다. 최근 대규모 언어모델(LLM)의 확산과 함께 Memorization과 Regurgitation 문제가 다시 주목받는 이유다.

Memorization은 AI가 학습 과정에서 접한 데이터를 내부 파라미터에 반영해 이후 유사한 입력에 대해 재현하거나 일반화된 형태로 출력하는 현상을 말한다. 이는 특정 정보를 파일처럼 저장하는 것이 아니라, 가중치 분포가 조정되면서 모델의 행동 방식이 변화하는 것이다. 따라서 기억이란 ‘어디에 저장됐는가’보다 ‘어떤 입력에 어떻게 반응하도록 바뀌었는가’의 문제로 정의된다.

Memorization은 크게 세 가지 수준으로 나뉜다. 첫째는 파라미터 기반 Memorization이다. 학습 데이터의 통계와 패턴이 가중치에 내재화되는 단계로, 일반화가 잘 되면 이해로 평가되지만 특정 샘플을 거의 그대로 재현하면 암기로 간주된다. 새로운 학습이 기존 지식을 덮어쓰며 발생하는 이른바 대규모 망각 현상도 이 층위에서 나타난다. 가장 강력한 기억이지만 동시에 가장 불안정하다.

둘째는 컨텍스트 기반 Memorization이다. 프롬프트와 세션 컨텍스트에 포함된 정보를 활용해 추론하는 방식으로, 작업 중에만 유지된다. 계산 속도를 높이기 위한 임시 상태에 가깝고 세션이 종료되면 사라진다. 흔히 언급되는 KV 캐시는 기억 장치라기보다 추론 효율을 높이기 위한 메커니즘이다.

셋째는 외부 메모리 기반 Memorization이다. 벡터 데이터베이스, 검색증강생성(RAG), 도구 기반 메모리 등이 이에 해당한다. 모델 외부에 지식이 저장되며 업데이트와 삭제가 가능해 망각 위험이 낮다. 대신 시스템 설계와 운영 복잡도가 높아진다는 한계가 있다.

Memorization과 자주 혼동되는 개념이 Generalization이다. Memorization이 본 것을 재현하는 데 초점이 있다면, Generalization은 학습한 내용을 바탕으로 새로운 상황에 대응하는 능력이다. 성능이 좋은 모델일수록 불필요한 암기는 줄이고 일반화 비중을 높인다.

문제는 Regurgitation이다. 이는 학습 과정에서 본 문장이나 코드, 문서를 거의 그대로 다시 출력하는 현상을 의미한다. 단순한 암기보다 노골적인 형태로, 문장 구조나 표현이 지나치게 유사해 출처 추적이 가능한 경우가 많다. 이해에 기반한 생성이 아니라 기억을 그대로 토해내는 방식이라는 점에서 위험성이 크다.

Regurgitation은 품질 문제를 넘어 법적·신뢰 문제로 이어질 수 있다. 저작권 침해, 개인정보 유출, 기업 내부 데이터 노출 가능성이 대표적이다. 이 때문에 상용 AI 모델은 이러한 현상을 강하게 억제하도록 설계되고 있다.

세 개념의 관계는 비교적 명확하다. Memorization은 기억이 형성되는 방식이고, Regurgitation은 그 기억이 통제 없이 그대로 노출되는 현상이다. Forgetting은 기존 기억이 새로운 학습에 의해 사라지는 과정이다. 여기에 KV 캐시는 기억과는 별개로 계산 효율을 높이는 보조 수단으로 작동한다.

실무 관점에서 보면 파라미터 기반 기억은 강력하지만 망각 위험이 크고, 컨텍스트 기반 기억은 빠르지만 일시적이다. 외부 메모리는 안정적이지만 설계 부담이 따른다. Regurgitation은 관리되지 않을 경우 기업과 서비스 전체를 위협하는 리스크로 작용할 수 있다.

AI의 기억 문제는 단순한 기술 논쟁을 넘어, 신뢰와 책임의 문제로 확장되고 있다. 무엇을 얼마나 기억하게 할 것인가, 그리고 그 기억이 어떻게 노출되지 않도록 설계할 것인가는 앞으로 AI 시스템의 핵심 과제가 될 전망이다.

댓글 남기기

EduKorea News에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기