웹사이트 번역

번역 정확도 70%와 95% 사이의 차이

작성자

Elizabeth Pokorny

검토자

업데이트 날짜

2026년 6월 15일

번역의 정확성은 의미에 달려 있습니다. 즉, 번역된 페이지가 원문의 중요한 내용을 추가하거나 생략하거나 왜곡하지 않으면서, 원문과 동일한 이해와 반응을 얼마나 잘 이끌어내느냐를 말합니다.

그렇기 때문에 실제로는 ‘정확도 95%’인 콘텐츠와 ‘정확도 약 70%’인 콘텐츠가 주는 느낌이 완전히 다릅니다. 정확도가 95%라면 대부분의 문장이 의도한 대로 전달되고, 브랜드의 어조가 친숙하게 느껴지며, 극히 드문 경우에만 다시 확인이 필요할 뿐입니다. 반면 정확도가 70%라면, 특히 제품 페이지나 결제 페이지에서 혼란스러운 표현이나 어색한 문장이 늘어나고, 고객의 이탈이 점차 증가하기 시작합니다.

이 글에서는 그 25%의 격차 속에 무엇이 숨어 있는지 살펴보겠습니다. 또한 이것이 신뢰도, 전환율, 업무량에 어떤 영향을 미치는지 자세히 설명하고, AI 번역 모델을 활용하면 가장 중요한 부분에서는 사람의 개입을 유지하면서도 90~95%의 범위 내에서 안전하게 업무를 수행할 수 있는 방법을 소개합니다.

핵심 요약

‘번역 정확도’는 눈에 띄는 곳에 숨어 있는 콘텐츠, 언어 쌍, 그리고 리스크 문제입니다.
정확성은 문장 단위에서 중요하지만, 영향력은 페이지 단위에서 결정됩니다. 결제 과정에서 혼란을 주는 한 줄의 문구가 완벽한 제품 설명 50개를 무색하게 만들 수도 있습니다.
가장 위험성이 높은 문구는 대개 아무도 검토할 생각을 하지 않는 작은 UI 라벨이나 CTA에서 발견됩니다.
가장 빠른 성과는 모든 블로그 게시물을 일일이 꼼꼼히 따지기보다는, 10가지 핵심 템플릿의 용어와 어조를 바로잡는 데서 나오는 경우가 많습니다.
하이브리드 방식 – AI가 초안을 작성하고, 중요한 부분만 사람이 검토하며, Weglot스타일의 브랜드 맞춤형 AI 번역 모델 – 이 조합을 통해 사이트의 대부분을 90~95% 정확도 범위로 끌어올릴 수 있습니다.

95%와 70%의 정확도 수치는 어디서 나온 것인가

번역 정확도 95%와 70%를 비교할 때, 우리는 마법처럼 통용되는 절대적인 점수를 언급하는 것이 아닙니다. 이 수치는 공동 연구를 바탕으로 한 것입니다 Weglot 와 Nimdzi가 공동으로 진행한 웹사이트 및 마케팅 콘텐츠에 대한 인사이트 연구 결과를 바탕으로 한 것입니다.

‘웹사이트용 기계 번역 현황’ 연구에서는 5대 기계 번역(MT) 서비스 제공업체(Amazon Translate, DeepL, Google Cloud, Microsoft Translator, ModernMT)를 대상으로 6개 언어 쌍에 걸쳐 테스트를 진행했습니다.

그들은 미국 영어의 168개 구절과 1,000개 이상의 단어를 프랑스어, 독일어, 스페인어, 중국어(간체), 아랍어, 유럽 포르투갈어로 번역했습니다.

전문 언어 전문가들이 각 번역물의 사용성과 정확성을 평가했습니다. 14개 언어-엔진 조합 중 85%가 ‘매우 우수’ 또는 ‘양호’ 등급을 받았으며, ‘매우 나쁨’으로 평가된 경우는 단 한 건도 없었습니다. 독일어의 경우 168개 문장 중 145개는 수정이 전혀 필요하지 않았으나, 포르투갈어는 58개 문장만 수정이 필요하지 않아(인간의 수정이 필요하지 않음) 정반대의 결과를 보였습니다.

그렇다면 95%라는 수치는 어디서 나온 것일까요? 자료가 풍부한 언어 쌍과 단순한 마케팅 문구의 경우, 최신 신경망 기계번역 기술은 이제 전문 검토자들이 대다수의 사례에서 사용 가능하다고 평가하는 수준의 번역 결과를 제공합니다.

한편, 70%의 정확도는 10개 문장 중 약 3개에 대해 실제 사람의 수정이 필요하다는 것을 의미합니다. Weglot 데이터에서도 언어 전문가들이 번역 결과물의 상당 부분을 수정했으며, 당사의 전체 고객 기반을 살펴보면 AI로 번역된 콘텐츠의 약 30%가 번역 후 추가 수정을 거치는 것으로 나타났습니다.

이는 두 가지 불편한 진실을 드러내기 때문에 중요합니다. 인간이든 AI든 100% 완벽한 번역을 제공하는 번역가는 없으며, AI는 인간의 판단을 대체하는 것이 아니라 초안을 빠르게 작성하는 도구로 활용할 때 가장 효과적입니다. 바로 이 가정이 저희 웹사이트 번역 도구의 기반이 됩니다. Weglot 기본적으로 고품질의 AI 번역 결과를 Weglot , 사용자가 문맥에 맞춰 검토하고 다듬을 수 있도록 하여 가장 중요한 페이지에서 90~95%의 안전 범위를 유지할 수 있게 해줍니다.

콘텐츠가 범위 내에서 어느 위치에 배치되는지는 무엇에 의해 결정되는가

번역의 품질이 95%에 가까워지거나 70% 수준으로 떨어지는 결정적 요인은, 대개 번역에 착수하기 전에 원문에서 확인할 수 있는 여러 가지 변수들입니다.

방법론: 인간, AI 또는 하이브리드

인간 번역가는 문맥과 문화적 뉘앙스를 파악하는 데 가장 뛰어나다. 그들은 어조, 의도, 숨은 의미를 읽어낸 뒤, 문장이 자연스럽게 들리도록 다시 작성한다.

AI 번역은 속도와 처리 범위를 최적화합니다. 소규모 팀에게는 부담이 될 수 있는 방대한 카탈로그, 롱테일 콘텐츠, 그리고 정기적인 업데이트에 이상적입니다.

하이브리드 워크플로는 이 두 가지를 결합한 방식입니다. AI가 대량의 작업을 처리하고, 사람은 법률 문서, 주요 캠페인, 결제 절차와 같이 중요한 페이지에 집중합니다.

더 자세한 내용을 원하시면 ‘인간 번역 대 기계 번역’에 관한 저희 기사를 읽어보세요.

언어 쌍의 난이도

어떤 언어 쌍은 다른 언어 쌍보다 번역하기가 더 쉽습니다. 영어-스페인어, 영어-프랑스어, 또는 영어-독일어는 같은 알파벳을 사용하고 문법 구조도 유사하며, 방대한 양의 학습 데이터가 존재합니다. 이 경우 번역 품질은 대개 90~95% 수준에 이릅니다.

영어-중국어, 영어-아랍어, 영어-일본어와 같은 언어 쌍은 서로 다른 문자 체계, 문법, 그리고 예의 표현 방식을 사용합니다. 이러한 차이점들 때문에 검토 과정을 거치지 않으면 초기 출력 결과의 정확도가 70% 수준에 머무르게 됩니다.

시장을 선정할 때는 예상되는 편집 작업량도 함께 고려하게 됩니다. ‘가까운’ 언어일수록 사후 편집 작업이 적습니다. ‘먼’ 언어일수록 중요한 페이지에 더 많은 주의를 기울여야 합니다.

주제 및 위험

일반적인 마케팅 문구와 제품 설명은 AI가 처리하기에 적합합니다. 일상적인 언어로 작성되어 있어 문장이 다소 딱딱하게 느껴질 위험은 낮습니다.

법률, 의료, 금융 관련 콘텐츠는 사정이 다릅니다. 단 한 구절, 용량, 용어만 잘못 번역되어도 심각한 피해를 초래할 수 있습니다. 이러한 페이지들은 전문 번역가가 참여하는 인력 중심 또는 하이브리드 워크플로우를 통해 처리되어야 합니다.

간단한 테스트를 해봅시다. 만약 이 페이지에 오류가 있다면, 매출 손실을 입게 될까요, 아니면 법적 책임을 지게 될까요? 법적 책임이 발생할 수 있다면, 반드시 담당자가 직접 확인하도록 하세요.

브랜드 목소리와 콘텐츠의 변동성

일반적인 문구(‘50유로 이상 구매 시 무료 배송’)는 정확하게 번역하기가 더 쉽습니다. 반면 브랜드 색채가 짙은 문구, 말장난, 문화적 언급 등은 번역하기가 더 어렵습니다.

정적 페이지(소개, 상시 제공되는 FAQ 등)는 한 번만 세심하게 다듬어도 시간이 지나도 95% 수준의 품질을 유지할 수 있습니다. 반면, 지속적으로 변경되는 콘텐츠(매일 업데이트되는 제품 정보, 프로모션 등)는 AI와 스마트 규칙에 더 많이 의존하며, 오해로 인해 심각한 문제가 발생할 수 있는 경우에만 사람이 선별적으로 검토합니다.

Weglot Weglot은 빠르고 확장 가능한 AI 번역에 선택적인 인력 및 하이브리드 워크플로를 결합하여 이러한 요소를 충족합니다. 방대하거나 자주 업데이트되는 콘텐츠 전반에 걸쳐 번역 범위를 유지하면서도 가장 중요한 부분에서는 정확성을 우선시할 수 있습니다. 성능은 언어 쌍의 복잡성, 콘텐츠의 위험도, 브랜드의 미묘한 차이에 따라 자연스럽게 달라지지만, 높은 번역 정확도와 내장된 편집 도구를 통해 시간이 지남에 따라 품질을 최상 수준으로 끌어올립니다.

Weglot 직접 전문 번역 서비스를 의뢰할 수도 있어, 더욱 빠르고 편리하게 이용할 수 있습니다.

번역 정확도를 측정하는 방법

번역 정확도는 크게 두 가지 방식으로 측정할 수 있습니다. 바로 자동 평가 점수와 사람 수준의 검토입니다. 웹사이트 운영자에게는 대개 후자가 단순한 수치보다 더 유용합니다.

자동화된 지표

BLEU는 대표적인 평가 지표입니다. 이 지표는 기계 번역 결과물의 n-그램을 하나 이상의 인간 참조 번역과 비교하여 0~100점 척도로 점수를 매깁니다. 실제 적용 사례에서, 일반적인 언어 쌍과 분야에서 BLEU 점수가 40~60점대라면 대체로 고품질의 결과물로 간주됩니다. 그러나 BLEU는 인간의 판단과 약한 상관관계만을 보이며, 독자에게는 여전히 어색하게 느껴지는 ‘안전한’ 직역 표현을 높은 점수로 평가할 수 있습니다.

COMET은 많은 연구자들이 선호하는 최신 대안입니다. 이 지표는 신경망 모델을 활용해 번역문이 의미와 유창성을 얼마나 잘 보존하고 있는지 평가하며, BLEU보다 인간의 평가와 더 잘 부합하는 경향이 있습니다. METEOR는 동의어와 어근 처리를 고려하여 BLEU를 개선하려는 또 다른 기존 지표이지만, 현재 기계번역 연구에서는 그 중요성이 상대적으로 낮아졌습니다.

“전문적인 평가를 위해, MQM (다차원 품질 지표)가 표준적인 인간 평가 프레임워크입니다. 검토자는 오류(정확성, 용어, 유창성, 문체 등)를 분류하고, 심각도를 지정하며, 시간 경과에 따라 추적할 수 있는 체계적인 점수를 산출합니다. 이 방법은 엄격하지만, 단순히 제품 페이지를 출시해도 안전한지 알고 싶어 하는 중소기업(SMB) 마케팅 팀에게는 부담스러운 방식입니다.”

- 유진 에르눌트, Weglot CMO

웹사이트 운영자를 위한 실용적인 정확도 점검 방법

실제로는 가볍고 반복 가능한 검사에서 더 큰 가치를 얻을 수 있습니다:

번역본과 원문을 비교하세요: 중요한 페이지 몇 개를 선정하여 나란히 배치해 살펴보세요. 특히 가격, 보증, 행동 유도 문구(CTA), 법적 문구와 관련된 부분에서 누락된 정보, 추가된 의미, 또는 의도가 왜곡된 부분이 없는지 확인하세요.
자문해 보세요. ‘원어민이라면 이 문장을 거뜬히 읽어 내려갈 수 있을까?’ 원어민이 문장을 다시 읽어야 하거나 어색한 단어 선택 때문에 멈칫거린다면 , BLEU 점수가 어떻든 간에 정확도는 사실상 낮은 것입니다. 고객을 대상으로 하는 콘텐츠의 경우, 가독성과 신뢰도가 기술적 점수보다 더 중요합니다.
용어집 및 브랜드 용어 확인: 제품명, 기능 설명, 브랜드 문구가 승인된 용어집과 일치하는지 확인하십시오. 기본 번역의 품질이 우수하더라도 용어의 일관성은 정확성을 높이는 데 매우 중요한 요소입니다.

대부분의 중소기업의 경우, 영향력이 큰 소수의 페이지를 직접 점검해 보는 것이 어떤 자동화된 지표보다 정확성을 훨씬 더 잘 파악할 수 있는 방법입니다.

웹사이트 번역에 효과적인 품질 보증 프로세스

정확도를 측정하는 것은 도움이 되지만, 70%와 95%의 차이를 실제로 체감할 수 있는 것은 이를 사이트의 반복 가능한 품질 보증(QA) 프로세스에 반영했을 때입니다. 다음은 웹사이트 규모에서 실제로 효과가 입증된 워크플로입니다.

번역 메모리와 용어집부터 시작하세요

번역 메모리 (TM)를 활용하여 카탈로그 전반에 걸쳐 검증된 문장 단위를 재사용하면, ‘30일 이내 무료 반품’과 같은 문구가 12가지나 다른 방식으로 반복해서 작성되는 것을 방지할 수 있습니다. 용어집을 통해 제품명, 기능 명칭, 브랜드 용어를 고정해 두면, 수천 줄의 문장이 AI를 거치더라도 일관성을 유지할 수 있습니다.

문제는 TM이 실수를 기꺼이 반복한다는 점입니다. 특히 초기 단계에서는 시간을 내어 TM을 점검하고 정리하세요. 잘못된 문장 하나가 있으면, 그 오류가 해당 문장이 포함된 모든 페이지로 은근히 퍼져나가기 때문입니다. 오류를 수정했다면, 그 수정 내용을 TM에 다시 반영하세요.

고위험 콘텐츠는 전문가에게 전달하십시오

앞서 살펴본 바와 같이, 모든 콘텐츠에 동일한 워크플로우를 적용할 수는 없습니다. 일반적인 마케팅 및 전자상거래 문서는 AI 기반 번역 후 전문적인 검토를 거치면 됩니다. 반면, 법적 약관, 의료 지침, 복잡한 기술 문서는 일반 번역가가 아닌 해당 분야 전문 번역가에게 맡겨야 합니다.

간단한 작업 배정 규칙을 정하세요. 예를 들어, 개인정보 처리방침, 계약서, 규정 준수 관련 페이지는 항상 법률 전문 번역가에게 맡기고, 복용량 정보나 임상적 주장은 항상 의료 전문가에게, 복잡한 제품 사양은 기술 검토자에게 배정해야 합니다. 이렇게 하면 막판에 누군가가 실수를 잡아주기를 기대할 필요가 없습니다.

3단계 검토 절차 적용

탄탄한 QA 루프에는 다음의 세 가지 단계가 포함됩니다:

자체 검토: 원 번역가나 포스트 에디터가 원문을 대조하여 자신의 작업물을 검토합니다. 이들은 눈에 띄는 오류를 수정하고, 문장을 다듬으며, 내용이 추가되거나 누락된 부분이 없는지 확인합니다.
동료 검토: 다른 전문가(또는 신뢰할 수 있는 내부 검토자)가 새로운 시각으로 원고를 살펴봅니다. 이들은 문장의 명확성, 용어 사용, 문체에 중점을 두며 초안에 얽매이지 않습니다. 이 단계에서 이해는 되지만 브랜드 정체성과 맞지 않는 문장들을 많이 발견하게 됩니다.
클라이언트 측 검토: 귀사 측 담당자(대개 마케터, 제품 책임자 또는 현지 관리자)가 최종 검토를 진행합니다. 이들은 다음과 같은 점을 확인합니다. ‘이 내용이 우리 회사의 색깔과 잘 맞나요?’, ‘고객 입장에서 이 내용을 본다면 만족스러울까요?’

모든 라인에 3단계 모두를 적용하지 말고, 핵심 템플릿과 전환율이 가장 높은 페이지에만 전체 스택을 적용하세요.

문맥 속의 리뷰

언어는 셀 내에서와 달리 실제 페이지에서는 다르게 표현됩니다. 가능하면 웹사이트 레이아웃 내에서 이미지, 버튼, 양식이 모두 표시된 상태로 번역 내용을 검토하세요. 그러면 문맥상 줄 바꿈이 부자연스럽거나, 제목이 화면 밖으로 넘치거나, 너무 길거나 딱딱하게 느껴지는 행동 유도 문구(CTA) 등을 발견할 수 있을 것입니다.

“작업을 진행하실 때는 문자 그대로의 정확성만 따지지 마세요. 문화적 적합성도 확인해야 합니다. 예시, 인용 자료, 어조가 해당 시장에 적합한지 살펴보세요. 기술적으로는 정확하지만 현지 독자들에게 차갑거나 무례하게 느껴지거나 어색한 문장은, 모든 용어가 기술적으로 정확하더라도 95%보다는 70%에 더 가깝다고 봐야 합니다.”

- 유진 에르눌트, Weglot CMO

하이브리드 AI 번역 워크플로우를 통한 격차 해소

웹사이트의 90~95% 구간으로 더 많은 콘텐츠를 이동시키는 실질적인 방법은 다음과 같은 하이브리드 워크플로를 운영하는 것입니다. Weglot 와 같은 하이브리드 워크플로를 운영하는 것입니다. 이 방식에서는 AI가 힘든 작업을 처리하고, 사람은 가장 큰 가치를 더할 수 있는 부분에 집중합니다.

기본 설정으로 AI 번역이 활성화됩니다. 페이지를 게시하거나 업데이트하면 사이트 콘텐츠가 자동으로 감지되어, 한 번의 처리 과정으로 선택한 모든 언어로 번역됩니다. 이를 통해 제품 페이지, 컬렉션 페이지, 블로그 게시물, 내비게이션, 메타데이터 등 모든 콘텐츠를 포괄적으로 처리할 수 있으며, 텍스트를 파일이나 스프레드시트에 일일이 복사해 붙여넣을 필요가 없습니다.

그런 다음 브랜드 특화 AI 번역 모델을 적용합니다. 이 모델은 귀사의 용어집, 브랜드 가이드라인 및 사용자 지정 규칙을 학습하므로, 향후 번역 결과물이 귀사 팀의 실제 문체와 더욱 가까워집니다.

시간이 지남에 따라, 이는 특히 마케팅 페이지와 제품 상세 설명문에서 정확도를 떨어뜨리는 주된 요인인 브랜드 어조와 용어 문제를 직접적으로 해결해 줍니다.

그 다음 단계에서는 사람이 이해하기 쉬운 검토 과정으로 넘어가지만, 마케터들이 언어학자처럼 생각하도록 강요하지는 않습니다. WeglotVisual Editor 를 사용하면 기술 지식이 없는 팀원들도 페이지에서 바로 문맥을 확인하며 번역을 검토할 수 있습니다.

그들은 헤드라인이 헤로 섹션에 어떻게 어울리는지, 버튼 위의 CTA 문구가 얼마나 길어 보이는지, 또는 문구가 이미지와 양식 옆에 배치되었을 때 지나치게 딱딱하게 들리는지 등을 확인할 수 있습니다. 이러한 맥락 속에서의 시각을 통해 순수한 정확도 지표로는 포착하지 못하는 문화적 문제나 UX상의 문제점을 발견할 수 있습니다.

중요도가 높은 콘텐츠(법률 관련 페이지, 핵심 전환 경로, 규제 산업 등)의 경우 전문 번역가나 해당 분야 전문가에게 작업을 의뢰합니다. 이들은 AI가 작성한 초안을 바탕으로 작업을 진행하므로, 처음부터 새로 작성하는 것보다 작업 속도를 높일 수 있으면서도 해당 페이지에 요구되는 엄격한 검수 기준을 충족시킬 수 있습니다. 혼란을 초래할 위험이 더 크기 때문에, 이 단계에서는 의도적으로 품질을 ‘그럭저럭 괜찮은’ 수준을 훨씬 뛰어넘도록 높여야 합니다.

이 파이프라인이 구축되면 자동 콘텐츠 감지 기능을 통해 모든 내용이 실시간으로 동기화됩니다. 신제품, 변경된 헤드라인, 업데이트된 FAQ 등은 AI 번역 모델을 통해 수집 및 번역되며, 귀사의 규칙과 과거 편집 내역이 반영된 상태로 재평가됩니다. AI는 광범위한 커버리지와 빠른 처리 속도를 제공합니다. 용어집, 브랜드 교육, 문맥 기반 검토를 통해 브랜드의 고유한 어조와 미묘한 뉘앙스를 유지하며, 정확성이 절대 타협될 수 없는 페이지에 대해서는 전문 인력의 집중 검토를 통해 마지막까지 꼼꼼히 점검합니다.

자사 웹사이트에서 AI 번역 정확도를 테스트해 보세요

사이트의 번역 정확도가 70%에 가까운지, 아니면 95%에 가까운지 추측할 필요가 없습니다. 직접 콘텐츠를 통해 측정해 볼 수 있습니다. Weglot AI 번역 품질 검사기를 사용하면 URL을 붙여넣고 언어 쌍을 선택하기만 하면, 고객이 실제로 보는 페이지를 기반으로 한 정확한 정확도 추정치를 확인할 수 있습니다.

결과를 검토할 때 이 기사에서 제시한 프레임워크를 활용하세요. 언어 조합, 주제, 브랜드 톤, 그리고 해당 페이지의 변경 빈도를 살펴보세요. 그런 다음 AI가 자동으로 처리해도 괜찮은 부분과 사람의 추가 검토가 필요한 부분을 결정하세요.

실제 작동 모습을 확인해 보고 싶으시다면, 지금 바로 14일 무료 Weglot 시작하여 여러분의 웹사이트에서 AI 번역의 정확도를 직접 확인해 보세요.