-
Google Cloud Translation API detect confidenceDevOps 2022. 9. 24. 20:59
Google Cloud Translation API detect confidence
GCP 에서 제공하는 Cloud Translation API 사용 시 detect 되는 언어 감지가 기대하는 대로 동작하지 않아 신뢰도에 대한 수치가 자세히 나와있는 무언가를 찾아보려고 시도했다.
문장의 길이가 짧을수록, 특히 영어를 사용하는 국가의 경우 정확성이 더욱 더 떨어지는 것으로 보였다.
Basic, Advanced
Basic(v2):
- https://cloud.google.com/translate/docs/editions
- 채팅, 소셜 미디어, 댓글과 같은 사용자 제작 컨텐츠를 취급하는 애플리케이션에 적합
Advanced(v3):
- 맞춤설정 및 긴 형식의 콘텐츠 사용 사례에 적합
- 용어집 기능 추가
- https://cloud.google.com/translate/docs/advanced/glossary
- 도메인에서 특별하게 쓰이는 단어나 약어의 경우 번역 시 정상적인 단어가 아니라 언어 모델이 이를 제대로 알지 못한다고 함. 따라서 v3의 용어집 기능을 사용할 것을 추천함.
detect
- https://googleapis.dev/nodejs/translate/latest/v2.Translate.html#detect
- https://cloud.google.com/translate/docs/reference/rest/v2/detect
- Deprecated isReliable, confidence
- We recommend not basing any decisions or thresholds on the
isReliable
orconfidence
values.
// Response detect(input: string): Promise<[DetectResult, Metadata]>; export interface DetectResult { language: string; // ISO-639-1 코드 confidence: number; // 0.0 ~ 1.0 input: string; // q } export declare type Metadata = any;
// DetectResult { confidence: 1, language: 'ko', input: '몬스테라' } // Metadata { data: { detections: [ confidence: 1, isReliable: false, language: 'ko' ] } }
- 여러 번역을 동시에 요청할게 아니라면 DetectResult의 값만 사용해도 될 것 같다.
- detections의 isReliable, confidence value을 기반하여 판단하지 않는것을 추천한다고 한다.
결론:
confidence 값이 어느정도일때 번역을 시도해야할 지 판단하고 싶은데 값을 판단하는 기준이나 confidence 수치 가 몇 일때 신뢰하면 좋겠다 이런 내용을 문서나 다른 커뮤니티에서 찾고 싶었는데 찾지 못했다.
그나마 생각할 수 있는 대안책으로는 detect 하는 문장의 길이를 길게 하도록 하기, 번역 요청을 보낼 때는 from language를 설정할 수 있으니 fromLanguage 에 대해서 기본 값을 설정하기, Advanced(v3)를 이용하여 용어집을 만드는 방법이 있을것 같다.
'DevOps' 카테고리의 다른 글
ubuntu server 설정 (3) 2023.04.09 AWS GCP 도메인 이전 (0) 2023.01.04 AWS 정적 웹 사이트 배포 과정 (1) 2022.01.11 AWS 배포 후 CI/CD 환경구성하기 (0) 2021.05.07 aws ec2 인스턴스 생성 후 접속하기 (0) 2021.04.27