Skip to main content

원문 텍스트 오추출

- 현상

[AI_QA} STT원문 오류

받은날짜 :2023. 3. 27. (월) 17:04

 

1.

설계번호: 1238676472500107 간편보험 355·1 유병장수(2204.2)(자동갱신형) 1종(납입면제형)


단위스크립트 : BA0020-001-2(가입동의본인확인)


STT원문:

(2023-03-25 14:34:45 09:15~09:35)

무배당 간편보험 355- 56232|유병장수 2204 이 자동 갱신 일종 납입면제형 이 상품에 대해서 가입하시는 부분에 동의하십니까 네 네 본인확인을 위해서 성함하고 생년월일 선생님 여섯자리 다시한번만 말씀부탁드립니다


STT보기:

09:15 ~ 09:18 ▶그리고 어 부분 어 보 무배당

09:19 ~ 09:21 ▶간편보험 355-1

09:21 ~ 09:22 ▶유병장수

09:22 ~ 09:23 ▶2204 이

09:23 ~ 09:27 ▶자동 갱신 일종 납입면제형 이 상품에 대해서

09:27 ~ 09:29 ▶가입하시는 부분에 동의하십니까

09:29 ~ 09:30 ▶네 네

 

- 현황파악

timestemp를 추출하는 정규표현식이 공백을 포함하여 추출을 하게 되어있었는데 STT 본문에 숫자+타임스템프가 나오는 경우가 발생하여 timeteamp를 잘못 잘라 내 원문을 잘못 return함 

timestemp : [\|\x20](\d{1,8}[\|\x20]){2}

예문 : 간편보험 355-1 1|12344|15533|유병장수

위의 노란색부분을 오검출

- 조치내용

timestemp에서 공백에 해당하는 \x20을 제거

timestemp : \|(\d{1,8}\|){2}

위와 같이 변경