원문 텍스트 오추출
- 현상
[AI_QA} STT원문 오류
받은날짜 :2023. 3. 27. (월) 17:04
1.
설계번호: 1238676472500107 간편보험 355·1 유병장수(2204.2)(자동갱신형) 1종(납입면제형)
단위스크립트 : BA0020-001-2(가입동의본인확인)
STT원문:
(2023-03-25 14:34:45 09:15~09:35)
무배당 간편보험 355- 56232|유병장수 2204 이 자동 갱신 일종 납입면제형 이 상품에 대해서 가입하시는 부분에 동의하십니까 네 네 본인확인을 위해서 성함하고 생년월일 선생님 여섯자리 다시한번만 말씀부탁드립니다
STT보기:
09:15 ~ 09:18 ▶그리고 어 부분 어 보 무배당 |
09:19 ~ 09:21 ▶간편보험 355-1 |
09:21 ~ 09:22 ▶유병장수 |
09:22 ~ 09:23 ▶2204 이 |
09:23 ~ 09:27 ▶자동 갱신 일종 납입면제형 이 상품에 대해서 |
09:27 ~ 09:29 ▶가입하시는 부분에 동의하십니까 |
09:29 ~ 09:30 ▶네 네 |
- 현황파악
timestemp를 추출하는 정규표현식이 공백을 포함하여 추출을 하게 되어있었는데 STT 본문에 숫자+타임스템프가 나오는 경우가 발생하여 timeteamp를 잘못 잘라 내 원문을 잘못 return함
timestemp : [\|\x20](\d{1,8}[\|\x20]){2}
예문 : 간편보험 355-1 1|12344|15533|유병장수
위의 노란색부분을 오검출
- 조치내용
timestemp에서 공백에 해당하는 \x20을 제거
timestemp : \|(\d{1,8}\|){2}
위와 같이 변경