WEX, WD 추출결과 다름
1) 특수문자 토큰 인식 차이
WEX의 경우
aaaⅠ
를 aaa+Ⅰ 두개의 토큰으로 인식
WD의 경우
aaaⅠ
를 aaaⅠ 하나의 토큰으로 인식
WEX를 사용하여 분석하였던 결과와 WD를 통해 분석된 결과가 다른 경우가 발생
해결방안 -> 두개의 조건을 다 룰로 생성
=> 용어사전으로 해결할 수 있는 부분은 아닙니까?
현재 일산병원 등에서는 용어사전을 따로 만들지 않았던 걸로 기억합니다.
따라서, 위 처리방안이 용어사전 등을 준비하지 않았을 때 처리 방법인지, 일반적으로 적용하는 방법인지 궁금합니다.
또한 어느 방법이 효율적인지도요.
=> 일산 병원의 경우 용어 사전을 통해 룰을 만들고 있지 않기 때문에 룰을 수정하여 해결했습니다.
이 문제의 중요한 점은 WEX와 WD가 토큰을 인식하는 방법이 다르기 때문에 WEX에서 개발을 하고 WD에 적용했을 때 동일한 결과가 나오지 않을 수 있는 것 이라고 생각합니다.
각 사이트 별로 프로젝트를 구성하는 방식이 다르기 때문에 상황에 맞게 대처해야 할 것으로 보입니다.
2) WEX와 WD의 특수문자 인식 차이
- WEX의 경우 ① 을 rule 에서 1로 처리하여 rule로 잡아도 무방하지만 WD의 경우 ①을 rule의 정규표현식에 추가해야함
- ex) 1 AA, ① AA 일때 WEX 는 1 , AA 두 토큰으로 처리해도 둘다 잡힘 WD 는 1 OR ① , AA 로 잡아야 둘다 잡힘