표준 단어 사전 정의
- 표준 단어 사전 정의는 기존 데이터 모델 및 용어집을 통해 해당 기관에서 사용되고 있는 모든 단어를 추출한다. 추출된 단어는 단어 종류와 유형을 분류하고 업무 정의 및 용도를 고려하여 표준 단어를 정의한다. 표준 단어 사전을 정의할 경우 이음동의어, 동음이의어 처리에 주의해야 한다.
표준 단어 사전
- 일반적으로 단어란 문법상 일정한 뜻과 구실을 가지는 말의 최소 단위를 의미하며, 정보 시스템에서 사용하는 표준 단어 사전이란 기업에서 업무상 사용하며 일정한 의미를 갖고 있는 최소 단위의 단어를 정의한 사전을 말한다.
- 표준 단어 관리 기준
- 표준성
- 정보시스템이나 일반적인 업무에서 사용되는 단어 가운데에서 추출해야 하며, 너무 업무적인 용어의 사용을 최소화하여 정보시스템의 특성에 부합되도록 한다.
- 일반성
- 일상적으로 사용하고 있는 사전적 의미의 단어와 의미상 크게 다르지 않아 일반인도 해당 단어의 의미를 이해할 수 있어야 한다.
- 대표성
- 동의어를 가질 수 있으며 표준 단어로 선언된 단어는 비슷한 의미의 동의어들을 대표할 수 있어야 한다.
- 표준성
- 표준 단어 작성 형식
- 전사적으로 관리하고 있는 엔티티와 속성을 개별 단위로 하여 추출하며, 추출된 단어는 동음이의어와 이음동의어를 정비한 후 논리명(한글명)을 기준으로 물리명(영문명, 영문약어명), 유사 용어까지 함께 정리하여 관리한다.
- 표준 단어 사전에는 개별 단어 외에도 동의어, 유의어, 반의어 등과 같은 단어 간의 구조도 함께 정의해야 한다.
표준 단어 정의
- 정보시스템별로 혼재되어 사용되고 있는 모든 용어를 단어 단위로 분할하여 도출한다.
- 현행 용어 수집
- 기업 내 존재하는 모든 정보시스템에 대한 데이터 모델 또는 테이블 정의서와 컬럼 정의서를 분석하여 현행 용어에 대한 한글명 및 영문명을 수집한다.
- 단어 분할
- 수집된 현행 용어에서 업무상 사용되며 일정한 의미를 갖고 있는 최소 단위의 단어로 분할한다. 단어 분할을 통하여 한글명과 그에 해당하는 영문 약어명이 도출되어야 하기 때문에 단어 분할 시 한글명을 비롯하여 영문명도 같이 분할이 되는가를 고려해야 한다.
- 단어 정련
- 분할하여 취합된 모든 단어 중에서 의미가 동일한 단어들에 대해 하나의 대표 단어를 표준으로 선정하고 그에 대한 영문 약어명을 선택한다. 최종적으로 도출해 낸 모든 단어들은 한글명과 영문 약어명 모두 유일해야 한다.
- 표준 단어 사전 정의
- 단어 정련 작업을 통하여 표준으로 선택한 모든 단어에 대한 한글명 및 영문명을 표준 단어 사전에 등록한다. 그리고 의미는 유사하나 각기 다른 표준으로 등록한 표준 단어들은 유사어로, 표준으로 선택되지 않은 나머지 이음동의어들에 대해서는 금칙어로 등록하여 관리하고, 향후 적절한 표준 단어의 검색을 위해서 관련 표준 용어를 같이 기술한다.
표준 단어 정의 시 고려사항
- 표준 단어의 단위는 최소 단위를 기준으로 하되 사용 빈도가 높은 단어의 조합 또는 단어의 조합이 하나의 고유한 의미를 가지는 경우 하나의 표준 단어로 정의하는 것이 유리할 수 있다.
- 대부분의 DBMS는 테이블 물리명 및 컬럼 물리명의 첫 글자를 알파벳으로 시작하도록 제약하고 있다. 따라서 표준 단어의 영문명도 반드시 알파벳으로 시작하도록 정의하도록 한다.
- 예) 1순위 > RNK1, 2개월 > M2
- 단어는 특히 동음이의어가 많기 때문에 사용 빈도가 높은 것을 표준 단어로, 사용 빈도가 낮은 것은 다른 단어와 조합하여 표준 단어로 정의하도록 한다.
- 접두어, 접미어와 같이 한 자리로 구성된 단어들은 가급적 표준에서 배제하는 대신 앞뒤에 나오는 단어와 조합하여 표준 단어로 정의하는 것이 바람직하다.
표준 도메인 사전 정의
- 표준 도메인 사전 정의는 업무적인 용도, 사용 빈도와 데이터의 물리적인 특성 등을 고려하여 도메인을 분류하고 도메인별 데이터 타입을 부여한다.
표준 도메인 사전
- 도메인이란 속성에 정의된 조건을 만족시키는 값의 범위를 의미한다. 표준 도메인은 전사적으로 사용되고 있는 데이터 가운데에 논리적, 물리적으로 유사한 유형의 데이터를 그룹화하여 해당 그룹에 속하는 데이터의 유형과 길이를 정의한 것을 말한다.
- 표준 도메인 관리 기준
- 표준성
- 표준 도메인은 전사 차원에서 공통적으로 사용되는 속성을 대상으로 정의한다. 예를 들어 은행의 계좌번호는 은행 하위 업무나 상품에 따라 다르지 않으므로 표준 도메인을 정의하여 사용한다.
- 유일성
- 동일한 내용의 중복 도메인이 서로 다른 이름으로 선언되지 않도록 관리한다.
- 업무 지향성
- 도메인은 지나치게 일반화하여 정의하기보다는 업무의 특성을 충분히 반영할 수 있도록 선언하여 관리한다.
- 표준성
- 표준 도메인 작성 형식
- 전사적으로 관리하고 있는 모든 데이터 속성 혹은 대표 속성 가운데에 DBMS에 동일한 형태로 구현되는 속성들을 추출하여 그룹화한다.
- 모든 속성은 임의의 도메인에 할당되어야 하며, 하나 이상의 도메인에 복수로 할당되면 안 된다.
표준 도메인 정의
- 표준 도메인은 정보시스템별로 혼재되어 사용되고 있는 컬럼의 컬럼명, 데이터 타입, 길이 등을 정리하여 표준 도메인을 정립한다.
- 현행 용어 정보 분석
- 기업 내 존재하는 모든 정보시스템에 대한 데이터 모델 또는 컬럼 정의서를 이용하여 현행 용어에 대한 용어명과 데이터 타입 정보를 수집한 뒤 물리적으로 유사한 유형의 용어들을 그룹화한다.
- 그룹화 기법
- 동일한 정보시스템에 대한 데이터 모델에서 추출된 현행 용어들을 유일하게 추출한다.
- 데이터 타입과 길이가 동일한 용어들을 검색하여 유사한 속성의 용어들을 그룹핑한다.
- 용어명 중에서 끝 쪽 단어를 기준으로 유사한 속성의 용어들을 그룹핑한다.
- 표준 도메인 정의
- 그룹핑된 유사 속성 용어의 의미에 따라 표준 도메인명을 정의하고 그에 따른 데이터 타입 및 길이를 정의한다.
- 표준 도메인 정의 기준
- 가급적이면 업무적으로 의미가 있는 도메인명을 부여한다.
- 기존 데이터와의 호환성 및 범용성을 위하여 그룹핑된 용어들에게 부여된 데이터 타입 중 가장 큰 데이터 타입 길이를 표준으로 정한다.
표준 도메인 정의 시 고려 사항
- 현실적으로 어느 도메인에도 속하지 않는 컬럼이 있을 수 있기 때문에 모든 용어를 포괄하는 표준 도메인을 생성할 필요는 없다.
- 표준 도메인에 정의할 데이터 형식을 어떻게 정의하고 각기 다른 DBMS에 어떻게 물리적으로 적용할 것인가에 대한 방안을 고려해야 한다.
- 표준 도메인을 도출하면서 동일한 용어로 판명된 현행 용어들을 별도로 기록하여 향후 동일한 데이터 표준 용어로 통일할 때 참고한다.
'DAP' 카테고리의 다른 글
[DAP 전문가 가이드] 3.2.3 데이터 표준 확정 (0) | 2025.04.25 |
---|---|
[DAP 전문가 가이드] 3.2.2 데이터 표준 정의 (2) (0) | 2025.04.25 |
[DAP 전문가 가이드] 3.2.1 데이터 표준 원칙 정의 (0) | 2025.04.25 |
[DAP 전문가 가이드] 3.1.3 데이터 표준 관리 도구 (0) | 2025.04.25 |
[DAP 전문가 가이드] 3.1.2 데이터 표준화 개념 (0) | 2025.04.25 |