KEMDy19 데이터셋 소개
한국어 멀티모달 감정 데이터셋(KEMDy19; Korean Emotional Multi-modal Dataset in
2019)은 발화 음성, 발화의 문맥적 의미(lexical) 및 바이오 데이터-심전도(ECG-electrocardiogram),
피부전도도(EDA-electrodermal activity), 손목 피부온도와 발화자의 감정과의 연관성 분석을 위해 수집한 멀티모달 감정 데이셋이다.
KEMDy19는 한국 공용기관생명윤리위원회IRB 승인 절차에 따라 수집하였음(승인번호: P01-201907-22-010, ‘복합모달 기반 감정인식을 위한 음성 및 생리반응 신호 수집 연구’).
* 데이터셋 변경 내역
- 2022.04.25 (KEMDy19.egg): ./wav/~/.txt, '데이터셋 구성'에 사운드특징 태깅에 대한 정보 업데이트(해당 페이지 항목)
- - 2023.06.12 (KEMDy19_v1_2.egg)
: annotation/session 6 : Script02_M027, Script02_M028에 대한 .txt 파일 추가
: annotation/session 3: Sess03_impro02_M001과 Sess03_impro02_F001의 불일치 수정
: annotation/session 4: Sess04_impro03_M031과 Sess04_impro03_F31 삭제
- - 2024.02.28 (KEMDy19_v1_3.egg)
: wav/Session04 : Sess04_impro03_F025.wav 제외
: annotation/Session09_F, Session09_M: Sess09_impro01_F001, Sess09_script06_F001 오류 정정
- - 총 40명의 한국인 성우(남/여 각 20명)를 대상으로 남/여 성우 2명이 1조가 되어, 각 조가 하나의 세션에 참여(총 20개 세션)하여 데이터를 수집하였다. 각 세션에서 두명의 성우들은 솔미테크 Refit, Empatica E4의 바이오 데이터 수집 장치를 부착 또는 착용한 상태로 총 10개의 감정상황극을(각본이 있는 6개의 감정상황극, 각본이 없는 4개의 즉흥상황극)을 연기하였다. 감정상황극의 연기과정에서 성우의 발화 음성, 발화 텍스트, 발화자의 바이오 신호 데이터를 수집하였다. 각 감정상황극은 비디오로 녹화되었다.
- - 한국어를 모국어로 사용하는 성인 10명의 외부 감정 관찰자는 녹화된 감정상황극 영상을 시청하며, 성우가 발화한 각 발화(세그먼트) 별로 7가지의 카테고리 감정 레이블 (기쁨, 놀람, 분노, 중립, 혐오, 공포, 슬픔) 중 1개를 선택하고, 5단계(1~5)의 각성도(arousal)와 긍/부정도(valence)를 평가하였다.
- - 감정 레이블 평가 파일(KEMDy19/annotation)은 각 세그먼트의 외부 관찰자의 감정 레이블 평가결과를 포함한다. 발화 세그먼트 별 최종 카테고리 감정 레이블은 10명의 평가자에서 가장 많이 선택된 레이블로 결정(동일 평가 수를 갖는 경우에는 중복 레이블로 설정)되었고, 각성도와 긍/부정도는 각 평가자의 평균값으로 계산되었다.
- Arousal : (이완) 1-2-3-4-5 (각성) - - Valence : (부정) 1-2-3-4-5 (긍정)
KEMDy19 데이터셋 구성
- o 폴더 구성
- o. ./wav/~/.txt
- : 발화세그먼트의 음성 이외 사운드상황에 대한 태킹
- c/ : 휴지구간이 확보되지 않은 연속발성(0.3초 미만)
- n/ : 발성 이외의 단발적인 소음
- N/ : 음성 구간의 50% 이상 잡음이 포함된 상황
- u/ : 단어의 내용을 알아 들을 수 없는 상황
- l/ : 발성중 음음 소리가 포함된 상황 (small 'L')
- b/ : 발성 중 숨소리, 김침 소리가 포함된 상황
- * : 단어 중 일부만 알아 듣거나 알아들었으나 애매한 상황
- + : 발성 중 말을 반복적으로 더듬는 상황
- / : 간투사
- o. ./annotation/.csv
* 각 세션에 참여한 발화자별 감정레이블을 태깅함.
- 참여자별(F/M) 감정평가파일에서 해당 음성세그먼트의 발화자가 아닌경우, 상대 화자의 음성세그먼트를 청취하는 동안의 참여자의 감정이 태깅되어 있음.
- o. ./ECG/session1~20/original/.csv
- col. A :
250Hz 샘플링 주기 순서
- col. B :
Refit ECG 값
- col. C : 해당 세션에서의 측정 시간 순서
- col. D : 해당 ECG 값이 속하는 세그먼트ID
- o. ./EDA/session1~20/original/.csv
-
col. A : E4 EDA 변화 값
(*전후 샘플
간의 EDA 변화량)
-
col. B : 4Hz 샘플링 주기
순서
-
col. C : 해당 세션에서의
측정
시간
순서
-
col. D : 해당 ECG 값이
속하는
세그먼트ID
- o. ./TEMP/session1~20/original/.csv
- col.
A : E4 피부온도 값
- col.
B : 4Hz 샘플링 주기 순서
- col.
C : 해당 세션에서의 측정 시간 순서
- col.
D : 해당 피부온도 값이 속하는 세그먼트ID
인용
[1] K. J. Noh and H. Jeong, “KEMDy19,” https://nanum.etri.re.kr/share/kjnoh/KEMDy19?lang=ko_KR
[2] Noh, K.J.; Jeong, C.Y.; Lim,
J.; Chung, S.; Kim, G.; Lim, J.M.; Jeong, H. Multi-Path and Group-Loss-Based
Network for Speech Emotion Recognition in Multi-Domain Datasets. Sensors 2021,
21, 1579. https://doi.org/10.3390/s21051579
[3] NOH, Kyoungju; JEONG, Hyuntae. Emotion-Aware Speaker Identification with Transfer Learning. IEEE Access, 2023.