기록
여러 개의 얼굴의 평균 표상을 EEG로 디코딩할 수 있다? 본문
**포스팅에 오역, 잘못된 설명이 포함되어 있을 수 있습니다. 실제 논문을 같이 읽으시기를 권합니다.
저는 이 논문이 그냥 앙상블 지각만 다루는 줄 알았는데 디코딩까지 다루더라고요.
덕분에 머리가 빠개지는 줄 알았습니다.
오늘의 논문
Roberts, T., Cant, J. S., & Nestor, A. (2019). Elucidating the neural representation and the processing dynamics of face ensembles. Journal of Neuroscience, 39(39), 7737-7747.
첫 문장
Extensive behavioral work has documented the ability of the human visual system to extract summary representations from face ensembles (e.g., the average identity of a crowd of faces).
서론
사람들은 연구실이든, 지하철이든, 거리를 걸어갈 때든 많은 양의 얼굴 정보를 빠르게 처리해야 함. 유사한 물체의 크기, 방위, 운동 방향 등을 파악할 때 이들의 평균, 또는 summary representations(요약 표현)를 빠르게 인코딩하는 기제가 있음. 이 기제는 감정표현, 시선, 성별, 정체성까지 처리할 수 있음.
이 연구에서는 다음 세 가지와 관련된 물음에 답하고자 함.
1. 얼굴 identity에 대한 summary 앙상블 표현을 명시적, 암묵적으로 형성하는 효과
2. 앙상블 summary 신경 표현을 식별하고 시각화할 가능성
3. 앙상블 지각과 관련된 시간적 profile의 특성화.
방법
참가자
토론토 대학 14명(10명 여자, 19-25세) 참가.
자극
1. Radboud database에서 백인 남성 컬러사진 선택. 중립적 표정, 앞을 보는 포즈와 시선, 조명을 가진 젊은 어른 사진임. 눈과 코가 대략 같은 위치에 있도록 정렬하고 크기가 비슷하도록 맞춤. 얼굴 안의 특징(이목구비)만 보이도록 자름.
2. 60개 이미지 중 그룹 당 6개 얼굴로 총 4그룹을 선택, 1-1 세트와 1-2 세트는 거의 비슷한 평균 얼굴이 나오게 하고, 2-1, 2-2 세트는 1-1, 1-2 세트와 다르게 평균 얼굴이 서로 비슷하게 산출되도록 함.
3. 얼굴 이미지 세트 안에 서로 비슷한 평균을 가진 세트 (1-1세트면 1-2세트)의 평균 얼굴을 배치. 또 자기 세트의 평균 얼굴과 짝 세트의 평균 얼굴의 평균 얼굴을 산출해내 각각 세트에 넣음. (1-1 세트의 평균 얼굴, 1-2 세트의 평균 얼굴의 평균 얼굴을 산출해 1-1, 1-2 세트에 그 평균 얼굴 이미지를 넣음.)
→ 짝 세트의 평균을 더 유사하게 맞추기 위함.
4. 여섯 개의 얼굴을 동그랗게 배치.
5. EEG 실험을 위해 동일한 데이터베이스에서 백인 여성의 얼굴 이미지 6개 추가로 선택.
실험 1: 행동 실험
실험 디자인
참가자는 3개 block을 단일 얼굴 자극으로 본 다음에 4개 block을 앙상블 자극으로 봄.
첫 번째 block의 trial 구조: fixation이 400ms동안 표시 → 단일 얼굴 자극 600ms → fixation 600ms → 두 번째 얼굴 자극이 600ms동안 표시. 이후 참가자가 반응을 할 때까지 fixation이 남아있음. (같다/다르다에 해당하는 키를 누르게 디자인됨.)
화면은 80cm 떨어져 있음, 시야각 3° × 2°, 참가자는 턱 받침대 사용.
모든 자극은 한 block에서 최소 두 번씩(최대 세 번) 의사 무작위 추출(pseudorandom)로 나타냄. 첫 번째 block은 50 trial로 이루어져 있고 5분 내에 완료. 두, 세 번째 block은 얼굴 자극을 300ms 제시했고 각 block은 75 trial로 이루어진 것을 제외하고 첫 번째와 유사.
다음, 단일 얼굴 과제와 유사한 앙상블 재인 과제 수행. 참가자들은 두 개의 얼굴 앙상블을 보고 두 앙상블의 평균이 같은지 다른지 결정. 참가자는 특정 얼굴만 보지 않도록 중앙에 있는 fixation을 보도록 함. 앙상블을 비교할 때 같은 앙상블(ex. 1-1과 1-1)을 쓰지 않음. 앙상블 자극 시야각은 9° × 7°. 첫 번째로 앙상블 자극이 나오는 네 번째 block에서는 자극 600ms 제시, 5분 동안 75 trial 완료. Block 5~7에서는 자극 300ms, 블록 당 75 trial.
모니터: 1280×1080, 60Hz. 검은 배경. 총 45분.
결과
행동 실험은 얼굴 표현 summary의 민감성을 측정하기 위해 설계됨.
단일 얼굴 정확도: 거의 정확. (mean score = 96.51%, range: 92%–100%, SD = 2.67%; two-tailed one-sample t test against 50% chance: t(13) = 65.18, p < 0.0001, Cohen's d = 17.42)
앙상블 정확도: 참가자가 너무 어렵다 보고했음에도 성과는 기대 이상 (mean score = 60.79%, range: 54%–67.7%, SD = 1.06%; two-tailed one-sample t test; t(13) = 10.16, p < 0.0001, d = 2.71).
그러나 단일로 했을 때 보다 정확하지 않음(two-tailed paired t test; t(13) = −40.94, p < 0.0001, d = 10.55).
두 과제 비교 결과 참가자 간 정확성이 상관관계가 있음(Pearson correlation; r = 0.577, p = 0.03).
RT에서도 단일 얼굴 과제(mean RT = 409 ms; range: 291–614 ms)에 비해 앙상블 과제(mean RT = 827 ms, range: 550–1298 ms)가 긴 RT 산출 (two-tailed Wilcoxon signed-rank test; z = 3.30, p < 0.01, r = 0.88).
두 과제 사이 RT에 대해 유의한 상관관계 발견 X(r = 0.60, p = 0.84)
현재 결과는 참가자들이 앙상블 자극으로부터 평균 얼굴을 추출할 수 있음을 나타냄.
선행 연구와 달리 이번에는 앙상블 자극과 평균 얼굴을 직접 비교하지 않고 앙상블 자극끼리 비교하도록 했기 때문에 평균 얼굴을 추출하는 것이 서로 비교할 수 있을 만큼 강력하다는 것을 보여줌.
실험 2: EEG 실험
EEG 행동 실험 방법
행동 실험이 시행된 후 3일이 지나지 않은 별도의 날짜를 잡아 두 개의 세션 진행. 2개의 training block과 16개의 실험 block으로 이루어져 있고, EEG 장비 setup을 포함해 3시간 정도 걸림.
실험 block은 단일 얼굴 제시, 앙상블 제시로 이루어져 있음. 한 세션 당 4 단일 얼굴 block → 4개 앙상블 block → 4 단일 block → 4 앙상블 block.
두 유형 모두 300ms 자극 → 600~700 fixation. 참가자 과제는 여성 얼굴이 나오면 즉시 키를 누르는 것. EEG 데이터 수집 전 각 유형별로 하나씩 training block 참여.
EEG 실험 데이터 수집 및 전처리
ActiveTwo EEG recording system (Biosemi)로 기록. 자극 제시 전 100ms부터 자극 제시 후 900ms까지 epoching. Infomax ICA (Delorme et al., 2007) 이용해 눈 깜빡임 같은 노이즈 제거.
Letswave 6 (Mouraux and Iannetti, 2008), MATLAB 이용.
UNIVARIATE ERP ANALYSES. 일변량 ERP 분석
• 방법
homolog occipitotemporal (OT) areas (left: P5, P7, P9, PO3, PO7, and O1; right: P6, P8, P10, PO4, PO8, and O2); 후두엽 부근 전극이 분석에 사용.
Univariate 분석: p1, n170, p2, n250 성분 pairwise two-sample t tests 수행해 단일, 앙상블 비교.
• 결과 (Univariate analyses)
얼굴 프로세스와 관련된 여러 ERP 요소들(P1, N170, P2, and N250)은 12개의 양쪽 후두엽 전극 쪽에서 발견. 이 전극은 얼굴 프로세싱과 얼굴 디코딩 기반으로 선정.
각 구성요소에 대해 단일 얼굴과 앙상블의 진폭, latency 차이 비교(two-tailed paired t tests).
lower P1 amplitude (t(13) = −2.40, p = 0.032, d = 0.218), earlier N170 (t(13) = −5.63, p < 0.0001, d = 0.400), and earlier P2 (t(13) = −3.00, p = 0.011, d = 0.283)가 연관되어 있었고 다른 것들은 유의하지 않음(all p values > 0.10).
PATTERN CLASSIFICATION: SINGLE-FACE AND ENSEMBLE DECODING
패턴 분류: 단일 얼굴과 앙상블 디코딩
• 방법
패턴 분석은 각 참가자별로 수행.
앙상블 처리의 긴 처리 시간, 단일 얼굴 처리와 관련된 초기&상위 수준의 시각 정보를 모두 포함하기 위해 상대적으로 긴 600ms 시간 간격이 선택됨.
단일 얼굴 자극: EEG 전처리 후 최대 8개 패턴과 최소 6개의 패턴을 평균화.
앙상블 자극: 최대 48개 패턴(6회 rotations X 8회 반복)에 대해 동일한 베이스 앙상블에 해당하는 블록 내 모든 자극을 단일 관찰로 평균화.
• 단일 얼굴 디코딩 결과
Pairwise face classification (얼굴 쌍 비교): 전체적인 판별성 추정 위해 시공간 패턴(12개 OT 전극, 자극 시작 후 50~650ms)에 걸쳐 수행.
1. 이 분석은 각 개별 얼굴 쌍에 걸쳐 수행. 분석 결과 우연 수준 이상의 분류가 나옴 (mean accuracy = 63.50%, SD = 5.84%; one-sample t test against 50% chance; t(13) = 8.64, p < 0.0001, d = 2.31). Identity 관련 얼굴 정보를 포착하는 EEG 신호 능력과 일치(Nemrodov et al., 2016).
2. 자극 디자인 절차 영향 고려(다른 앙상블 그룹을 구성하기 위해 얼굴 간 시각적 차이를 증폭시켰을 가능성 있음.) 1-1, 1-2 앙상블에서 나온 얼굴이 2-1, 2-2 앙상블의 얼굴과 비교했을 때 시각적으로 비슷한 정도.
→ 각 그룹 내 모든 얼굴 쌍(132쌍)에 대해 단일 얼굴 분류 평가, 그룹 전체에 걸쳐 모든 얼굴 쌍(144쌍)에 대해 별도로 평가. 후자의 분류 정확도가 전자에 비해 더 높음(two-tailed paired t test; t(13) = 6.92, p < 0.0001, d = 1.03). 그러나, 분류 정확도는 그룹 간 mean accuracy: 63.50%, SD = 5.85%, one-sample t test against chance; t(13) = 8.64, p < 0.0001, d = 2.31)이나 그룹 내(54.30%, SD = 4.15, t(13) = 3.87, p = 0.0019, d = 1.03)나 우연 수준 확률(chance level) 보다 높았음. 중요한 건 그룹 내 얼굴이 서로 구별할 수 있으며, 이게 동일한 얼굴 평균을 가진 앙상블을 구별할 수 없게 막지는 않는다는 뜻임.(ex. 1-1 앙상블과 1-2 앙상블은 차이 식별 가능)
3. 순열 기반 chance level과 디코딩 정확도의 비교는 위의 모든 분류 결과를 질적으로 모사한다(replicate)는 점에 주목함.
• 앙상블 디코딩 결과
6개의 가능한 앙상블 쌍 모두 평가. 분류 정확도는 우연 수준(chance level) 보다 높았음 (mean classification = 58.07%, SD = 4.17; one-sample t test; t(13) = 7.23, p < 0.0001, d = 1.93).
그러나, 그룹 안 단일 얼굴은 구별이 가능했지만 같은 그룹의 앙상블은 구별 못할 수 있음. 같은 그룹의 앙상블은 같은 평균 얼굴로 평균 표상 지각을 할 테니까 구별할 수 없을 수도 있음. 이걸 밝혀내기 위해 앙상블 분류는 동일 그룹이냐 아니냐에 대해 별도로 평가.
흥미롭게 동일 그룹인 경우 거의 유의,, 지만 유의 X(mean accuracy = 55.02%; two-tailed one-sample t test against 50%, t(13) = 1.85, p = 0.060, d = 0.50, 동일 그룹이 아닐 경우: mean accuracy = 81.53%; t(13) = 12.50, p < 0.0001, d = 3.34) 즉, 그룹 간 앙상블의 경우 디코딩 가능성이 높지만 동일 그룹 앙상블의 디코딩은 그렇지 않음.
또한 단일 및 앙상블 얼굴 디코딩을 연관시키기 위해 디코딩 정확도 수준 비교.
two-way repeated-measures ANOVA (2 stimulus types 두 자극 유형: single face vs ensemble 단일 얼굴 대 앙상블, and 2 classification groups 두 분류 그룹: within and across group 그룹 내 대 그룹 간): 자극 유형(F = 65.60, p < 0.0001, η2 = 0.84)과 분류 그룹(F = 125.69, p < 0.0001, η2 = 0.91) 모두 주 효과를 나타냄. 참가자 간 유의한 상관관계 X
전체 앙상블 디코딩 정확도와 그룹 간 앙상블 디코딩 정확도를 사용해 앙상블 task에서 행동 정확도 간 상관관계 계산했으나 유의 X (r = 0.020, p = 0.95 and r = −0.25, p = 0.39, respectively)
• Summary representation decoding: cross-stimulus classification of face ensembles
평균 표상 디코딩: 얼굴 앙상블의 교차 자극 분류
서로 다른 앙상블에서 같은 평균 표상을 도출할 수 있는지 실험.
이를 위해 별개의 평균 정체성을 가진 두 앙상블의 모든 가능한 조합을 분류할 수 있도록 연습시킴(ex. 1-1과 2-1 앙상블 훈련) 그리고 같은 평균 표상을 가진 나머지 두 앙상블을 테스트함.
이 분석에서 81.53% 평균 정확도 산출 (SD = 9.44%; one-sample t test against chance, t(13) = 12.50, p < 0.0001, d = 3.34). 즉, 1-1, 1-2가 같은 평균표상 가짐.
교차 디코딩 정확도는 분류기를 다른 그룹(1–1, 1–2 vs 2–1, 2–2)의 단일 얼굴 쌍에 대해 분류를 훈련하고 다음과 같이 해당 그룹의 앙상블을 테스트하여 추정. 뿐만 아니라 다른 그룹의 앙상블에 대한 교육을 받은 다음 평균적인 얼굴을 테스트. 후자의 분석만 상당한 디코딩 정확도를 산출.
PATTERN CLASSIFICATION: SPATIOTEMPORAL DYNAMICS 패턴 분류: 시공적 역학
• 방법
시간 경과 추정 위해 위 분석을 여러 temporal window에 걸쳐 다시 수행.
분류는 60개의 특징 패턴(5 consecutive time bins × 12 electrodes)에 의존해 ~10ms(최대 10ms) windows(i.e., 5 time bins × ∼1.95 ms = ∼9.75 ms)에 걸쳐 수행.
410 time bins에 상응하는 -100~700ms 사이를 한 번에 한 bin씩 window를 sliding해 분석 수행.
또한 주어진 분류 유형에 대한 관련 정보의 교차 시간적 일반화 가능성을 평가하기 위해 모든 window에 대해 교육을 수행한 다음 가능한 모든 window에 대해 테스트를 수행 (Isik et al., 2014)
• Temporal dynamics of single and ensemble face processing
single과 ensemble 얼굴 프로세싱의 시간적 역학
단일 얼굴: 138ms에서 처음 도달, 310ms 피크. 605ms까지 유의.
얼굴 앙상블: 단일 얼굴보다 좀 더 빠른 101ms에서 처음 도달, 단일 얼굴보다 느리게 408ms에 피크.
얼굴 앙상블은 단일 얼굴에 비해 시간이 지남에 따라 정확도가 점진적으로 증가함.
얼굴 공간과 얼굴 앙상블
얼굴 공간: 다른 얼굴 정체성의 짝 유사성(pairwise similarity)을 capture해 얼굴 표현 구조 평가, 시각화하는 방법 제공.
각 참가자에 대해 개별 얼굴과 앙상블에 걸쳐 EEG 기반 pairwise similarity를 포함하는 신뢰도 매트릭스 confusability matrix 구성. 이 matrix에 metric MDS를 적용하여 얼굴 공간을 만듦.
• 방법
Face space는 각 참가자들에게 개별적으로 산출됨
특히, 큰 temporal window(i.e., 50–650 ms)을 기반으로 한 분류 정확도는 모든 단일 얼굴 쌍과 얼굴 앙상블(즉, 24개의 개별 정체성, 2개의 평균 얼굴 및 4개의 앙상블) 사이의 관계를 인코딩하는 30 × 30의 신뢰도 매트릭스 confusability matrix를 산출. 다음으로, 모든 값은 0과 1 사이에서 선형으로 scale되었고, 해당하는 면 공간의 근사치를 위해 metric MDS가 적용되었다. 공간의 차원성은 15차원으로 제한되었는데, 이는 데이터의 대부분의 변동(각 참가자에 대해 82%)을 설명하기에 충분하고 이 공간에서 수행된 분류 분석에 overfitting될 가능성도 최소화했기 때문.
또, 완성도를 위해 자극 공간의 객관적인 구조를 시각화하기 위해 영상 특성을 기반으로 얼굴 공간도 추정. 이 분석은 단일 얼굴과 유사성을 직접 측정할 수 없기 때문에 앙상블 포함 X.
다음으로, linear discriminant analysis classifier를 EEG 기반 얼굴 공간 좌표에 대해 훈련시켜 두 앙상블 그룹에 걸쳐 단일 얼굴을 분류하도록 한 후 네 개의 앙상블에서 테스트함.
• Face space: single faces and face ensembles 얼굴 공간 결과
A는 자극에 대한 픽셀 단위 이미지 차이를 기반으로 한 분석 결과 표시
B는 참가자의 평균 EEG 기반 분석 결과.
두 수치가 앙상블 그룹을 베이스로 한 단일 얼굴 clustering(무리)를 보여줌.
신경 기반 얼굴 공간 조사 → 동일 그룹 앙상블이 다른 그룹 앙상블보다 서로 더 가까움.
중요한 것: 앙상블 표상이 해당 그룹에 속하는 단일 얼굴 표상에 더 가깝다는 것.
1-1, 1-2과 관련된 표상은 다른 그룹에 속하는 앙상블의 단일 얼굴에 비해 해당 앙상블의 단일 얼굴 표상에 더 가까움.
B에서, 두 개의 단일 얼굴 그룹 사이에 얼굴 공간을 나누는 hyperplane은 앙상블 묘사를 완벽한 정확도로 분류함.
단일 얼굴과 앙상블 요약 표상의 이미지 재구성
• 방법
얼굴 이미지 재구성 절차는 EEG data의 시공간 구조를 활용하는 최근 접근 방식에 의존(Nemrodov et al., 2018, 2019).
1. 얼굴 공간을 구성하는 구조의 시각적 특징은 공간의 각 차원에 대해 개별적으로 도출. CIEL*a*b로 변환한 후, 얼굴 자극은 얼굴 공간의 모든 차원에 대해 별도로 좌표에 비례하여 합산. 이 절차에서는 각 차원마다 하나씩 총 15개의 feature or classification images(CIMs)가 생성.
2. 각 차원에 대해 자극 이미지와 관련된 계수를 무작위로 섞음 → 순열 기반 CIMs 생성.
3. 대상 얼굴의 좌표를 기존 얼굴 공간으로 추정.
4. a linear combination of significant CIMs, proportional with the coordinates of the target in face space, was added to an average face obtained from all other faces. The outcome of this procedure yields a visual approximation of the appearance of the target for a specific participant.
= 면 공간에서 대상의 좌표에 비례하는 유의 CIM의 선형 조합이 다른 모든 면으로부터 얻은 평균 면에 추가되었다. 이 절차의 결과는 특정 참가자의 표적에 대한 시각적 근사치를 산출한다.
위 절차에 따라 두 가지 수정을 함.
1. 모든 개별 얼굴을 얼굴 공간의 근사치에 포함.
2. CIMs가 모든 단일 얼굴 자극의 평균에 추가.
•Image reconstruction of single-face and ensemble summary percepts
단일 얼굴 및 앙상블 평균 표상의 이미지 재구성
EEG 기반 이미지 재구성의 최근 발전은 개별 얼굴의 묘사를 평가하고 시각화할 수 있게 함. 이 방법론을 적용하여 단면 표현 외의 평균 표현의 시각적 내용을 근사화함. 특히, 얼굴 공간의 구조에서 시각적 특징을 도출한 다음 이러한 특징을 결합해 얼굴 재구성.
단일 얼굴 재구성: 사진 A, 앙상블 평균 얼굴 재구성: 사진 B
단일 얼굴 재구성은 우연 확률 이상 정확도 산출. (mean accuracy = 62.93%; one-sample t test against 50% chance, t(13) = 11.97, p < 0.0001, d = 3.20)
앙상블도 우연 확률 이상 정확도 산출함 (mean accuracy = 74.40%; t(13) = 3.93, p = 0.00086, d = 1.00).
숫자: 정확도
단일 얼굴 표현은 해당 자극의 시각적 속성 반영
앙상블 표현이 얼굴 앙상블의 summary 시각적 속성 capture.
= 신경 앙상블 표현의 summary 특성을 확인하고 내용을 시각화하는 새로운 수단 제공.
논의
1. 행동적으로 참가자들이 다른 앙상블 간에 평균 표상을 일치시킬 수 있음.
2. EEG 패턴이 단일 얼굴뿐만 아니라 앙상블도 복호화하는 데 사용할 수 있음. 복호화는 평균 Identity가 다른 앙상블에서는 성공했지만 평균 얼굴만 같고 각 구성 얼굴을 다른 앙상블에서는 성공하지 못함. → 앙상블이 그냥 평균으로 크게 축소한다는 가설과 일치.
3. 얼굴 공간에서 앙상블 표현이 앙상블에 속하는 개별 얼굴의 표현과 나란히 위치. 동일한 평균을 가지는 앙상블은 얼굴 공간에서 상대적으로 가까움.
4. 앙상블 지각을 할 때 도출된 신경 데이터에서 시각적 모습을 재구성해 평균 표상과 관련된 mental constructs를 시각화, 평가.
5. p1, p2 뿐만 아니라 N170과 같은 기존 ERP 구성 요소의 민감도 확인.
생각해 볼 문제
1. 정말 12개의 전극만으로 디코딩이 가능한가?
2. 실제 뇌파도 아니고, 공간 해상도가 극히 떨어지는 EEG 신호를 가지고 디코딩을 하는 것이 과연 신뢰로운지?
3. 그래서 이 결과의 함의는?
디코딩 분야가 요즘 핫하답니다.
하긴 내가 생각하는 걸 바로바로 꺼낼 수 있는 기술을 사람들은 항상 고대해왔던 걸 생각해보면 그리 신기한 현상은 아닌 것 같습니다.
.. 아닌가? 좀 디스토피아스러운가요?
'지각 심리 > 논문' 카테고리의 다른 글
디지털 VS 인쇄물: 종이로 된 책이 아이패드로 읽는 전자책보다 더 이해가 잘 될까? (0) | 2022.01.18 |
---|---|
색채지각: 언어가 색을 구별하는 데 영향을 미친다? (feat. Whorf 가설) (0) | 2021.12.03 |
대칭: 사물이 눈에 보이는 것보다 적게 있음 (0) | 2021.11.24 |