수면 트래커는 얼마나 정확할까? 2025 연구로 알아보는 진실
수면 트래커는 총 수면 시간 측정에는 꽤 믿을 만합니다. 하지만 깊은 수면이 몇 분, 렘 수면이 몇 퍼센트 — 수면 단계 데이터는 이야기가 다릅니다. 최신 연구를 보면, 손목 위의 기기들은 뇌 활동을 측정하는 것이 아니라 추정하고 있습니다.
요약
수면 트래커는 총 수면 시간 감지에는 비교적 정확합니다(약 90%). 하지만 수면 단계 세분화 정확도는 훨씬 낮습니다. 2024년 연구에 따르면 시중 웨어러블의 11%만이 하나의 지표라도 독립 검증을 받았습니다. 매일 밤의 깊은 수면·렘 수면 비율은 추정값으로 받아들이고, 트래커는 장기 추세 파악에 활용하세요. 앱의 숫자보다 항상 몸이 느끼는 것을 우선하세요.
수면 트래커는 무엇을 실제로 측정하나요?
수면을 임상 수준으로 측정하는 방법은 수면다원검사(PSG)입니다. 병원 수면 검사실에서 머리에 전극을 붙이고 뇌파(EEG)를 직접 측정하는 방식입니다. 렘 수면, 깊은 수면(서파 수면), 얕은 수면을 구분하는 근거가 바로 이 뇌파입니다.
소비자용 웨어러블은 뇌파를 측정하지 않습니다. 가속도계로 움직임을 감지하고, 광학 센서로 혈류 변화(PPG)를 측정합니다. 이 데이터를 기반으로 알고리즘이 수면 단계를 추론합니다. 몸이 거의 움직이지 않고 심박수가 낮고 안정적이면 '깊은 수면'으로 분류하는 식입니다.
문제는 이것이 뇌 활동의 직접 측정이 아닌 간접 추정이라는 점입니다. 손목의 혈류 패턴으로 뇌에서 일어나는 일을 역추산하는 것입니다.
검증 연구들은 뭐라고 말하나요?
2024년 Sports Medicine에 발표된 Doherty 등의 연구는 시중에 나온 웨어러블 기기를 폭넓게 분석했습니다. 결과는 놀랍습니다. 단 하나의 측정 지표라도 독립적으로 검증된 기기는 전체의 11%에 불과했습니다. 기기들이 측정한다고 주장하는 항목들 중 실제로 검증 연구가 이루어진 부분은 3.5%뿐이었습니다.
브리검 앤 위민스 병원(Brigham & Women's Hospital) 연구팀은 여러 소비자 기기를 PSG와 직접 비교했습니다. 수면 단계 분류 정확도를 나타내는 F1 점수는 기기에 따라 최저 0.26에서 최고 0.69까지 분포했습니다. F1 점수 1.0이 완벽한 일치, 0.0이 무작위 추측입니다. 가장 나쁜 기기는 동전 던지기에 가까운 수준이었습니다.
총 수면 시간 감지는 상대적으로 정확합니다. 대부분의 기기는 자고 있는지 깨어 있는지를 약 90% 수준으로 맞춥니다. 오차가 크게 벌어지는 지점은 수면 단계를 세분화하려 할 때입니다.
왜 기기마다 숫자가 다를까요?
같은 손목에 Apple Watch와 Garmin을 함께 차고 자면 같은 밤, 같은 사람인데도 깊은 수면 비율이 Apple Watch는 약 10.5%, Garmin은 약 18%로 나오는 경우가 실제로 보고됩니다. 정상 범위(10-25%)의 양 끝을 차지할 만큼 큰 차이입니다.
이것은 한 기기가 고장났기 때문이 아닙니다. 두 기기 모두 비슷한 원시 센서 데이터에 서로 다른 독자적 알고리즘을 적용해 다른 결론을 내리는 것입니다. 두 회사 모두 알고리즘을 공개하지 않습니다.
손목 기반 수면 측정 연구에서 SleepPPGNet 같은 고급 모델은 약 78% 정확도(Cohen's κ = 0.68)를 달성합니다. 이것이 현재 PPG 센서로 이론상 달성할 수 있는 상한선에 가깝습니다. 많은 소비자 기기는 이 수준에 미치지 못합니다.
"개운하게 일어났는데 트래커가 나쁜 수면이라고 하면, 몸을 믿으세요. 트래커는 측정 오차가 있지만 당신의 뇌는 없습니다."
부정확한 데이터라면 트래커가 쓸모없나요?
그렇지 않습니다. 다만 어떻게 활용해야 하는지가 달라집니다. 수면 트래커는 장기적인 패턴과 추세를 파악하는 데 실제로 유용합니다. 평균 수면 시간이 3주 사이에 7.5시간에서 6시간으로 줄었다면, 트래커가 의미 있는 변화를 포착한 겁니다.
문제는 매일 밤의 수면 단계 수치가 불안을 유발할 때입니다. 충분히 개운하게 일어났는데 앱에서 "깊은 수면 12분"이 뜨면, 존재하지 않았던 문제가 갑자기 생겨납니다. 연구자들은 이 현상을 '오르토솜니아(orthosomnia)'라고 부릅니다. 수면 점수에 대한 불안이 오히려 수면을 방해하는 악순환입니다. 수면 점수가 수면을 망치는 이유에 대해 더 알아보세요.
세계수면학회(World Sleep Society)는 2025년 소비자 웨어러블 사용 공식 가이드라인을 발표하면서, 단일 밤의 수면 단계 데이터를 임상적으로 의미 있는 지표로 해석하지 말 것을 명시적으로 권고했습니다.
어떤 트래커가 가장 정확한가요?
일부 기기는 다른 기기보다 검증 연구에 더 많이 투자했습니다. Oura Ring과 WHOOP는 동종 기기 중 동료 심사를 거친 연구를 가장 많이 발표한 편입니다. 하지만 '다른 기기보다 검증이 많다'는 것이 '마케팅에서 주장하는 모든 기능이 임상적으로 검증되었다'는 의미는 아닙니다.
기기 형태도 정확도에 영향을 줍니다. 손목 기반 기기가 가장 흔하지만 측정 조건은 가장 불리합니다. 반지 형태의 기기(Oura 등)는 손가락의 PPG 신호가 더 강해 약간의 생리학적 이점이 있습니다. 어떤 기기도 뇌파를 측정하지는 않습니다.
수면 트래커, 이렇게 쓰면 도움이 됩니다
- 매일 점수가 아닌 장기 추세에 집중하세요. 30일 평균 수면 시간은 의미 있습니다. 단일 밤의 깊은 수면 비율은 노이즈가 너무 많습니다.
- 앱 숫자보다 몸의 느낌을 우선하세요. 개운하게 일어났는데 트래커가 나쁜 수면이라고 하면 몸을 믿으세요.
- 수면 점수 때문에 잠이 안 온다면 재고하세요. 트래커가 수면의 질을 높이려다 오히려 수면을 방해하고 있는 상황입니다.
자주 묻는 질문
수면 트래커는 수면 단계를 정확하게 측정하나요?
수면 단계 측정 정확도는 기기마다 크게 다릅니다. 2024년 연구에 따르면 F1 점수는 0.26~0.69 사이입니다(1.0이 완벽). 총 수면 시간은 약 90% 수준으로 신뢰할 수 있지만, 수면 단계 세분화 수치는 추정값으로 받아들이는 것이 적절합니다.
어떤 수면 트래커가 가장 정확한가요?
Oura Ring과 WHOOP가 동료 심사 연구를 가장 많이 발표했습니다. 링 형태 기기는 손가락 PPG 신호가 더 강해 약간 유리합니다. 단, 어떤 기기도 PSG 수준의 완전한 검증은 받지 못했습니다.
수면 점수를 믿어도 될까요?
장기 추세를 보는 데는 유용하지만, 매일 밤의 정밀한 측정값은 아닙니다. 개운하게 일어났는데 점수가 낮다면 몸을 믿으세요. 점수에 집착하면 오르토솜니아(수면 점수 불안)가 오히려 수면을 악화시킬 수 있습니다.
piliq는 더 많은 수치를 보여주는 대신, 실제로 수면의 질에 영향을 주는 행동 변화를 코칭합니다. 점수가 아닌, 아침에 어떻게 느끼는지가 기준입니다.