서열화된 범주형 자료 분석에서 연속형 DSEM과 프로빗 DSEM의 수행 비교
A comparison of continuous DSEM and probit DSEM in analyzing ordinal categorical data
- 주제어 (키워드) 서열형 범주형 변수 , 프로빗 DSEM , 누적 프로빗 DSEM , ordinal categorical variables , probit DSEM , cumulative probit DSEM
- 발행기관 서강대학교 일반대학원
- 지도교수 석혜원
- 발행년도 2024
- 학위수여년월 2024. 8
- 학위명 석사
- 학과 및 전공 일반대학원 심리학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000078859
- UCI I804:11029-000000078859
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
최근 휴대폰과 웨어러블 기기 등의 광범위한 보급으로 집중 종단 자료(intensive longitudinal data)의 수집이 용이해지면서, 집중 종단 자료의 분석을 위한 통계적 모형인 역동적 구조방정식 모형(dynamic structural equation modeling; DSEM)이 많은 연구자들의 관심을 받고 있다. DSEM 은 기존의 구조방정식 모형에 시계열 모형과 다층 모형을 결합한 것으로, 다수의 참여자를 많은 시점에 측정한 집중 종단 자료의 분석에 용이한 모형이다. 초기에 DSEM 은 연속형 변수(continuous variable)의 분석을 고려하여 제안된 모형이었으나, 다양한 자료 형태를 다룰 수 있도록 모형은 지속적으로 확장되어 왔다. 특히 심리학 연구에서는 리커트 척도를 사용해서 자료를 수집하는 경우가 빈번한데, 이와 같은 이분형(binary) 변수 혹은 서열화된 범주 변수(ordered categorical variables)를 다룰 수 있도록 프로빗 회귀모형(probit regression model)을 적용해 DSEM 을 확장한 모형인 프로빗 DSEM(probit DSEM)과 누적 프로빗 DSEM(cumulative probit DSEM)이 구현되었다. 그러나 프로빗 DSEM 을 사용한 분석 및 해석의 어려움(McNeish et al., 2023)으로 인해, 여전히 대부분의 연구는 서열화된 범주 변수를 연속 변수로 취급하고 기존 DSEM 을 사용하여 분석을 수행하고 있다. 서열화된 범주 변수를 연속 변수에 기반한 기존 DSEM 으로 분석했을 때 발생할 수 있는 문제점을 살펴본 연구는 아직까지 매우 제한적이다. 기존 연구에 따르면, 구조방정식 모형에서 응답 범주가 5 개 미만이고 범주 경계(threshold)가 대칭적이지 않은 경우, 서열화된 범주 변수를 연속 변수로 취급하고 분석하게 되면 부정확한 결과가 산출된다. 반면 응답 범주가 5 개 이상이고 범주 경계가 상대적으로 대칭적인 경우에는 서열화된 범주 변수를 연속 변수로 취급하더라도 허용 가능한 수준의 유사한 결과를 산출되는 것으로 나타났다(Rhemtulla et al., 2012). 또한 다층 AR(1) 모형에서 응답자 수와 측정 시점의 수가 모수 추정에 영향을 미치므로, 자료 수집과 분석 시 두 요인을 균형있게 고려해야 한다는 연구 결과가 제시되기도 했다(Schultzberg & Muthén, 2018). 그러나, 이러한 결과가 프로빗 DSEM 에도 그대로 적용되는지 경험적으로 확인한 연구는 거의 없다. 따라서, 본 연구는 시뮬레이션 연구를 통해 서열화된 범주형 자료를 기존의 연속형 DSEM 과 프로빗 DSEM 으로 분석했을 때 두 모형의 추정 정확도에 어떠한 차이가 있는지 살펴보고자 하였다. 이를 위해 하나의 측정 변수에 기반하여 자기회귀계수의 평균과 분산을 추정하는 상황을 가정하고, 응답 범주의 수와 응답자 수 및 측정 시점의 수, 그리고 자료의 대칭성에 따른 여러 조건에서 자료를 생성했으며, 이 자료를 기존의 연속형 DSEM 과 누적 프로빗 DSEM 으로 분석하였다. 모수 추정 결과의 정확성은 추정된 모수의 상대적 편향, MSE, 표준오차 편향에 기반하여 평가하였다. 분석 결과, 응답 범주의 수가 적을수록 누적 프로빗 DSEM 의 모수 추정이 더 정확하다는 것을 밝힐 수 있었다. 또한, 응답 범주의 수가 증가함에 따라 두 DSEM 간의 모수 추정 정확도의 차이가 감소했다. 전반적으로 응답자 수와 측정 시점의 증가가 모수 추정 정확도와 관련이 있었다. 자료 분포 대칭성에 관해서는 응답자 수나 측정 시점의 수의 증가와 결합될 때 추정 결과에 영향을 미쳤으나, 그 효과는 일정하지 않았다. 본 연구 결과를 통해 서열화된 범주형 집중 종단 자료를 분석할 때 어떤 조건에서 연속형 DSEM과 프로빗 DSEM이 서로 다른 결과를 산출하는지 살펴볼 수 있으며, 선행 연구에서 나타난 응답 범주의 개수와 표본 크기, 혹은 자료의 분포의 변화에 따른 모수 추정 정확도의 변화가 DSEM에서도 나타나는지 알아보고자 했다.
more초록 (요약문)
The widespread adoption of smartphones and wearable devices has facilitated the collection of intensive longitudinal data(ILD), which involves repeated measurements of individuals collected with relatively many time points. Dynamic structural equation modeling (DSEM) is one of the prominent statistical methods which can be used analyzing ILD. DSEM combines structural equation modeling (SEM) with time-series and multilevel modeling. DSEM is particularly useful for examining dynamic relationships among variables based on data collected from multiple participants across numerous time points. Initially, DSEM was proposed for analyzing continuous variables only. However, the model has been continuously extended to handle various data types like data collected with Likert scales, which are commonly used in psychological research. To accommodate ordinal categorical variables, probit regression models were incorporated into DSEM, resulting in probit DSEM. Despite its potential, probit DSEM remains challenging for analysis and interpretation (McNeish et al., 2023). Consequently, many studies still treat ordered categorical variables as continuous and use traditional DSEM for ILD analysis. According to prior studies related to analyzing ordinal categorical variables, when response categories are fewer than five or thresholds are asymmetric, treating ordinal categorical variables as continuous can lead to inaccurate results. Conversely, when there are more than five response categories and thresholds are relatively symmetric, treating ordered categorical variables as continuous yields reasonably accurate results(Rhemtulla et al., 2012). Also findings from multilevel AR(1) models emphasize the need to balance the number of sample size and timepoints of ordinal categorical data since it affects the accuracy of parameter estimation(Schultzberg & Muthén, 2018). However, threre is few empirical investigations of whether these findings apply directly to DSEM. Thus, this study aims to explore the differences in results of analyzing ordinal categorical data using both traditional continuous DSEM and probit DSEM. For this purpose, simulation was performed while mainpulating four factors- the number of response categories, data symmetry, number of timepoints and sample size - and analyzed under both DSEM models. The accuracy of the results is evaluated based on relative bias, mean squared error (MSE), and relative bias of standard errors for estimated parameters. The results showed that the fewer the number of response categories, the more accurate the parameter estimation of the cumulative probit DSEM was. Additionally, as the number of response categories increased, the difference in parameter estimation results between the two DSEM models decreased. Overall, an increase in the number of respondents and measurement points was related to parameter estimation accuracy. Regarding data distribution symmetry, it affected estimation results when combined with an increase in either sample size or time points; however, this effect was not constant.
more목차
I. 서론 1
1. 연구 배경 1
2. 역동적 구조 방정식(dynamic structural equation modeling) 4
3. 프로빗 회귀모형 11
4. 프로빗 DSEM(probit DSEM) 15
5. 누적 프로빗 DSEM(cumulative probit DSEM) 19
6. 프로빗 DSEM 관련 선행 연구 24
II. 연구 방법 28
1. 자료 생성 절차 28
2. 자료 분석 절차 31
3. 결과 지표 34
III. 연구 결과 36
1. 상대적 편향 36
2. MSE 43
3. 표준오차 상대 편향 48
IV. 논의 53
참고문헌 59