검색 상세

Analyzing Economic Biases in Large Language Models(LLMs) : A Multi-Model, Multi-Task Approach

초록 (요약문)

This study empirically investigates whether state-of-the-art large language models (LLMs)— DeepSeek-V3, Mistral Small 3, Llama 4 Maverick, Gemini 2.0 Flash-001, and GPT-4o—exhibit human-like behavioral biases in economic decision-making, and explores the underlying reasoning behind their choices. To this end, we designed a series of multiple price list (MPL, Kahneman & Tversky,1992) tasks encompassing gain, loss, and mixed domains to estimate certainty equivalents (CEs), while also collecting detailed explanatory responses for each decision made by the models. Quantitative analyses revealed that the LLMs generally exhibited risk-averse behavior in the gain domain, producing CEs lower than the expected value (EV). However, the extent of this risk aversion varied depending on the probability-reward structure of each question. In the loss domain, some models displayed risk-seeking tendencies under high-probability loss conditions, whereas most exhibited strong risk aversion in response to low-probability, high-magnitude losses. In the mixed domain, many models demonstrated loss-averse behavior, with certain models generating exceptionally high CEs, suggesting strong loss aversion coefficients. Moreover, consistent response patterns without any switching point within the experimental range implied either highly polarized preferences or value judgments extending beyond the presented decision bounds. Qualitative analyses indicated that the LLMs employed a range of reasoning strategies, including EV calculations, consideration of certainty and risk, and explicit references to loss aversion theory. Differences were observed across models in terms of explanation structure, logical coherence, and use of economic terminology. Some responses exhibited inconsistencies between choices and justifications or revealed superficial conceptual understanding. These findings highlight the dual nature of LLMs—as potential decision-making agents capable of contextual reasoning and explanation generation, yet also bounded by their representational and inferential limitations. The results carry meaningful implications for the development of AI-driven experimental methodologies in behavioral economics, the design of LLM-integrated decision systems, and the broader discourse on bias in artificial intelligence. Keyword: Large Language Models (LLMs), Behavioral Economics, Decision-Making, Risk Preferences, Loss Aversion, Explainability

more

초록 (요약문)

본 연구는 최신 대규모 언어 모델인 DeepSeek-V3, Mistral Small 3, Llama 4 Maverick, Gemini 2.0 Flash-001, GPT-4o 를 대상으로, 이들이 경제적 의사결정 상황에서 인간과 유사한 행동경제학적 편향을 보이는지를 실증적으로 분석하고, 각 선택에 대한 설명을 통해 그 판단 메커니즘을 탐색하고자 하였다. 이를 위해 본 연구는 이득, 손실, 혼합 영역에 걸친 Multiple Price List (MPL, Kahneman & Tversky, 1992) 실험을 설계하여 각 모델의 확실성 등가(Certainty Equivalent)를 추정하는 동시에, 각 선택에 대한 설명 응답을 수집하였다. 정량 분석 결과, 대부분의 LLM 은 이득 영역에서 기대값(EV)보다 낮은 CE 를 보여 전형적인 위험 회피 성향을 나타냈으며, 이러한 경향의 강도는 과제별 확률과 보상의 구조에 따라 상이하게 나타났다. 손실 영역에서는 고확률 손실 상황에서 일부 모델이 위험 선호적 선택을 보인 반면, 저확률·고손실 상황에서는 대부분의 모델이 뚜렷한 위험 회피 성향을 보였다. 혼합 영역에서는 많은 모델이 손실 회피적 행동을 보였고, 일부 모델은 매우 높은 CE 를 생성하며 강한 손실 회피 계수를 암시하였다. 또한 일부 실험에서는 범위 내에서 선호 전환 없이 일관된 응답을 보였는데, 이는 선택 경계 밖에 위치한 극단적 선호 또는 가치 판단을 시사한다. 정성 분석 결과로는 LLM 들은 기대값 계산, 확실성과 위험에 대한 고려, 손실 회피 이론에 대한 명시적 언급 등 다양한 추론 전략을 활용하였으며, 설명 구조, 논리적 일관성, 경제학 용어 사용 측면에서 모델 간 차이가 관찰되었다. 일부 응답에서는 선택과 설명 간 불일치나 개념의 피상적 이해가 드러나기도 하였다. 이러한 결과는 LLM 이 맥락 기반 추론과 설명 생성을 수행할 수 있는 잠재력을 지닌 의사결정 에이전트이면서도, 동시에 표현 및 추론 능력에 일정한 한계를 지닌 존재임을 시사한다. 본 연구는 행동경제학 분야의 AI 기반 실험 방법론 발전, LLM 통합형 의사결정 시스템 설계, 인공지능의 편향 문제에 대한 담론 확대에 의미 있는 시사점을 제공한다. Keyword : 대규모 언어 모델 (LLM), 행동경제학, 의사결정, 위험선호, 손실회피, 설명가능성

more

목차

【국문초록】
【Abstracts】
I. INTRODUCTION 1
II. LITERATURE REVIEW 2
2.1 INTRODUCTION: THE RISE OF LARGE-SCALE LANGUAGE MODELS AND
ECONOMIC DECISION RESEARCH 2
2.2 PRIOR RESEARCH ON LLMS' ECONOMIC RATIONALITY AND
BEHAVIORAL PATTERNS 3
2.3 PROSPECT THEORY: A REALISTIC MODEL OF HUMAN DECISION-MAKING 5
2.4 LIMITATIONS OF EXISTING RESEARCH 8
2.5 DISTINCTION AND CONTRIBUTION OF THIS RESEARCH 9
III. METHODOLOGY 10
3.1 EXPERIMENTAL DATA SOURCES AND TASK OVERVIEW 10
3.2 DEFINING VARIABLES 12
3.3 ANALYSIS METHODS 13
IV. EMPIRICAL ANALYSIS / EXPERIMENT 15
4.1 EXPERIMENTAL DESIGN AND METHODOLOGY 15
4.2 GAIN DOMAIN EXPERIMENT RESULTS 20
4.3 LOSS DOMAIN EXPERIMENT RESULTS 23
4.4 MIXED DOMAIN EXPERIMENT RESULTS 25
4.5 SYNTHESIS AND INTERPRETATION OF KEY FINDINGS 30
4.6 SYNTHESIS AND INTERPRETATION OF KEY FINDINGS 31
4.7 IMPLICATIONS OF THE STUDY 37
4.8 RELIABILITY AND VALIDITY EFFORTS 37
V. DISCUSSION 38
5.1 INTERPRETATION OF FINDINGS 38
5.2 COMPARISON WITH PRIOR WORK 40
5.3 IMPLICATION AND REFLECTION 41
VI. CONCLUSION 42
6.1 LIMITATIONS OF THE STUDY AND SUGGESTIONS FOR FUTURE RESEARCH 43
6.2 DIRECTIONS FOR FUTURE RESEARCH 44
REFERENCES 46

more