---
id: 20260313-T0-23
title: "个性化群体相对策略优化实现异构偏好对齐"
title_en: "Personalized Group Relative Policy Optimization for Heterogeneous Preferences"
url: https://ai.daily.yangsir.net/daily/20260313-T0-23
issue_date: 2026-03-13
publish_date: 2026-03-12T04:00:00.000Z
source_name: "arXiv cs.LG (ML)"
source_url: https://arxiv.org/abs/2603.10009
---

# 个性化群体相对策略优化实现异构偏好对齐

论文提出个性化群体相对策略优化(PGRPO)，解决大语言模型难以对齐个体偏好问题。该方法通过群体策略优化，让模型适应不同用户群体的需求，优于传统RLHF方法。

## English Version

**Personalized Group Relative Policy Optimization for Heterogeneous Preferences**

The paper proposes Personalized Group Relative Policy Optimization (PGRPO) to address LLM misalignment with diverse individual preferences. This group-based policy optimization method outperforms traditional RLHF by adapting to different user groups' needs.

---

**来源**：[arXiv cs.LG (ML)](https://arxiv.org/abs/2603.10009)

**详情页**：https://ai.daily.yangsir.net/daily/20260313-T0-23

---

*智语观潮 · Daily — https://ai.daily.yangsir.net/llms.txt*