User Modeling - a aligator1999 Collection

aligator1999 's Collections

User Modeling

updated May 11

Reading Between the Prompts: How Stereotypes Shape LLM's Implicit Personalization

Paper • 2505.16467 • Published May 22, 2025

Note ✅
IP-Dialog: Evaluating Implicit Personalization in Dialogue Systems with Synthetic Data

Paper • 2506.02449 • Published Jun 3, 2025 • 1

Note ✅
Localizing Persona Representations in LLMs

Paper • 2505.24539 • Published May 30, 2025

Note ✅
Persona Vectors: Monitoring and Controlling Character Traits in Language Models

Paper • 2507.21509 • Published Jul 29, 2025 • 34

Note ✅
Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale

Paper • 2504.14225 • Published Apr 19, 2025 • 1

Note ✅
Language Models Change Facts Based on the Way You Talk

Paper • 2507.14238 • Published Jul 17, 2025 • 1

Note ✅
Learning a Generative Meta-Model of LLM Activations

Paper • 2602.06964 • Published Feb 6 • 4

Note keyword: latent user attributes probing LLM activations - def. check out
CLaS-Bench: A Cross-Lingual Alignment and Steering Benchmark

Paper • 2601.08331 • Published Jan 13

Note keyword: linear probes demographic inference language model residual stream
Bi-directional Bias Attribution: Debiasing Large Language Models without Modifying Prompts

Paper • 2602.04398 • Published Feb 4 • 1

Note recommended (similar to seeds)
Reasoning Beyond Chain-of-Thought: A Latent Computational Mode in Large Language Models

Paper • 2601.08058 • Published Jan 12

Note recommended (similar to seeds)
YaPO: Learnable Sparse Activation Steering Vectors for Domain Adaptation

Paper • 2601.08441 • Published Jan 13 • 8

Note recommended (similar to seeds)
Steer2Edit: From Activation Steering to Component-Level Editing

Paper • 2602.09870 • Published Feb 10 • 1

Note recommended (similar to seeds)
Endogenous Resistance to Activation Steering in Language Models

Paper • 2602.06941 • Published Feb 6

Note recommended (similar to seeds)
BLOCK-EM: Preventing Emergent Misalignment by Blocking Causal Features

Paper • 2602.00767 • Published Jan 31

Note recommended (similar to seeds)
AntiPaSTO: Self-Supervised Steering of Moral Reasoning

Paper • 2601.07473 • Published Jan 12 • 1

Note recommended (similar to seeds)
Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics

Paper • 2602.02343 • Published Feb 2 • 13

Note recommended (similar to seeds)
Who's asking? User personas and the mechanics of latent misalignment

Paper • 2406.12094 • Published Jun 17, 2024
Contextualized Visual Personalization in Vision-Language Models

Paper • 2602.03454 • Published Feb 3 • 3

Note keyword: implicit personalization interpretability language models
When Personalization Misleads: Understanding and Mitigating Hallucinations in Personalized LLMs

Paper • 2601.11000 • Published Jan 16 • 27

Note recommended (similar to seeds)
Lost in the Prompt Order: Revealing the Limitations of Causal Attention in Language Models

Paper • 2601.14152 • Published Jan 20 • 6

Note recommended (similar to seeds)
Simplifying Outcomes of Language Model Component Analyses with ELIA

Paper • 2602.18262 • Published Feb 20 • 1

Note keyword: LLM user persona representation mechanistic interpretability
Language-based Trial and Error Falls Behind in the Era of Experience

Paper • 2601.21754 • Published Jan 29 • 16

Note keyword: latent user attributes probing LLM activations
Persona Prompting as a Lens on LLM Social Reasoning

Paper • 2601.20757 • Published Jan 28 • 4

Note keyword: steering vectors user persona demographic bias LLM
Fine-Grained Activation Steering: Steering Less, Achieving More

Paper • 2602.04428 • Published Feb 4

Note recommended (similar to seeds)
What Matters to an LLM? Behavioral and Computational Evidences from Summarization

Paper • 2602.00459 • Published Jan 31

Note recommended (similar to seeds)
Aligning Language Models from User Interactions

Paper • 2603.12273 • Published Feb 18

Note recommended (similar to seeds)
From Data to Behavior: Predicting Unintended Model Behaviors Before Training

Paper • 2602.04735 • Published Feb 4 • 16

Note recommended (similar to seeds)
Ablate and Rescue: A Causal Analysis of Residual Stream Hyper-Connections

Paper • 2603.14833 • Published Mar 16

Note keyword: linear probes demographic inference language model residual stream
Selective Steering: Norm-Preserving Control Through Discriminative Layer Selection

Paper • 2601.19375 • Published Jan 27 • 5

Note recommended (similar to seeds)
The Truthfulness Spectrum Hypothesis

Paper • 2602.20273 • Published Feb 23 • 2

Note recommended (similar to seeds)
SteerRM: Debiasing Reward Models via Sparse Autoencoders

Paper • 2603.12795 • Published Mar 13

Note recommended (similar to seeds)
Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering

Paper • 2603.06854 • Published Mar 6 • 12

Note recommended (similar to seeds)
Emergent Misalignment is Easy, Narrow Misalignment is Hard

Paper • 2602.07852 • Published Feb 8

Note recommended (similar to seeds)
Prism-Δ: Differential Subspace Steering for Prompt Highlighting in Large Language Models

Paper • 2603.10705 • Published Mar 11 • 11

Note recommended (similar to seeds)
Probing Materials Knowledge in LLMs: From Latent Embeddings to Reliable Predictions

Paper • 2603.01834 • Published Mar 2

Note recommended (similar to seeds)
Efficient Refusal Ablation in LLM through Optimal Transport

Paper • 2603.04355 • Published Mar 4

Note recommended (similar to seeds)
How Transformers Reject Wrong Answers: Rotational Dynamics of Factual Constraint Processing

Paper • 2603.13259 • Published Feb 25

Note recommended (similar to seeds)
The Master Key Hypothesis: Unlocking Cross-Model Capability Transfer via Linear Subspace Alignment

Paper • 2604.06377 • Published Apr 7 • 7

Note recommended (similar to seeds)
Beyond the Assistant Turn: User Turn Generation as a Probe of Interaction Awareness in Language Models

Paper • 2604.02315 • Published Apr 3 • 5

Note keyword: latent user attributes probing LLM activations
Fail-Closed Alignment for Large Language Models

Paper • 2602.16977 • Published Feb 19

Note recommended (similar to seeds)
The Impact of Steering Large Language Models with Persona Vectors in Educational Applications

Paper • 2604.07102 • Published Apr 8

Note keyword: implicit personalization interpretability language models
Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs

Paper • 2603.03415 • Published Mar 19

Note recommended (similar to seeds)
Step-Level Sparse Autoencoder for Reasoning Process Interpretation

Paper • 2603.03031 • Published Mar 3

Note recommended (similar to seeds)
TRACER: Trace-Based Adaptive Cost-Efficient Routing for LLM Classification

Paper • 2604.14531 • Published Apr 16 • 9

Note keyword: LLM user persona representation mechanistic interpretability
Silencing the Guardrails: Inference-Time Jailbreaking via Dynamic Contextual Representation Ablation

Paper • 2604.07835 • Published Apr 9

Note recommended (similar to seeds)
RAGognizer: Hallucination-Aware Fine-Tuning via Detection Head Integration

Paper • 2604.15945 • Published Apr 17 • 1

Note recommended (similar to seeds)
How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

Paper • 2603.02578 • Published Mar 3 • 25

Note recommended (similar to seeds)
DySCO: Dynamic Attention-Scaling Decoding for Long-Context Language Models

Paper • 2602.22175 • Published Apr 16 • 1

Note recommended (similar to seeds)
Closing the Confidence-Faithfulness Gap in Large Language Models

Paper • 2603.25052 • Published Apr 1

Note recommended (similar to seeds)
Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models

Paper • 2604.01404 • Published Apr 1 • 5

Note recommended (similar to seeds)
Demystifying When Pruning Works via Representation Hierarchies

Paper • 2603.24652 • Published Apr 6 • 20

Note recommended (similar to seeds)
Therefore I am. I Think

Paper • 2604.01202 • Published Apr 2 • 33

Note recommended (similar to seeds)
How Large Language Models Balance Internal Knowledge with User and Document Assertions

Paper • 2604.22193 • Published Apr 24

Note recommended (similar to seeds)
Compliance versus Sensibility: On the Reasoning Controllability in Large Language Models

Paper • 2604.27251 • Published Apr 29 • 10

Note recommended (similar to seeds)
MASCing: Configurable Mixture-of-Experts Behavior via Activation Steering Masks

Paper • 2604.27818 • Published Apr 30 • 5

Note recommended (similar to seeds)
Predicting Where Steering Vectors Succeed

Paper • 2604.15557 • Published Apr 16 • 1

Note recommended (similar to seeds)
The Cylindrical Representation Hypothesis for Language Model Steering

Paper • 2605.01844 • Published May 3 • 2

Note recommended (similar to seeds)
MemORAI: Memory Organization and Retrieval via Adaptive Graph Intelligence for LLM Conversational Agents

Paper • 2605.01386 • Published May 2 • 1

Note keyword: LLM user persona representation mechanistic interpretability
CausalDetox: Causal Head Selection and Intervention for Language Model Detoxification

Paper • 2604.14602 • Published Apr 16

Note recommended (similar to seeds)
Towards Understanding the Robustness of Sparse Autoencoders

Paper • 2604.18756 • Published Apr 20 • 12

Note recommended (similar to seeds)