Evaluation Framework

2 papers across 2 sessions

Poster Session 2

Wednesday, December 3, 2025 · 4:30 PM → 7:30 PM

ClinBench: A Standardized Multi-Domain Framework for Evaluating Large Language Models in Clinical Information Extraction

#1709 · Ismael Villanueva Miranda, Zifan Gu, Donghan Yang, Kuroush Nezafati, Jingwei Huang, Peifeng Ruan, Xiaowei Zhan, Guanghua Xiao, Yang Xie

ClinBench is an open-source, multi-model, multi-domain framework for rigorously benchmarking large language models on clinical information-extraction tasks.

Poster Session 4

1 paper

Thursday, December 4, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

Unveiling the Learning Mind of Language Models: A Cognitive Framework and Empirical Study

#1905 · Zhengyu Hu, Jianxun Lian, Zheyuan Xiao, Seraphina Zhang, Tianfu Wang, Nicholas Jing Yuan, Xing Xie, Hui Xiong

We propose a cognitive-science-inspired framework and benchmark to systematically evaluate learning abilities of large language models.