研究 · FaceMind Research

ACL 2026 Main Conference arXiv:2604.02176

FaceMind Corporation · The Chinese University of Hong Kong

虽然文本频率已被验证与人类阅读速度等认知活动密切相关，其与大语言模型的关系却鲜被研究。我们首创"文本频率定律"，并构建了 TFL / TFD / CTFT / TFPD 四大频率感知技术栈，让 LLM 在提问、训练与系统设计上全面表现更好。

查看详情 📄 PDF 📘 路线图

PUBLISHED IN

ACL 2026

Main Conference · 2026

核心贡献 首创文本频率定律（TFL），及四大频率感知技术栈，撬动千亿级大模型经济。

Findings of EMNLP 2025 contamination · evaluation

FaceMind Corporation · Zhejiang University · University of Zurich · The Chinese University of Hong Kong · Westlake University

数据污染问题在 LLM 开发中几乎不可避免，训练数据常无意中包含评测基准，使得公平评测变得困难。我们不去构造无污染数据集（极为困难），而是提出 LNE-Blocking 框架：通过"污染检测 + 干扰操作"两部分，在可能泄露的数据集上恢复模型在被污染之前的真实表现。

📄 PDF 全文

PUBLISHED IN

EMNLP 2025

Findings · 2025

核心贡献 首个面向"数据污染缓解评测"的高效框架，让被污染的 LLM 也能被公平评测。

Findings of NAACL 2024 contamination · paraphrase

FaceMind Corporation · Shanghai Jiao Tong University · Tsinghua University · University of Edinburgh

在 LLM 激烈竞争、不断刷新榜单成绩的时代，数据污染让真实评估变得困难。我们提出 Clean-Eval：使用神经模型对受污染的数据进行复述与回译，得到语义相同但表达不同的候选集，从而以更"干净"的方式评测 LLM 的真实能力。

📄 PDF 全文

PUBLISHED IN

NAACL 2024

Findings · 2024

核心贡献 通过复述与回译生成等价候选，缓解评测数据污染，被广泛引用的早期工作。

研究中心
LLM 前沿·顶会发表