清華新聞網(wǎng)1月29日電 1月24日,由中國(guó)人工智能學(xué)會(huì)主辦、清華大學(xué)互聯(lián)網(wǎng)司法研究院協(xié)辦的2026年中國(guó)司法人工智能大會(huì)(CJAI2026)在上海舉行。會(huì)上,清華大學(xué)計(jì)算機(jī)系發(fā)布了法律大模型LegalOne-R1,該模型由清華大學(xué)計(jì)算機(jī)系、清華大學(xué)互聯(lián)網(wǎng)司法研究院自主研發(fā)。

LegalOne-R1法律大模型發(fā)布現(xiàn)場(chǎng)
清華大學(xué)計(jì)算機(jī)系主任尹霞,中國(guó)法學(xué)會(huì)副會(huì)長(zhǎng)、西南政法大學(xué)校長(zhǎng)林維,上海市經(jīng)濟(jì)與信息化工作黨委副書(shū)記、市經(jīng)信委主任湯文侃,上海市司法局局長(zhǎng)顧全,上海儀電(集團(tuán))有限公司副總裁劉山泉等共同見(jiàn)證模型的發(fā)布。
發(fā)布會(huì)上,清華大學(xué)互聯(lián)網(wǎng)司法研究院院長(zhǎng)、計(jì)算機(jī)系教授劉奕群介紹了模型的研發(fā)情況與創(chuàng)新價(jià)值。
LegalOne-R1定位為法律場(chǎng)景的高性能推理模型。在訓(xùn)練范式上,通過(guò)中端訓(xùn)練、指令微調(diào)和強(qiáng)化學(xué)習(xí)三個(gè)階段的訓(xùn)練,分別實(shí)現(xiàn)海量知識(shí)的注入、專(zhuān)業(yè)工作流的模擬,最終實(shí)現(xiàn)法律思維的涌現(xiàn),形成面向真實(shí)業(yè)務(wù)的端到端推理閉環(huán),力求在法律條文記憶、概念辨析、多跳推理、裁判邏輯鏈條等關(guān)鍵任務(wù)上“更穩(wěn)、更準(zhǔn)、更可用”。

模型訓(xùn)練范式
中端訓(xùn)練階段引入PAS動(dòng)態(tài)采樣、錨點(diǎn)數(shù)據(jù)策略等方法,在進(jìn)行大規(guī)模法律知識(shí)注入的同時(shí),盡可能實(shí)現(xiàn)“專(zhuān)業(yè)能力快速提升、通用能力基本不降”的訓(xùn)練效果。

中端訓(xùn)練階段
后端訓(xùn)練階段結(jié)合有監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí)思路,利用大量司法數(shù)據(jù)進(jìn)行高質(zhì)量數(shù)據(jù)合成,將法律文本背后真實(shí)的法官思維推理鏈條拆解為可學(xué)習(xí)任務(wù),并設(shè)置不同難度的法律任務(wù),持續(xù)提升模型的推理與決策能力。

后端訓(xùn)練階段
在公開(kāi)評(píng)測(cè)集合上,LegalOne-R1-8B在法律專(zhuān)業(yè)能力上表現(xiàn)突出。在LexEval、LawBench、JecQA等評(píng)測(cè)集上,LegalOne-R1-8B的整體表現(xiàn)對(duì)標(biāo)參數(shù)規(guī)模顯著更大的通用模型(如DeepSeek-R1、GPT-5等);在法律概念理解、法條記憶、多跳推理等關(guān)鍵任務(wù)上達(dá)到當(dāng)前開(kāi)源模型的領(lǐng)先水平。LegalOne-R1“小參數(shù)、強(qiáng)推理”的特性將顯著降低司法機(jī)關(guān)與法律科技企業(yè)應(yīng)用法律大模型的門(mén)檻與算力成本:在1.7B、4B、8B等不同尺寸模型上完成系統(tǒng)評(píng)測(cè)后,LegalOne-R1以8B量級(jí)即可逼近更大規(guī)模通用模型的法律專(zhuān)業(yè)能力上限,為更廣泛的本地化部署與行業(yè)集成打開(kāi)空間。
模型參數(shù)已于1月23日在國(guó)內(nèi)外開(kāi)源平臺(tái)公開(kāi)發(fā)布,后續(xù)將陸續(xù)發(fā)布技術(shù)報(bào)告與應(yīng)用指南,為司法機(jī)關(guān)和法律科技企業(yè)提供更體系化的技術(shù)支持與落地參考。
供稿:計(jì)算機(jī)系
編輯:劉芳芳
審核:郭玲