2025-10-27 22:12:46
在實體經(jīng)濟(jì)與數(shù)字經(jīng)濟(jì)日益融合的背景下,企業(yè)積極擁抱大模型,但金融行業(yè)因其特殊性,通用大模型難以滿足需求。騰訊云副總裁答治茜認(rèn)為,“大模型+企業(yè)知識庫”是AI落地最佳路徑,知識庫是企業(yè)的基礎(chǔ)設(shè)施,金融行業(yè)對“大模型+知識庫”安全性、準(zhǔn)確性要求高,更關(guān)注員工知識沉淀。他同時還分享了避免大模型“杜撰”的方法。
每經(jīng)記者|潘婷 每經(jīng)編輯|陳旭
在實體經(jīng)濟(jì)和數(shù)字經(jīng)濟(jì)日益深度融合的大背景下,越來越多企業(yè)正積極擁抱大模型。不過,對于安全性、準(zhǔn)確性要求極高的金融行業(yè)來說,通用大模型往往無法滿足其需求。
“在實際落地過程中,‘大模型+企業(yè)知識庫’成為AI落地的最佳路徑?!苯?,騰訊云副總裁答治茜在接受《每日經(jīng)濟(jì)新聞》(以下簡稱NBD)記者專訪時坦言,金融機(jī)構(gòu)普遍面臨著知識孤島化、非結(jié)構(gòu)化數(shù)據(jù)海量、合規(guī)成本高企等知識管理的困境。
如何破解金融行業(yè)知識管理困境?金融行業(yè)對“大模型+知識庫”的關(guān)注點呈現(xiàn)怎樣的特點?如何看待大模型落地過程中出現(xiàn)的“杜撰”“錯配”等現(xiàn)象?圍繞這一系列話題,答治茜為記者進(jìn)行了詳細(xì)的解答。
當(dāng)前,大模型技術(shù)正惠及千行百業(yè),金融行業(yè)也在探索符合金融規(guī)律的AI(人工智能)知識庫建設(shè)路徑。AI知識庫作為連接數(shù)據(jù)、算法與場景的核心樞紐,是金融機(jī)構(gòu)實現(xiàn)“從技術(shù)到價值”轉(zhuǎn)化的關(guān)鍵抓手。
NBD:大模型時代,企業(yè)的“知識庫”扮演了什么角色?金融領(lǐng)域?qū)倌P秃屯ㄓ么竽P陀惺裁床顒e?

答治茜 圖片來源:受訪者
答治茜:在大模型時代下,我們認(rèn)為知識庫是企業(yè)的一種基礎(chǔ)設(shè)施。大模型是“大腦”,知識庫是“課本”,大腦智力再高,如果沒有學(xué)習(xí)過相關(guān)的知識,也無法很好地解決問題。
“通用大模型+專業(yè)領(lǐng)域知識庫”的研發(fā)類似“大腦+課本”模式。首先,需要投入巨大資源訓(xùn)練一個“萬事通”基座模型,或者直接采用市面上已有的效果最優(yōu)的模型,使其具備強大的語言理解、邏輯推理和代碼能力。然后,通過RAG(Retrieval-augmented Generation檢索增強生成)技術(shù),為這個“通才”配備一個龐大的、實時更新的金融知識庫,如行業(yè)研報、公司公告、實時新聞、風(fēng)控規(guī)則等。這種模式的優(yōu)勢是靈活性高、迭代快、成本相對可控。
而“金融領(lǐng)域?qū)倌P汀钡难邪l(fā)類似“科班出身”模式,從模型訓(xùn)練的第一天起,就使用海量且高質(zhì)量的金融領(lǐng)域私有數(shù)據(jù)進(jìn)行從零開始的預(yù)訓(xùn)練,讓模型從“基因”里就深刻理解金融術(shù)語、市場邏輯和專業(yè)范式。
對銀行、證券、保險等企業(yè)的從業(yè)者而言,企業(yè)知識庫早已不是簡單的文檔管理系統(tǒng),而是承載著風(fēng)險管控、合規(guī)審查、客戶服務(wù)等核心職能的“智能大腦”。
NBD:金融行業(yè)對“大模型+知識庫”的關(guān)注點呈現(xiàn)怎樣的特點?
答治茜:首先,金融行業(yè)對于知識庫安全與合規(guī)的要求更高。
由于金融行業(yè)監(jiān)管的特殊性,數(shù)據(jù)安全、監(jiān)管要求、信創(chuàng)適配等成為數(shù)字化建設(shè)底線。所以,為了更好滿足金融企業(yè)的需求,我們AI知識庫建設(shè)需要有更專業(yè)化的能力,比如精細(xì)化的多級權(quán)限管理體系、防泄露的頁面水印、嚴(yán)謹(jǐn)?shù)膶徲嬆芰蛢?nèi)容風(fēng)控體系等。
其次,金融行業(yè)對知識問答準(zhǔn)確性和嚴(yán)謹(jǐn)性的要求極高。
金融是非常嚴(yán)謹(jǐn)?shù)男袠I(yè),員工每天都在跟數(shù)字和知識打交道,所以知識內(nèi)容非常豐富,也很復(fù)雜,而且大家對于知識庫的期待很高,如希望多表格數(shù)據(jù)的計算、財報里多模態(tài)數(shù)據(jù)的解讀、銀行理財產(chǎn)品推薦等等,這對我們提出很大的挑戰(zhàn)。為此,我們專門在AI出圖、表格計算、知識溯源等方面下了很多功夫,并取得了階段性突破。
再次,金融行業(yè)更關(guān)注員工個人知識的沉淀。在與銀行、資管企業(yè)溝通過程中,我們發(fā)現(xiàn)很多金融企業(yè)非常希望員工個人的經(jīng)驗知識能沉淀下來,把個人經(jīng)驗變成企業(yè)知識。另外,我們發(fā)現(xiàn)很多金融企業(yè)員工日常需要的知識內(nèi)容也是有差異的,所以“個人知識庫”的概念今年被廣泛關(guān)注,我們在知識庫中設(shè)計了允許員工個人創(chuàng)建知識庫空間的功能,同時打通微信、騰訊文檔、企業(yè)微信等。
NBD:數(shù)據(jù)安全是企業(yè)發(fā)展過程中非常重要的環(huán)節(jié),對于金融企業(yè)來說尤其如此,您如何看待數(shù)據(jù)安全問題?
答治茜:金融行業(yè)對于監(jiān)管、數(shù)據(jù)運營等有非常高的數(shù)據(jù)安全和隱私保護(hù)的要求。我們要從兩個方面思考:
一是技術(shù)和產(chǎn)品層面,從應(yīng)用到數(shù)據(jù)、算力等所有的基礎(chǔ)設(shè)施,要實現(xiàn)私有化部署和全鏈路的安全。
另一個層面是運營層面,綜合考慮管理和技術(shù)。比如說金融機(jī)構(gòu)內(nèi)部某團(tuán)隊有兩三百人時,內(nèi)部如何協(xié)同、如何按層級劃分權(quán)限,哪些信息能讓哪些人看到,這就是管理要求,要滿足多級的授權(quán)管理。
在使用AI助手咨詢某個問題時,經(jīng)常得到錯誤的回復(fù),這種現(xiàn)象在AI圈被稱為“幻覺”,“幻覺”問題困擾著所有使用大語言模型的人。
NBD:個人使用大模型問答的時候會出現(xiàn)一些杜撰錯誤。如何看待大模型落地過程中出現(xiàn)的“杜撰”“錯配”等問題?
答治茜:ChatGPT出來后,我們就在思考大模型時代下行業(yè)會有什么樣的變化。2024年開始,樂享就轉(zhuǎn)型聚焦做AI知識庫,目前在產(chǎn)品功能、問答準(zhǔn)確性上應(yīng)該是比較領(lǐng)先的。
當(dāng)前大模型“杜撰”的情況還比較普遍,我認(rèn)為破解的關(guān)鍵在于三方面:答案模糊的時候拒答不亂說、輸出能有效溯源、企業(yè)內(nèi)部知識實現(xiàn)有效治理(比如有效性和及時更新等)。考慮到樂享定位為企業(yè)級知識庫,我們做了非常多的工作去提高準(zhǔn)確性。主要是以下幾方面:
第一,對文檔、知識進(jìn)行理解。我們自研OCR(Optical Character Recognition,光學(xué)字符識別)大模型,對復(fù)雜的圖文混排文檔解析準(zhǔn)確率提升30%以上。
第二,理解后按照一定的規(guī)則對文檔、知識進(jìn)行切片存儲。我們自研業(yè)界首個基于語義切分的模型,保障切分片段語義的完整性。
第三,當(dāng)用戶通過AI助手來問答時,我們會結(jié)合上下文對用戶的問題進(jìn)行理解后并改寫,從而提升檢索精度。
第四,基于改寫后的用戶問題,使用向量檢索和關(guān)鍵詞檢索的混合檢索模式,找到最相關(guān)的內(nèi)容。
第五,上一步可能檢索到大量內(nèi)容,但并非所有內(nèi)容都與問題緊密相關(guān),因此需要對這些內(nèi)容進(jìn)行重新排序與過濾。
第六,基于重排后的內(nèi)容調(diào)用大模型生成最終的答案。
經(jīng)過以上程序,目前我們的準(zhǔn)確率超過92%,我們會持續(xù)投入精力去提升準(zhǔn)確率。
封面圖片來源:受訪者
如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP