圖計算是理解世界的新方式
作者 | 陳文光
文章來源 | 螞蟻技術AntTech
導讀:哪種技術可以更精準建模人腦?近日,螞蟻圖計算技術負責人陳文光博士受邀參加了2022極客公園創(chuàng)新大會并發(fā)表主旨演講。陳文光認為,圖計算以其豐富的表達能力,為處理復雜關系提供了一種全新的建模方式,也為更深刻地理解世界提供了一種有效工具。
以下為陳文光分享內(nèi)容。
1.什么是圖
我們今天介紹的圖計算,它既不是圖像的圖,也不是圖形的圖,它是數(shù)學中的一個門類叫做圖論,圖計算是圖論的圖。我們在屏幕上可以看到左右有兩個圖,它表示的是事物和它們的關系。我們用一種形式把它抽象出來,把這樣的一種形式叫做圖。
左邊這個例子,我們把它叫做一種簡單的直接套現(xiàn)模式。一個人辦了一張信用卡,他其實不是真的想去還款,他找了一個商店,這個商店提供一個非法的服務就是信用卡套現(xiàn)。那么他通過信用卡付款,把錢轉到這個商店里面,這個圖上面顯示的是2020元錢,他把錢給到這個商店。這個商店直接就把其中的2000元錢返回給付款的人,就完成了一次套現(xiàn)。這樣的一種套現(xiàn)是非常簡單的,我們可以對這個個體,對這個商店的收款記錄和付款記錄做分析,就可以識別出套現(xiàn)行為。
但右邊這張圖就復雜了很多。我們可以看到,右上角的這個人,他還是通過信用卡付款,付了2020元錢給了商店。這個時候,商店沒有直接把錢退給付款的人,他是由一個個人付了2000元錢給到一個第三人。這個個人和商店之間,我們可以通過一些分析發(fā)現(xiàn),他實際上擁有這個商店,所以我們把這種關系叫做同人關系。就是店和人雖然看起來是不同的實體,但其實他們之間有一個非常強的關聯(lián)。那么他付款給的第三人也不是最開始刷卡的人,而是刷卡人的一個親友,店主付款到了刷卡人親友的銀行卡上。那這樣的一個套現(xiàn)模式就比左邊的復雜很多了。我們把這種模式叫做多跳閉環(huán)模式。
要分析這種多跳閉環(huán)模式,就需要復雜的關聯(lián)關系,而不能只對這個個體進行分析。但是大家可能會說,你畫的這張圖很簡單呀,我一眼就能看出來,這有一個環(huán),這個壞人我很快就能抓住。
那我們來看看下面的圖。下面的圖中因為有很多其它交易和關系,就沒那么容易看出來了。我剛才講到,右邊這張圖可能會有千億條甚至萬億條邊,怎么很快地在這個圖上把環(huán)找出來,這就對整個分析技術,復雜的關聯(lián)分析技術提出了非常高的要求,性能成為了關鍵。
如果我們用傳統(tǒng)的關系數(shù)據(jù)庫的方法去分析的話,那就可能非常非常慢。而圖計算技術恰恰就是處理這種大規(guī)模圖上復雜關聯(lián)關系的非常有用的工具,這也就是說我們?yōu)槭裁葱枰眠@個圖計算技術。
我們剛才舉的是金融方面的例子,但是圖計算的用途遠遠不限于金融行業(yè)。在互聯(lián)網(wǎng)、工業(yè)領域、醫(yī)藥、公共衛(wèi)生、公共安全等領域都有很多的應用。
舉一個互聯(lián)網(wǎng)的例子,大家每天都會用搜索引擎,大家知道Google最開始做搜索引擎的時候,它是怎么和其它搜索引擎產(chǎn)生區(qū)別的嗎?為什么它的搜索質量更好呢?它其實主要做了一件事情,叫做網(wǎng)頁排序。Google的兩個創(chuàng)始人提出了一個算法,叫做PageRank。這個算法的核心就是把互聯(lián)網(wǎng)上每一個網(wǎng)頁抽象成一個點。然后網(wǎng)頁上很多超鏈接又鏈接到其他的網(wǎng)頁,就構成了這個點上的邊。在這樣一個大圖上面,有這些點和他們之間的邊的關系的時候,我們?nèi)绾未_定哪些網(wǎng)頁是比另外一些網(wǎng)頁重要,大家可以想象,這也是個非常非常大的圖。
另外比如說公共安全,公共衛(wèi)生方面,大家可能最近都有感同身受就是有一個詞叫做“時空伴隨者”,其實刻畫的就是我們兩個人或者一些人在同一段時間內(nèi),在一個空間里面,發(fā)生了這樣的一些交互,那么這也是圖計算可以有用武之地的地方。
3.圖計算為理解世界提供了有效工具
圖其實是多才多藝的,它在非常多的領域都可以有應用。因為它是對復雜關系的一種新的建模方式,為更深刻地理解這個世界提供了一種有效的工具。
像社交網(wǎng)絡、電網(wǎng),大家可能都已經(jīng)習以為常了,大家可能注意到我把大腦放到了這張屏幕上,其實大腦也可以用圖的模式來進行建模。
我們建模大腦的時候,用神經(jīng)元作為圖上的點。而神經(jīng)元之間是靠的是突觸來連接,也就是說,我們可以把大腦也抽象為一個由很多的點和很多的邊組成的一個巨大的圖,大家可以想象一下這個大腦的圖有多大嗎?
我們大概有一百億的神經(jīng)元,然后每個神經(jīng)元的連接,就是這個突觸數(shù)大概是1000-10000。所以大家可以想象,我們大概會有十萬億到一百萬億的邊這么大的圖。我們用圖來建模世界,在大腦里面把世界建模成一個圖,然后大腦本身也可以建模成一個圖,大家覺得是不是一個非常有趣的一種巧合呢。
4.現(xiàn)在布局高性能圖計算恰逢其時
我們剛才介紹了圖計算的各種用處,它可以用來建模世界,非常的有趣。那現(xiàn)在我們的圖計算,我們真正的分析工具發(fā)展到了什么樣的階段呢?
國際知名咨詢公司Gartner,每年都會發(fā)布各種技術趨勢的報告。在2021年的數(shù)據(jù)與分析的這個趨勢報告中,Gartner提到了“Graph relates everything”。我覺得這是一個非常有趣的雙關。就是圖連接萬物,一方面表示了圖的本質,就是把各種東西都連起來,另外也表達了圖會在數(shù)據(jù)分析的各個領域得到廣泛應用。
下面這張圖底下是一個數(shù)據(jù)庫門戶網(wǎng)站,叫做db-engines,它會收集各種各樣的數(shù)據(jù)庫信息。然后中間這張圖,叫做數(shù)據(jù)庫的熱度信息,它會看各種類型的數(shù)據(jù)庫在媒體上、網(wǎng)頁上出現(xiàn)的次數(shù),把這個東西統(tǒng)計出來,作為熱度。我們可以看到最高的曲線就是圖數(shù)據(jù)庫的。也就是說,在過去八年間(2013-2021),這個圖數(shù)據(jù)庫的增長曲線是遠遠高于其他品類數(shù)據(jù)庫的。圖數(shù)據(jù)庫的應用主要是面向企業(yè)的,比如大的公司、政府等。在這些人的關注中,圖數(shù)據(jù)庫其實已經(jīng)是一個非常有熱度的,非常受關注的一個領域了。
中國工程院院士、清華大學計算機系鄭緯民教授,今年在人民日報上發(fā)表了一篇文章,其中提到布局圖計算技術恰逢其時。抓住了圖計算技術,就抓住了人工智能,大數(shù)據(jù)和高性能計算產(chǎn)業(yè)的牛鼻子,這個影響是不可低估的。
5.螞蟻圖計算技術保持多項世界紀錄
大家可能也會關心目前整個世界圖計算發(fā)展水平是什么樣的。我們國家的發(fā)展水平是什么樣的。這會不會是我們又一個被“卡脖子”的地方。我非常高興地跟大家分享,螞蟻集團圖相關技術為代表的中國圖計算技術,在全世界圖計算技術中,不僅僅技術上領先,在應用上也是非常領先的,這是一個非常好的事情。
剛才我們提到分析欺詐這個事情,從個體的分析要變成復雜的關聯(lián)分析,實際上我們還發(fā)現(xiàn)了一些其他的趨勢。比如說,欺詐行為在過去很多時候是一種個體的欺詐,就是一些壞人個體在做這個事情,但是現(xiàn)在日益的演化成為了有組織的團伙欺詐的行為。
要有效地分析這樣的欺詐行為,實際上對抗的工具也需要升級。從簡單的靜態(tài)分析到能夠動態(tài)分析。當信息不斷在變的時候,不停地有新的交易來的時候,我們能夠在變化的數(shù)據(jù)中快速得出結果。另外,我們可能希望從事后的檢查發(fā)展到預測這樣的水平,也就是說,當欺詐或者一個壞的行為還沒有發(fā)生的時候,我們就把黑名單識別出來,不讓壞事發(fā)生。
螞蟻集團有非常大的圖規(guī)模,我們處理的最大的圖邊數(shù)可能達到千億,甚至萬億,這在業(yè)界是非常非常大的規(guī)模,而且真正在線上使用的,我們是世界上非常領先的。
更挑戰(zhàn)的是,這樣規(guī)模的圖,它還在非常高速地變化,吞吐率可能達到每秒鐘100萬次。也就是萬億條邊的圖,每秒鐘可能要改100萬次。這樣巨大且飛速變化的圖面前,我們對查詢的延遲要求還很高。因為大家支付時,肯定希望馬上就成功。不希望后臺因為要分析這筆交易是不是合法,為了要抓壞人,讓我們好人的交易也受到很大的延遲。所以留給我們分析的時間很短。雖然我們要在這么大的、變化這么快的圖上做復雜的算法,但留給我們的時間仍然是非常非常短的,這樣是為了更好的用戶體驗。
所有這些東西合起來以后,對我們整體的圖計算技術提出了非常非常高的要求。在螞蟻圖團隊的努力下,我們還是非常盡量去滿足各種業(yè)務要求。我們提出了一種全棧的技術解決方案TuGraph,目前在螞蟻已經(jīng)部署了非常多的集群,在部署規(guī)模上也處于世界領先水平。
螞蟻圖計算技術在國際標準的圖數(shù)據(jù)庫LDBC-SNB測試上,是冠軍保持者,在國際上處于領先。這個測試由一個國際委員會提出測試標準,由他們委托第三方公司來執(zhí)行測試,所以這個測試是非常標準化的,非常可信的。那么我們比第二名領先了多少呢?我們是第二名成績的7.6倍,就是跑同樣多的事情我們可以比他快差不多7倍。我們有信心地說,我們的技術上是世界領先的,這也是重要的原因。這個成果也獲得了2021“世界互聯(lián)網(wǎng)領先科技成果”獎,這個獎項全國每年只有約十項,是非常難得的一個事情。并且這個成果是由一個國際專家委員會評出,就表明我們這個系統(tǒng)它不僅在評測上獲得了很好的成績,實際上也獲得了業(yè)界,包括學術界專家的一個認可。
6.圖計算未來發(fā)展方向:標準化、更高性能、圖智能
我們都知道技術其實是持續(xù)發(fā)展的,圖計算相關技術實際上還有很大發(fā)展空間。如果和成熟的關系數(shù)據(jù)庫等等相比,它還在很早期的一個階段。我認為未來有三個重要的發(fā)展方向。
第一個是標準化。現(xiàn)在不同的圖計算系統(tǒng)廠商都會提供自己的編程接口給用戶,這個在初期是難以避免的。但這會造成使用了一個圖計算系統(tǒng)的用戶,很難遷移到另外一個系統(tǒng)上去。這個不標準化的事情,對整個產(chǎn)業(yè)的發(fā)展實際上是目前比較大的瓶頸之一。我們也非常積極地參與推動國際標準化組織(ISO)對圖的查詢語言GQL的標準化工作,并提出了一些相關提案。
第二個是性能。我們剛才提到,其實在很多的業(yè)務場景里面,對數(shù)據(jù)庫,對圖計算相關性能要求非常高。而現(xiàn)有的系統(tǒng)我們雖然取得了一定的成果,但是離真正的用戶需求,比如說,我們可能希望在異常復雜的查詢上仍然能夠非??斓胤祷亟Y果,這個其實目前是做不到的。目前相對來說還處于比較簡單的查詢可以很快返回的階段。然后對于相對復雜的查詢,當前采用的是一種叫做近線的方式,不是馬上返回,而是延遲一段時間返回,可能沒有辦法實時阻止一筆壞的交易,要壞交易發(fā)生了一段時間以后才發(fā)現(xiàn),再想辦法去阻止。所以我們希望圖計算性能上進一步提高。
第三個就是,圖是一種關聯(lián)描述世界的方式。今天其實有很多相關智能的討論,人工智能顯然也是目前非常非常重要的方向,那么圖和人工智能的結合,比如大家可能聽說過圖神經(jīng)網(wǎng)絡,這種形式我覺得也是圖計算日后發(fā)展的非常重要的趨勢。
結語:技術推動世界變化,要敢于從基礎層面來突破
最后我就稍微分享我對技術研發(fā)的一點點感悟。從我2011年開始做圖計算,到現(xiàn)在已經(jīng)有十年的時間了。我的感覺是說技術如果真正的想要去推動世界的變化,去推動世界的進步,一定要敢于從基礎的層面來進行突破,然后在實際場景的應用中進行不斷地錘煉,這樣才能做到世界領先,而且我們要的不僅僅是技術領先,應用也要領先。我覺得非常高興的是,中國的產(chǎn)業(yè)界目前已經(jīng)完全能夠提供這樣的可能性,提供了這樣的機會。我也非常期待能夠看到有更多的好技術來推動世界的變化,推動世界的進步。