當(dāng)前位置：人工智能實驗室> 人工智能動態(tài) > CSDN 創(chuàng)始人蔣濤對話北大謝濤：AI 正在變革軟件工程

CSDN 創(chuàng)始人蔣濤對話北大謝濤：AI 正在變革軟件工程
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-05-29 19:06:59 瀏覽：5471次

導(dǎo)讀：【CSDN 編者按】生成式 AI 的爆發(fā)已經(jīng)開始改變很多行業(yè)的工作方式，但對于軟件工程來說，轉(zhuǎn)型早就開始。一位頂級華人學(xué)者在一篇16年前的經(jīng)典論文中就已嘗試用智能化的方式解決特定的軟件工程領(lǐng)域的問題，在之后的十幾年，這篇智能化軟件開發(fā)領(lǐng)域的早期經(jīng)典代...

【CSDN 編者按】生成式 AI 的爆發(fā)已經(jīng)開始改變很多行業(yè)的工作方式，但對于軟件工程來說，轉(zhuǎn)型早就開始。一位頂級華人學(xué)者在一篇16年前的經(jīng)典論文中就已嘗試用智能化的方式解決特定的軟件工程領(lǐng)域的問題，在之后的十幾年，這篇智能化軟件開發(fā)領(lǐng)域的早期經(jīng)典代表作引領(lǐng)著無數(shù)技術(shù)人在軟件工程領(lǐng)域開疆拓土。

對話嘉賓：

謝濤北京大學(xué)講席教授

北京大學(xué)講席教授、計算機學(xué)院軟件科學(xué)與工程系主任，歐洲科學(xué)院外籍院士、國際計算機學(xué)會（ACM）會士、電氣電子工程師學(xué)會（IEEE）會士、美國科學(xué)促進(jìn)會（AAAS）會士、中國計算機學(xué)會（CCF）會士。主要研究領(lǐng)域包括軟件工程，系統(tǒng)軟件，軟件安全，可信人工智能。

蔣濤 CSDN創(chuàng)始人&董事長

25 年軟件開發(fā)經(jīng)驗，曾領(lǐng)導(dǎo)開發(fā)了巨人手寫電腦、金山詞霸和超級解霸。

1999 年創(chuàng)辦 CSDN（China Software Developer Network）。CSDN 是專業(yè)的中文 IT 技術(shù)社區(qū)，目前注冊會員超過 4300 萬，涵蓋 90% 國內(nèi) IT 開發(fā)從業(yè)人員。

2011 年創(chuàng)辦極客幫創(chuàng)投，作為懂技術(shù)的投資人，先后投資了聚合數(shù)據(jù)、巨杉數(shù)據(jù)庫、傳智播客、樂動卓越（我叫 MT）、IT 桔子等 100 余家高科技創(chuàng)業(yè)公司。被投項目中 SequoiaDB 巨杉數(shù)據(jù)庫作為業(yè)界領(lǐng)先的金融級分布式關(guān)系型數(shù)據(jù)庫產(chǎn)品，連續(xù)兩年入選 Gartner 數(shù)據(jù)庫報告，傳智播客、檸檬微趣已于 2019 年、2017 年分別申報中小板和創(chuàng)業(yè)板上市，淘手游也被貴州省列為第一批科創(chuàng)板備案名單。

責(zé)編 | 何苗

出品 | CSDN（ID：CSDNnews）

2021 年，一篇發(fā)表于 ASE 2007 的經(jīng)典論文，讓 ASE 將「最有影響力論文」獎項頒給了北京大學(xué)講席教授謝濤和當(dāng)時的博士生 Suresh Thummalapenta。ASE 與 ICSE、ESEC/FSE 并列為軟件工程三大國際頂會，在ASE歷年最有影響力論文獎獲獎作者中，謝濤是首批華人作者。

這篇論文中，謝濤與學(xué)生提出用機器學(xué)習(xí)提高軟件研發(fā)效能的方法，將大規(guī)模的代碼搜索、機器學(xué)習(xí)和數(shù)據(jù)挖掘結(jié)合。這也讓他成為最早開展智能化軟件工程研究的學(xué)者之一。

海外求學(xué)與執(zhí)教的 14 年后，謝濤尋得契機回到北大任講席教授，繼續(xù)高水平科研工作。作為最早開展智能化軟件工程研究的學(xué)者之一，他對 AI 及其應(yīng)用的認(rèn)知深入底層，對于 AI 新秀 ChatGPT，他表示：“ChatGPT 是模式上的大進(jìn)步。它可以不停地對話，讓用戶把真正想要的東西表達(dá)清楚，僅僅是把需求搞清楚這一個點，就能讓 AI 的效果和可用性往前邁一大步。”他相信未來中國也能夠做出自己的 ChatGPT。

近兩三年在智能化軟件工程領(lǐng)域，大模型得到了極大關(guān)注。Copilot 的驚艷首發(fā)，讓大家看到大模型在代碼生成、代碼審查、代碼缺陷檢測等方面的巨大潛力。再加上 ChatGPT 的拿手交互式對話，AI 技術(shù)為基礎(chǔ)軟件的發(fā)展提供了哪些新的方向和機會？對國產(chǎn)基礎(chǔ)軟件行業(yè)的發(fā)展有著怎樣的展望？我們將從 CSDN 創(chuàng)始人&董事長蔣濤與北京大學(xué)講席教授謝濤的深度對話中為大家悉數(shù)呈現(xiàn)。

視頻內(nèi)容收錄于今日頭條科學(xué)頻道聯(lián)合中國計算機學(xué)會（CCF）推出的“這很科學(xué)”之《科學(xué)真言》系列視頻。

視頻地址：https://live.csdn.net/v/262912

對話實錄：

蔣濤：當(dāng)前人工智能自動生成代碼方面的發(fā)展?fàn)顩r如何？

謝濤：代碼自動生成就是把實現(xiàn)用戶所需功能的代碼自動生成出來。假設(shè)用戶需要一個快速排序算法的實現(xiàn)（給定的輸入是一個整型數(shù)組）。把這個需求以自然語言的方式給到代碼自動生成系統(tǒng)后，系統(tǒng)就可自動生成實現(xiàn)快速排序算法的代碼。這是一種比較常見形式。

除此之外還有其他的生成形式。還是以排序功能為例，此時給到代碼自動生成系統(tǒng)的是一個形式化需求規(guī)約，其表達(dá)給定輸入為任意整型數(shù)組，輸出為一個對其經(jīng)過排序后得到的數(shù)組。系統(tǒng)就自動生成實現(xiàn)排序功能的代碼，并不限定使用哪種排序算法。

如今代碼補全（也叫代碼續(xù)寫）是產(chǎn)業(yè)界軟件開發(fā)常用的一種工具輔助。類似于大家使用輸入法工具感受到的，打出前幾個字，后面工具就會自動提示下文。代碼補全是代碼自動生成當(dāng)前在產(chǎn)業(yè)界已經(jīng)落地的主要應(yīng)用場景之一。但從使用上，兩者有一些本質(zhì)區(qū)別。代碼自動生成可以在使用者讀不懂被生成的代碼或者不知道自己要寫什么樣代碼的情況下使用，而代碼補全通常要求使用者知道自己要敲什么代碼，AI 只是讓敲代碼更快些。

蔣濤：代碼自動生成已經(jīng)在基于人工智能的代碼補全的基礎(chǔ)上更進(jìn)一步。隨著微軟的 GitHub 發(fā)布 Copilot，各大公司也都推出代碼自動生成引擎，DeepMind 曾發(fā)布 AI 編程系統(tǒng) Alpha Code，但沒有引起太大反響，是因為該技術(shù)有一定局限性嗎？

謝濤：這里有好幾個局限性，也是科研攻關(guān)的重點。

要讓代碼自動生成在某個軟件企業(yè)內(nèi)部落地，可能需要針對該企業(yè)軟件開發(fā)的本地特點再學(xué)習(xí)、再訓(xùn)練，以便更好地提供定制化服務(wù)，要做好并不容易，不過我相信將來都可以解決。當(dāng)前用于代碼生成任務(wù)評估的常用數(shù)據(jù)集 HumanEval 是一個自包含的數(shù)據(jù)集，其中代碼通常沒有去調(diào)用第三方庫等。但在真實開發(fā)場景里，所寫的代碼很可能會去調(diào)用一些第三方庫或是自己寫的庫。如果要生成的代碼調(diào)用了企業(yè)內(nèi)部的庫，就可以通過上述的再學(xué)習(xí)、再訓(xùn)練去應(yīng)對，但要想效果好并不容易。

另外，所生成代碼的簡單性、可理解性目前也沒有很好地解決。如果能有機制去確認(rèn)所生成的代碼完全正確，而不用使用者去看它、改它，就能在使用過程中省下很多時間。除了人肉眼看代碼外，如何保障生成代碼完全正確？或許可以提供一些測試用例，但它不一定能完備，代碼僅僅是通過了測試用例也不能讓人放心。當(dāng)然，也可以提供形式化需求規(guī)約并使用定理證明來證明所生成代碼符合給定的規(guī)約，不過這么做需要較大的人力投入，并且對其支撐的工具也尚未成熟到能應(yīng)對較大規(guī)模、產(chǎn)業(yè)實踐中的代碼。

蔣濤：寫完代碼或生成出來的代碼能用 AI 判定其質(zhì)量嗎？

謝濤：產(chǎn)業(yè)界已經(jīng)開始做這樣的嘗試，例如基于大數(shù)據(jù)或 AI研發(fā)出一個自動代碼審查的工具。一些企業(yè)已經(jīng)部署了這類工具，以數(shù)據(jù)驅(qū)動的方式來去輔助人工代碼審查。除了代碼審查外，AI 也可以助力測試任務(wù)。不過這些仍然是開放性的問題，需要長期攻關(guān)才能讓落地效果足夠好。

蔣濤：人工智能越來越強，會不會把普通人的飯碗搶了？甚至把程序員自己的飯碗也搶了？哪一類的程序員可能受到威脅？

謝濤：寫代碼時思考、設(shè)計較少的程序員崗位會受到威脅，比如傳統(tǒng)意義上的“碼農(nóng)”。代碼自動生成在特定領(lǐng)域效果很好，比如面向終端用戶編程的一些領(lǐng)域。具體來說，BI 部門要緊張了，原先依賴于數(shù)據(jù)分析師根據(jù)數(shù)據(jù)分析需求去寫 SQL 語句、可視化腳本等，現(xiàn)在自然語言翻譯到 SQL 語句效果已經(jīng)做得很好。在各種軟件工程任務(wù)比如軟件測試上，將來測試數(shù)據(jù)生成、測試預(yù)言生成等都可以被 AI 去自動化，前提條件是有足夠多足夠高質(zhì)量的數(shù)據(jù)去喂給 AI。不過，研發(fā)基礎(chǔ)軟件等復(fù)雜軟件的軟件工程師應(yīng)該不用發(fā)愁，因為這些研發(fā)工作太復(fù)雜了，應(yīng)該不會受到 AI 的威脅。

蔣濤：人工智能不僅是程序員的幫手，還會干掉一部分人重復(fù)性的工作。一些數(shù)據(jù)分析的工作，可能會逐漸被機器人取代，研發(fā)基礎(chǔ)軟件的工程師則不必過于擔(dān)憂。什么是基礎(chǔ)軟件？國內(nèi)發(fā)展現(xiàn)狀如何？

謝濤：業(yè)界對基礎(chǔ)軟件的定義范圍不盡相同，但基本共識是包括操作系統(tǒng)、編程語言、編譯器、數(shù)據(jù)庫管理系統(tǒng)、辦公軟件以及瀏覽器在內(nèi)。廣義的基礎(chǔ)軟件還包括一些開發(fā)工具、測試運維工具等。辦公軟件因為太常用了，且在工作中處于關(guān)鍵位置，因此也成為了底座之一，現(xiàn)在被認(rèn)為是基礎(chǔ)軟件重要部分。此外，一些工業(yè)軟件支撐著工業(yè)應(yīng)用的底座，也被包含在特定行業(yè)的基礎(chǔ)軟件里。

國產(chǎn)基礎(chǔ)軟件有很多子領(lǐng)域存在卡脖子的情況，比如操作系統(tǒng)，廣義的工業(yè)軟件 MATLAB 等等。也許大家要問 Linux、Android 等很多操作系統(tǒng)都是開源，怎么就被卡脖子了？很大一部分原因在于生態(tài)上的限制，導(dǎo)致其話語權(quán)不在我方。

國產(chǎn)操作系統(tǒng)近幾十年發(fā)展良好，國家也一直在支持。但現(xiàn)在主流國產(chǎn)操作系統(tǒng)的“心”（內(nèi)核）還是 Linux，盡管我國程序員與企業(yè)在 Linux 內(nèi)核的貢獻(xiàn)比例很大，甚至國內(nèi)大廠華為對 Linux 內(nèi)核的貢獻(xiàn)如今位列第一，但是回到上述關(guān)鍵詞話語權(quán)，還是呈現(xiàn)貢獻(xiàn)者多但核心決策人員話語權(quán)少的狀況。但我國在大數(shù)據(jù)、 AI、云原生等相關(guān)的開源新興領(lǐng)域有一定話語權(quán)。中國新一代技術(shù)力量正迎頭趕上，企業(yè)的發(fā)展常常等不及其他人來引領(lǐng)，就自得投入并孕育出不錯的研發(fā)核心人才，也因此在新興領(lǐng)域有些建樹。

蔣濤：如何定義基礎(chǔ)軟件的核心人才？

謝濤：有這樣一個例子�；乇贝笾�，我曾在 UIUC（University of Illinois at Urbana-Champaign，縮寫為 UIUC）計算機系任教。該系有個 2005 年畢業(yè)的博士名叫 Chris Lattner，他的博士生導(dǎo)師 Vikram Adve 也是我的前同事，他們推出的 LLVM 構(gòu)架編譯器與 GCC 并列為三大編譯器之一。Chris Lattner 后來被稱為 LLVM 之父。他的導(dǎo)師告訴我， Chris 在讀博期間就研制了 LLVM 編譯器的基礎(chǔ)設(shè)施，畢業(yè)后他就打定主意要去產(chǎn)業(yè)界，并且展現(xiàn)了很強的能力，拿下很多 offer，最終進(jìn)入了蘋果。Chris 當(dāng)時的想法是：“誰允許和支持我繼續(xù)把 LLVM 發(fā)揚光大，我就去哪兒！”Apple 全力支持了此事，所以 LLVM 后面發(fā)展勢頭很好。這里我們可以看到基礎(chǔ)軟件核心人才身上的特點。

蔣濤：人工智能的應(yīng)用如今也非常廣泛，水能載舟亦能覆舟，AI 成為了一部分人的幫手，也成為了一些不法分子手里的利器。央視曾曝光詐騙集團(tuán)利用人工智能技術(shù)讓機器人打詐騙電話，撥出 1700 萬通電話，最后有 80 多萬人上當(dāng)，總計騙取 1.8 億，而被騙的人從電話里根本分辨不出是機器人的聲音。有沒有 AI 技術(shù)可以輔助識別機器人騷擾電話，保護(hù)普通群眾？

謝濤：大數(shù)據(jù)、AI技術(shù)越來越多被詐騙團(tuán)伙等犯罪分子利用，使廣大用戶受害的事件層出不窮，要對其進(jìn)行絕對防治是很難的。就像安全領(lǐng)域的攻和防的關(guān)系，我們只能通過提高詐騙門檻來一定程度去防治。目前 AI 技術(shù)已經(jīng)使得發(fā)動攻擊、詐騙的行動變得門檻很低，也能做出很逼真的機器人合成聲，以及非常逼真的交談內(nèi)容。對于普通大眾用戶來說確實挺難防這些 AI 詐騙的手段。

以我的親身經(jīng)歷為例分享一下防騙心得。有騙子曾以短信詢問我某個業(yè)內(nèi)同行的電話號碼。這種詢問途徑其實不太常見，一般人不會直接就發(fā)短信來詢問另一個人的電話號碼。我們可以認(rèn)真分析，如果一件事情所發(fā)生的途徑并不自然且不常見，那么很可能就會有問題，要多加小心。

蔣濤：現(xiàn)在高仿技術(shù)越來越強，Deep Fake 可以在視頻里換臉，高仿技術(shù)現(xiàn)在能做到什么樣的程度？怎么樣甄別高仿網(wǎng)站或者 App？

謝濤：仿冒的網(wǎng)站、App、郵箱、微信，詐騙短信、電話等，從照片內(nèi)容來看是防不勝防，詐騙分子會做得很逼真。普通用戶要學(xué)會看來源，看一些外圍的信息。比如說看網(wǎng)站的 URL 鏈接。有些電子郵件里面包含網(wǎng)站鏈接時，它字面顯示出來的鏈接和你復(fù)制粘貼到瀏覽器里的鏈接有可能是不一樣的。有一次我收。有一次一個郵件要求我重設(shè)某賬戶的密碼，由于我對軟件安全比較敏感，因此沒有直接點擊郵件內(nèi)的網(wǎng)址鏈接，而是復(fù)制粘貼這個鏈接至瀏覽器出來，這時就很快發(fā)現(xiàn)了網(wǎng)址有問題。因此，養(yǎng)成慎重打開鏈接的習(xí)慣很重要。

對于不懂 IT 的老年人，有一個針對移動應(yīng)用或網(wǎng)站老年人用戶的方向適老化改造，探索怎么樣才能讓移動應(yīng)用或網(wǎng)站等對老年人用戶更友好。例如，首先技術(shù)上要有防詐騙手段支撐，包括 UI 設(shè)計、報警提醒等措施。在使用 AI模型到這些場景的時候，參數(shù)要設(shè)置成更大程度去保護(hù)老年人用戶，因為他們被騙的成功概率更高。從老年人用戶自身的角度來看，接到一個電話要先看看來源是哪里，現(xiàn)在智能手機可自動標(biāo)注來源，老年人要注重去看這些細(xì)節(jié)，不要太輕信一些來源不明的信息或者是電話。