兩年AI研究經驗(教訓)總結,進來看看吧!

NO IMAGE
1 Star2 Stars3 Stars4 Stars5 Stars 給文章打分!
Loading...

摘要: 本文以過來人的身份將自身2年的研究經驗做了一下分享,希望本文對於即將開始從事人工智慧研究的朋友有所幫助。

人工智慧研究這個領域是有一定門檻的。對於初學者來說,一般通常的做法是直接購買一些熱門的書籍,比如“西瓜書”、“花書”、“xx天從入門到精通”、“xx天從入門到放棄”等等,但大多數書籍都是講的基礎知識,稍顯乏味和枯燥,此外內容太深奧,初學者可能看一段時間就想放棄了。本文以過來人的身份將自身2年的研究經驗毫無保留地分享給大家,希望對即將開始從事人工智慧研究的朋友有所幫助。

起步

找一個你隨時方便提問的人
剛進入公司時,常常會對一些基本問題猶豫不決,這些問題可能會暴露出自身缺乏專業知識。但是過了幾個月後,我的提問才慢慢感到自然,提問都是精心擬定的。在此之前,我會積累大量的問題,但現在只要遇到一個問題,我就會立馬提問,這樣不會造成問題積壓以至於越來越困惑。

尋找不同領域的研究靈感
現在不是單打獨鬥的時代,講究合作。知識也不例外,多學科交流。對於每個人而言,決定從事什麼方向可能是研究中最困難的部分,以下是我所看到的一些具有長期記錄的研究人員所採用的策略:

  1. 與不同領域的研究人員交流。諮詢他們感興趣的問題,詢問是否有想要分析的資料集、現有技術存在哪些不足。機器學習中最有效的工作是與生物學、化學、物理、社會科學或純數學的碰撞。例如,我正在思考Matthew
    Johnson 在2016年NIPS的文章以及Justin
    Gilmer在2017年ICML的文章,兩篇文章分別是關於滑鼠行為資料集的分析以及量子化學的應用;
  2. 編寫一個簡單的基線以獲得對問題的感覺。比如,嘗試編寫一些用於控制倒立擺的校準程式碼。在寫基線程式碼時,會遇到很多情況、各種問題或者一些臨時產生的想法,這些都能夠加深對問題的理解。
  3. 擴充套件喜歡的某篇論文的實驗部分。仔細閱讀一篇論文,瞭解其採用的方法和獲得的實驗結果,設法找到一些可以完善的地方。首先考慮最簡單的擴充套件,然後思考下論文的方法是否合理,實驗結果有沒有不完善的地方。

重視視覺化工具和技能

執行視覺化指令碼允許我們快速驗證程式碼是否與想法匹配。更重要的是,良好的視覺化往往使得想法和程式碼中的錯誤變得更加明顯以及可解釋性。
對於一個實際任務,想出解決問題的正確方法是很困難的。如果採用的是迭代優化模型(比如深度學習),那麼繪製出損失函式會是一個好的開端。此外,對於深度學習這個“黑匣子”方法,視覺化也能夠部分解釋其學習到的神經網路引數。比如,當處理圖形模型事,視覺化其一維或二維變數的分佈,當它改變時,可以推斷出很多資訊。視覺化是技術有效性的晴雨表,每次視覺化分析結果都能對所採用的的方法或程式碼起到一定的反饋。

TensorFlow視覺化工具Tensorboard

分佈圖

Q值學習圖

弄清楚研究者和論文的最初動機
在學術界可以發現很好玩的現象,研究人員在同一個會議上發表論文,使用相同的技術行話,但兩個人的研究動機可以是完全相反的。動機分為以下三個動機——“數學”動機、“工程”動機和“認知”動機:

  • “數學”動機:智慧系統的基本屬性和侷限性是什麼?
  • “工程”動機:如何開發比其它方法更好地解決實際問題的智慧系統?
  • “認知”動機:如何模擬像人類或其它動物那樣的自然智慧?

有些論文不止一個動機,此外,每個研究者的動機不可能一直保持不變,這和工程師的興趣有關。優秀的論文和研究人員將在一開始就說明其研究動機,但有些論文往往表述的不是很清楚,這就需要讀者們仔細閱讀,此外,在自己寫作時也要注意這一點,以防動機不明顯而被退稿或退修。

深入研究

學會找論文
網路上充斥著大量的人工智慧論文,大多數人首先會發表在arXiv上,由於該平臺可以先發表再經過審稿,因此需要學會從中辨別。另外,建議在社交軟體上跟蹤你最喜歡的研究人員的動態。此外,還有各種會議也值得關注。三大會議分別是NIPS、ICML以及ICRL。其它著名的一般會議包括AAAI、IJCAI和UAI。對於每一個分支學科而言,都有更加具體的會議。比如計算機視覺領域有CVPR、ECCV和ICCV;自然語言領域有ACL、EMNLP和NAACL;機器人學領域有CoRL、ICAPS、ICRA、IROS和RSS;與理論工作相關的會議有AISTAS、COLT和KDD。此外還有一些期刊也值得關注,JAIR和JMLR是人工智慧領域最突出的兩個期刊,不過在Nature和Science期刊中也會有很好的論文。
對於一些早期論文的查詢也是非常重要的,那些被奉為“經典論文”的論文往往會在參考論文中出現。另外一種發現早期論文的方法是從資深教授的個人主頁開始查詢,其成名作一般會掛在上面。此外還可以通過一些搜尋助手,比如谷歌學術、百度學術等查詢關鍵詞。

讀論文要花多少時間?
關於如何讀論文,人們經常給出兩個建議。第一個就是在研究生的第一學期或者第一年度把所有相關的論文都讀一遍;第二個是當讀了大量論文後,不要再泛讀,而是找到突破口,想出創新的辦法。
我個人同意第一個建議,但不同意第二個建議。只要有足夠的時間用於原始研究,那麼就應該儘可能多地閱讀論文。對於專業研究員而言,不可能總依靠個人幸運來發現創新的解決辦法,有時候你想到的方法別人可能已經嘗試過,只是你不知道而已。絕大多數的研究者都是耐心的跟蹤研究方向的進展以及發展趨勢,有條不紊地思考並解決問題。閱讀相關論文也是弄清楚目前所處的階段以及接下來需要做什麼的一個好方法。
關於儘可能多地閱讀論文有一個重要的提示:花時間理解消化一篇論文和閱讀一篇論文同樣重要,閱讀的時候可以做些筆記,而不是囫圇吞棗,只求數量,不求質量。

對話 >> 視訊 >> 論文 >> 會談
論文無疑是瞭解不熟悉的研究理論最容易獲取的來源,但是什麼路徑是最有效的呢?不同的人可能感受不一樣。對我而言,我發現對話(與那些已經理解的人)是迄今為止最快且最有效的理解途徑。如果找不到和這樣的人對話的機會,可以找下關於問題的相關視訊,例如論文作者訪談視訊,這樣的視訊可以提供很好的觀點。此外,當演講者向現場觀眾演講時,他們往往優先考慮的是清晰度而不是簡潔性。在大多數論文寫作中,作者將優先權順序互換了,其中詞數為王,背景知識解釋得太多反而顯得作者對該領域不熟悉。排在最後的是會談,簡單的會談往往顯得比較正式,與主持人的談話內容可能會非常有價值。

謹防炒作
人工智慧取得一系列的成果吸引了公眾的關注,使得更多的人投入這個領域,進而促使人工智慧取得更多突破性的進展。整個迴圈是良性的,但有一個副作用就是存在大量的炒作。檢視獲得點選量的記者、熱錢投資者、創業型公司都是誇大炒作泡沫的罪魁禍首。因此,在我們閱讀新聞或論文時,要注意“標題黨”,以免被誤導。
在2017年的NIPS的問答環節,一位著名的教授拿著麥克風(代表炒作警察)告誡作者在論文標題中慎重使用“想象”一詞。這和我們看新聞時一樣,標題很吸引人,但裡面的內容卻跟標題關係不大,使得閱讀者大失所望。閱讀論文同樣如此,嚴防炒作,我們需要做的是根據實驗方法和結果來評估一篇論文是否對自己有所幫助。

研究是場馬拉松

總是在不斷進步
在早期探索研究專案時,一般我會花幾個小時開展頭腦風暴,希望一些模糊的直接能夠指引一個具體的方向。有時候專案沒有任何進展,但在黑暗中摸索也算是整個研究過程中的一部分。當不知道下一步應該做什麼時,可以基於目前已有的情況將最模糊的想法寫下來,並在寫的過程中進行一一排除(寫出排除的原因)。在沒有任何想法的情況下, 可以採取閱讀或與同事交流的形式以獲得靈感。

從死衚衕中學會判別和止損
大牛們一般花更多的時間在好的想法上,能夠區分想法的好與壞在很大程度上依賴於個人的經驗。儘管如此,任何水平的研究人員都會不斷遭遇以下決定:研究思路是否有缺陷、是否應該挽救或進一步支援所提出的想法、是否完全放棄所提出的想法?尤其是在早期時,研究人員踏入死衚衕後會停留很長一段時間,而不願放棄。雖然放棄意味著之前的花費的時間白費了,但有的時候要懂得及時止損。

寫作
一些大牛給出的早期職業建議是:寫作。平時可以寫寫部落格和論文,但更重要的是把自己的想法記錄下來。因為寫作有助於我們理解與思考相關知識。

心理健康和身體健康是科研的先決條件
學術研究者在追求科學發現的過程中經常會遇到熬夜、顧不上吃飯等問題,這些都不是好習慣。很多博士都開始禿頭,甚至碩士就開始掉頭髮。鍛鍊身體並放空自己內心也是對科研的投資,並不是阻礙科研。睡8個小時後再工作4個小時,其效率比睡4個小時工作8個小時要高得多。有的時候會遇到卡殼,即使使出渾身解數也無法取得一絲進步,這個時候建議離開工作崗位,稍微活動一下並做長呼吸,放空下自己。

作者資訊
Tom Silver,專注於計算科學與數學、人工智慧
本文由阿里云云棲社群組織翻譯。
文章原標題《Lessons from My First Two Years of AI Research》
詳情請閱讀原文

相關文章

人工智慧 最新文章