一、項目簡介
自然語言處理關注如何讓機器更好地理解人類語言。自然語言處理技術在自動問答、機器翻譯等領域得到了廣泛的應用。百度度秘,微軟小冰,蘋果siri都是自然語言處理技術的結晶。近年來,隨著深度學習技術的發展,自然語言處理在人工智能領域備受矚目。如何利用深度學習模型,更好地解決自然語言處理領域的核心任務,是目前的研究熱點。
本課程旨在全面介紹自然語言處理目前的研究和應用現狀,詳細闡述主流深度學習模型的設計思路,介紹詞向量表示的優越之處;同時將理論與實踐相結合,以文本分類為應用實例,指導學生迅速掌握深度學習平臺和方法。實習結束后,導師會根據學生表現出具推薦信。
二、項目內容
本項目旨在通過理論和實踐相結合的方法,讓學生學習自然語言處理基礎知識,深度學習相關理論基礎、快速掌握深度學習主流平臺。課程將全面介紹自然語言處理的核心問題和技術挑戰,闡述深度學習目前在文本處理中的應用現狀和發展趨勢,同時對主流深度學習模型(以卷積神經網絡為例)從理論原理到具體實現進行一個深度的剖析。此外,課程將以文本分類為應用實例,指導學生采用深度學習模型解決實際問題,培養學生的創新思維和獨立解決問題的能力、為自然語言處理和深度學習的進一步學習和應用打下良好的基礎。
三、師資背景
任職教師為中國科學院某知名院所副研究員。主要研究方向是數據挖掘、深度學習、社會計算等,在AAAI、ICDM、PAKDD等國家知名會議和期刊上發表論文30余篇。擔任多個國際會議PC chair和審稿人。
四、招生對象及要求
大二以上優本科生及有較高計算機水平的高中生,計劃申請自動化、計算機,軟件工程、交叉學科(如商科、金融等數據分析)相關專業。為了讓學生更好地完成科研項目,項目組會以筆試和面試的形式對學生進行篩選。
五、項目安排
第一周
自然語言處理基礎知識學習:學習自然語言處理的基本概念、自然語言處理領域的核心問題、難點與挑戰,自然語言處理的應用現狀和發展趨勢。約定時間與學生在線交流,對學習中存在的問題并予以解答。
第二周
深度學習概念、應用和開發平臺學習:學習深度學習的基本概念,機器學習方法的統一設計框架,幾種主流深度學習模型(卷積神經網絡、循環神經網絡、對抗生成網絡等)的應用領域和發展前景。學習和掌握至少一種深度學習開發框架(如tensorflow平臺)。約定時間與學生在線交流,對學習中存在的問題并給以解答。
第三周
詞向量(Word Embedding)詳解:介紹自然語言處理任務中詞的表示模型,包括詞袋模型、聚類模型和嵌入表示方法,介紹目前幾種主流的詞嵌入學習模型(CBow、Skip-gram)的設計思想和主要原理。安排學生學習相關文獻,約定時間與學生在線交流,對學習中存在的問題予以解答。
第四周
文本分類課題實戰:介紹文本分類的基本思想,采用詞嵌入表示和深度學習模型解決該問題的基本思路。指導學生實現一個基于卷積神經網絡的文本分類模型。安排學生學習相關文獻,約定時間與學生在線交流,對學習中存在的問題予以解答。
六、報名方式
咨詢電話:010-5795-2000
地址:北京市海淀區中關村丹棱街3號中國電子大廈B座15層