大資料暑期學校心得體會

2021-08-04 13:43:38 字數 2297 閱讀 8695

7月16日上午,王立威教授做了《機器學習理論》的報告。聽完王老師的報告,奧卡姆剃刀這個哲學思想使我對機器學習的研究有了新的認識。報告首先介紹了機器學習理論泛化性這一概念,我的理解就是——對現有樣本學習後生成的準則對其他資料的適用能力。王老師將機器學習用胡克定律進行引入,並且經常用8階多項式的擬合問題進行舉例,深入淺出。然後,王老師介紹了機器學習用到的統計方面的知識,比如:馬爾科夫不等式、切比雪夫不等式、中心極限定理等。接下來,王老師從vc緯度、邊界理論、演算法穩定性的方面討論了演算法的泛化性問題。最後,介紹了機器學習的前沿動態:使用sgd(stochastic gradient descent)進行大規模機器學習。我接下來要用王老師提到的分類器進行實驗,並且在注重準確率的同時注意演算法的泛化性,最好可以定量衡量。

7月16日上午,孟德宇教授做了《自步學習》、《張量稀疏性》和《誤差建模》3個報告。聽報告當中,我折服於老師深厚的數學功底。《誤差建模》報告中,通過對不同雜訊建模,得到了一些有趣的資訊,比如有的雜訊分離出來其實是人影、噴泉等形狀。在誤差建模時,可以使用一些特殊領域的先驗知識。關於老師的講座,還有一點對我有用就是雨天雜訊的建模,應用了mog,文章投稿於iccv。對於去模糊處理,孟老師講到的tensor sparsity也可以應用於此。自步學習是基於學習由易到難的思想,這個思想也是從我們人類從小到大的學習規律得到。

7月18日上午,孫劍教授做了《深度學習方法在影象模型學習中的應用》的報告。首先,孫老師就影象處理的基本概念進行了科普。接下來,對團隊運用深度學習方法近些年的研究成果進行了總結。我印象比較深刻的是影象去模糊的具體應用,用到的是深度學習方法。該方法需要基於patch的方式得到運動方向,然後對非均勻的模糊影象進行建模,最後恢復原影象。馬爾科夫隨機場使周圍光滑化。並且在老師的主頁有**,底層使用cuda程式設計。還在孫老師的報告聽到乙個點:遷移學習。我的理解是,遷移學習在樣本數量不夠的情況下,提取原有樣本和目標樣本之間的共同特徵,通過對現有樣本的學習來對測試資料進行分類。在面對某一領域的具體問題時,通常可能無法得到構建模型所需規模的資料。借助遷移學習技術,我們可以直接使用預訓練過的模型,這種模型已經通過大量容易獲得的資料集進行過訓練(雖然是針對完全不同的任務進行訓練的,但輸入的內容完全相同,只不過輸出的結果不同)。遷移學習技術的另乙個重大收益在於可以對模型進行完善的「通用化」。

《標記分布正規化》和《多標記機器學習》兩個報告從標記的維度研究了機器學習演算法。傳統的標記都是人為應用乙個最大值,而標記分布運用標籤概率分布對乙個樣本進行了更全面描述,能夠處理標記的不同重要程度(描述度)。對這個概念我的理解是:標籤分布與概率統計中概率密度類似,同乙個樣本的所有標記概率求和為1。多標記機器學習是一種比傳統單標記和多標記學習更為泛化的學習正規化。它需要專門的演算法設計和評價指標。可以應用的場景是:資料本身具有某種天然描述度度量;標記之間有較強相關性;同一事例由多個標註源標註並產生不一致性;同一樣本與多標記相關且重要程度不同。

《標記分布正規化》報告中,張老師介紹了多標記學習的概念、具體學習演算法等內容。該報告中,張老師還提到了類別不平衡的相關概念,我查閱了周志華《機器學習》一書3.6章節類別不平衡的問題。類別不平衡(class-imbalance)就是指分類任務中不同類別的訓練樣例數目差別很大的情況。書中假定正樣本少,反樣例多,這與張老師的假設相同。處理類別不平衡問題有以下策略:①閾值移動;②反樣本欠取樣;③正樣本過取樣。其中,②方法時間開銷較小,常用演算法有easyensemble;③方法代表性演算法有smote。

《大資料視覺化》報告中,學到了一些資料視覺化工具,對互動分析資料很有用,比如:jigsaw,ivisdesigner, datadriller和interaction+;《序列資料深度學習及其思考》報告給我最深的印象就是在神經網路中引入了反饋機制和順序原則。深度學習是最近炒得很熱的乙個概念,其實深度學習可以簡單的認為是很深層的神經網路。乙個非常有趣的事實是,神經網路在經歷了幾次寒冬後,科學家們為了保證科研成果能夠更大概率的發表,啟用了新名詞——深度學習。

聽完資料探勘暑期學校這些天的課程,使我對人工智慧2.0時代有了一定的認識。研究人工智慧的發展不僅需要電腦科學,還需要心理學、神經學等學科的支撐。只有多學科共同作用,才能更好地模擬人類的智慧型模式。浙大的吳飛老師在介紹人工智慧2.0時如是說,人工智慧所面臨的7個問題有:1.automatic computers;2.how can a computer be programmed to use alanguage;3.neuron nets;4.theory of the size of a calculation;5.self-improvement; 6.ab-stractions(intuition);7.randomnessand creativity.現在的人工智慧距離強人工智慧還有一段距離,因為泛化效能還有待提高,需要從資料和經驗中提高機器的學習能力。人工智慧的發展需要從人類自身的發展規律獲得思路,從而實現混合增強人工智慧的願景,達到科幻電影裡人機結合的超人類智慧型體。

大資料心得體會 小學數學線上培訓心得體會(二十)

基於核心素養理解的命題與評價研究 線上培訓活動的心得體會 湛江市教育局教研室為了提公升湛江市小學數學教師在教學上的命題與評價水平,於2020年10月20日下午,邀請了北京市海淀區教師進修學校小學數學教研室主任 特級教師一一孫京紅老師給我們老師進行了 素養導向的小學數學學業水平評價 的專題講座。學校非...

PHP PDO 心得體會

關於pdo 我想可以不用做過多的描述,寫一寫最近的使用心得體會 首先 關於如何使用pdo 連線到資料庫 dbms mysql 使用的資料庫 host localhost 選擇的主機 dbname test 選擇的資料庫 user root 登陸的使用者名稱 password 使用者密碼 dsn dm...

銷售心得體會

銷售思維的培養 1.裝可憐讓客戶動惻隱之心是一種方法但是不適合男人 2.身處高位的銷售領導往往擁有給客戶的折扣和動用資源的優勢,不要當綠葉,要按兵不動尋找時機 3.市場上的大客戶與哪家合作就會成為標桿事件,哪家公司就會成為一線公司。4.站在客戶的角度,在業務上給予中肯的意見,得到客戶的感謝和認可。5...