范文為教學(xué)中作為模范的文章,也常常用來指寫作的模板。常常用于文秘寫作的參考,也可以作為演講材料編寫前的參考。相信許多人會覺得范文很難寫?下面我給大家整理了一些優(yōu)秀范文,希望能夠幫助到大家,我們一起來看一看吧。
數(shù)學(xué)之美手抄報篇一
上個月去北京開會,順道拜訪了人民郵電出版社,合作多年的編輯陳冀康贈我一本《數(shù)學(xué)之美》,說一定是我喜歡看的類型。以前也在網(wǎng)上零散看過google黑板報上吳軍先生的文章,對他的前一本書《浪潮之顛》也有耳聞,但沒有讀過。這次有機(jī)會集中閱讀他的文章,確實(shí)是一段美妙的體驗(yàn)。
讀完這本書有一點(diǎn)強(qiáng)烈的感受:工具一定要先進(jìn)。數(shù)學(xué)是強(qiáng)大的工具,計算機(jī)也是。這兩種工具結(jié)合在一起,造就了強(qiáng)大的google、百度、亞馬遜、阿里、京東、騰迅等公司。他們不是百年老店,但他們掌握了先進(jìn)的工具。
人類歷史就是一部工具的進(jìn)化史。石器、青銅、鐵器、火藥、蒸汽機(jī)、內(nèi)燃機(jī)、電報、電話、電視、計算機(jī)、衛(wèi)星、互聯(lián)網(wǎng),工具的進(jìn)步引領(lǐng)著文明的進(jìn)步。新的工具不斷淘汰老的工具,就像互聯(lián)網(wǎng)視頻點(diǎn)播正在淘汰電視、微博正在淘汰報紙、電子書正在淘汰紙質(zhì)書那樣。
但有一些古老的工具,今天仍有人在學(xué)習(xí)和使用,甚至在上面花費(fèi)許多時間。毛筆就是這樣一個例子。今天學(xué)習(xí)掌握毛筆這種“落后的”工具,還有什么意義?其實(shí)我們在使用一些“落后的”工具時,主要是在學(xué)習(xí)工具背后的思想。書法和繪畫中蘊(yùn)含的藝術(shù)審美的一般原則,經(jīng)得起具體工具變遷的考驗(yàn)。甲骨文、金文、石鼓文所包含的對空間構(gòu)圖的理解,仍然值得現(xiàn)代人學(xué)習(xí)。思想工具是比實(shí)物工具更強(qiáng)大的工具。
工具組合使用,形成更強(qiáng)大的新工具?!稊?shù)學(xué)之美》中提到的馬爾可夫鏈雖然是很強(qiáng)大的工具,但我在數(shù)學(xué)課上沒有聽老師提到過。這本書中給我印象最深的例子是余弦定理和新聞分類。余弦定理是中學(xué)數(shù)學(xué),再加上一些不算很難的多維向量的知識,竟然解決了計算機(jī)新聞分類這樣的難題!
每一種工具的背后,是人們對世界的一種理解。蒸汽機(jī)和內(nèi)燃機(jī)背后,是力學(xué)的世界。電報、電話、電視、計算機(jī)和互聯(lián)網(wǎng)背后,是信息的世界。數(shù)學(xué)是抽象的工具,是其他工具背后的工具。每一門學(xué)科要成為科學(xué),都少不了數(shù)學(xué)。也許有一天人們會習(xí)慣,用數(shù)學(xué)工具來分析藝術(shù)。數(shù)學(xué)是一種語言,它源于具體的世界,又高于具體的世界。如果說語言是對世界的認(rèn)識和描述,如果說數(shù)學(xué)是一種語言,那么它一定是最接近神的語言。看似毫不相關(guān),卻又能描述萬事萬物。
學(xué)習(xí)數(shù)學(xué)有什么用?物理學(xué)家費(fèi)曼當(dāng)年在大一時提出這個問題,他的師兄建議他轉(zhuǎn)到物理系。今天,這個問題已不成為問題。具有扎實(shí)數(shù)學(xué)功底的人才正進(jìn)入各行各業(yè),例如金融業(yè)。我認(rèn)識一個出版社的老總,他招應(yīng)屆畢業(yè)生有一個條件:數(shù)學(xué)要好。
工具雖好,關(guān)鍵還要會用。最終要回到掌握先進(jìn)工具的人。軟件算法工程師加上計算機(jī)集群,這是目前一流企業(yè)必需的裝備。正如馬克.安德森所說的,各行各業(yè)的一流公司,都是軟件公司。優(yōu)秀的軟件算法工程師,是人才爭奪的焦點(diǎn)。這樣,我們就容易理解google招工程師的要求。
對信息加工處理和傳遞的能力不斷增強(qiáng),是知識經(jīng)濟(jì)的特點(diǎn)?!稊?shù)學(xué)之美》展示了google如何運(yùn)用數(shù)學(xué)和計算機(jī)網(wǎng)絡(luò),帶領(lǐng)我們進(jìn)入云計算和大數(shù)據(jù)時代。
知識經(jīng)濟(jì)時代的工作,就是在各自的領(lǐng)域中進(jìn)行科學(xué)研究??茖W(xué)研究要大膽假設(shè),小心求證。科學(xué)研究要量化??茖W(xué)研究要有對比實(shí)驗(yàn)。科學(xué)研究要有數(shù)學(xué)模型。科學(xué)研究要有田野調(diào)查。科學(xué)研究要有文獻(xiàn)查證。科學(xué)研究要有同行評議。《數(shù)學(xué)之美》向我們介紹了自然語言分析領(lǐng)域的科研方法和過程。
任何一個領(lǐng)域,深入進(jìn)去都有無數(shù)的細(xì)節(jié)。有興趣的人不但沒被這些細(xì)節(jié)嚇倒,反而會興致勃勃地研究,從而達(dá)到令人仰慕的高度。吳軍先生向我們展示了數(shù)學(xué)和算法中的這些細(xì)節(jié),也展示了他所達(dá)到的高度。值得我學(xué)習(xí)。
感謝吳軍先生分享他的知識和深刻見解,也感謝人民郵電出版社出了這樣一本好書。
數(shù)學(xué)之美手抄報篇二
讀完本書,第一感受:次奧!原來數(shù)學(xué)如此多的原理模型概念都可以用去解決各種it技術(shù)問題啊。特別是語言識別和自然語言處理這類問題完全就是建立在數(shù)學(xué)原理之上的??傊@本書就是用非常深入淺出的話去說明如何用數(shù)學(xué)方法去解決計算機(jī)的各種工程問題。這是一本講道,而不是術(shù)的書。要完全讀懂這本書,我覺得至少需要掌握這三門課:高等數(shù)學(xué),離散數(shù)學(xué),還有概率論與數(shù)理統(tǒng)計。唉..我當(dāng)初數(shù)學(xué)學(xué)得太水了,還掛了高數(shù)啊...有好的概念沒看懂,以后有時間在好好看吧。如果想搞計算機(jī)研究的話,數(shù)學(xué)基礎(chǔ)必不可少,別總在抱怨各種數(shù)學(xué)課上的東西一輩子都用不著。
發(fā)現(xiàn)作者對人類自然發(fā)展的認(rèn)識非常深,其從語言,文字,數(shù)學(xué)的產(chǎn)生發(fā)展,信息的傳播記錄得出了這個結(jié)論:信息的產(chǎn)生傳播接收反饋,和今天最先進(jìn)的通信在原理上沒有任何差別。就算是科學(xué)上最高深的技術(shù),那也是模擬我們生活中的一些基本原理。
我們今天使用的十進(jìn)制,就是我們扳手指扳了十次,就進(jìn)一次位。而瑪雅文明他們數(shù)完了手指和腳指才開始進(jìn)位,所以他們用的是二十進(jìn)制。實(shí)際上阿拉伯?dāng)?shù)字是古印度人發(fā)明的,只是歐洲人不知道這些數(shù)字的真正發(fā)明人是古印度,而就把這功勞該給了“二道販子”阿拉伯人。
語言的數(shù)學(xué)本質(zhì)
任何一種語言都是一種編碼方式,比如我們把一個要表達(dá)的意思,通過語言一句話表達(dá)出來,就是利用編碼方式對頭腦中的信息做了一次編碼,編碼的結(jié)果就是一串文字,聽者則用這語言的解碼方法獲得說話者要表達(dá)的信息。
自然語言處理模型
計算機(jī)是很笨的,他們唯一會做的就是計算。自然語言處理在數(shù)學(xué)模型上是基于統(tǒng)計的,說一個句子是否合理,就看看他出現(xiàn)的可能性大小如何,可能性就是用概率來衡量,比如一個句子,出現(xiàn)的概率為1/10^10,另一個句子出現(xiàn)的概率為1/10^20,那么我們就可以說第一個句子比第二個句子更加合理。當(dāng)然這要求有足夠的觀測值,他有大數(shù)定理在背后支持。
最早的中文分詞方法
這句話:“同學(xué)們呆在圖書館看書”,如何分詞?應(yīng)該是這樣:同學(xué)們/呆在/圖書館/看書.最先的方法是北航一老師提出的查字典方法,就是把句子從左道右掃描一遍,遇到字典里面出現(xiàn)的詞就標(biāo)示出來,遇到復(fù)合詞如(北京大學(xué))就按照最長的分詞匹配,遇到不認(rèn)識的字串就分割成單個字,于是中文的分詞就完成了。但是這只能解決78成的分詞問題,但是“像發(fā)展中國家”這種短語它是分不出來的。后來大陸用基于統(tǒng)計語言模型方法才解決了。
隱含馬可夫模型(沒這么看懂)
一直被認(rèn)為是解決打多數(shù)自然語言處理問題最為快速有效的方法,大致意思是:隨機(jī)過程中各個狀態(tài)的概率分布,只與他的前一個狀態(tài)有關(guān)。比如對于天氣預(yù)報,我們只假設(shè)今天的氣溫只與昨天有關(guān)而與前天沒有關(guān)系,這雖然不完美,但是以前不好解決的問題都可以給出近視值了。
一個讓我印象深刻的觀點(diǎn):
小學(xué)生和中學(xué)生其實(shí)沒有必要花那么多時間去讀書,其覺得最主要的是孩子們的社會經(jīng)驗(yàn),生活能力,和那時候樹立起來的志向,這將幫助他們一生。而中學(xué)生階段花很多時間比同伴多讀的課程,在大學(xué)以后可以用非常短的時間就可以讀完。因?yàn)樵诖髮W(xué)階段,人的理解能力要強(qiáng)很多,比如中學(xué)要花500小時才能搞明白的內(nèi)容,大學(xué)可能花100小時就搞定了。學(xué)習(xí)和教育是一個人一輩子的事情,很多中學(xué)成績好的人進(jìn)入大學(xué)后有些就表現(xiàn)不太好了,要有不斷學(xué)習(xí)的動力才行。
余弦定理和新聞分類
我在新浪干過一年多新聞,這篇認(rèn)真看了一篇,很吃驚原理cosx與新聞分析也有關(guān)系啊。google的新聞服務(wù)是由計算機(jī)自動整理分類的。而傳統(tǒng)的媒體如門戶網(wǎng)站是讓編輯讀懂新聞,找到主題,再分類分級別的,真苦逼啊...計算機(jī)自動分類原理是這樣:如一篇新聞有10000個詞,組成一個萬維向量,這個向量就代表這篇新聞,可以通過某種算法表達(dá)這個新聞主題的類型,如果兩個向量的方向一致,說明對應(yīng)的新聞用詞一致,方向可用夾角表示,夾角可用余弦定理表示,所以當(dāng)夾角的余弦值接近于1時,這兩篇新聞就可以歸為一類了。
沒看懂的東西:
布爾代數(shù):布爾代數(shù)把邏輯學(xué)和數(shù)學(xué)合二為一,給了我們一個全新的視角看世界...
網(wǎng)絡(luò)爬蟲的基本原來是利用了圖論的廣度優(yōu)先搜索和深度優(yōu)先搜索...
搜索引擎的結(jié)果排名用了稀疏矩陣的計算...
地圖最基本的計算是利用了有限狀態(tài)機(jī)和圖論的最短路徑...
密碼學(xué)原理,最大熵模型,拼音輸入法的數(shù)學(xué)模型,布隆過濾器,貝葉斯網(wǎng)絡(luò)等等...
任何事物都有它的發(fā)展規(guī)律,當(dāng)我們認(rèn)識了規(guī)律后,應(yīng)當(dāng)在生活工作中遵循規(guī)律,希望大家透過it規(guī)律的認(rèn)識,可以舉一反三的總結(jié)學(xué)習(xí)認(rèn)識規(guī)律,這樣有助于自己的境界提升一個層次。
任何問題總是能找到相應(yīng)的準(zhǔn)確數(shù)學(xué)模型,一個正確的數(shù)學(xué)模型在形式上應(yīng)當(dāng)是簡單的,一個好的方法在形式上應(yīng)當(dāng)也是簡單的。簡單才是美。
[]
數(shù)學(xué)之美手抄報篇三
在語音識別、翻譯,還有密碼學(xué)領(lǐng)域,有著許多基于概率統(tǒng)計的模型和思想。當(dāng)然,貝葉斯公式是基礎(chǔ),應(yīng)用到隱含馬爾科夫鏈模型,神經(jīng)網(wǎng)絡(luò)模型。
在搜索中,一些相關(guān)性的計算,無不用到了概率的知識。在新聞分類中,用到了一些有關(guān)矩陣特征值、相似對角化的知識。當(dāng)然,在圖像處理方面,矩陣變換可謂是無處不在。另外,在識別方面,有一些通信模型,涉及到了信道、誤碼率、信息熵。
最近剛開學(xué)也沒什么事,所以就想隨便找?guī)妆緯匆幌拢珓e是那種太艱深晦澀的書。8月份一直到現(xiàn)在,吳軍寫的這本12年5月出版的《數(shù)學(xué)之美》一直盤踞京東、亞馬遜等各大網(wǎng)上商城科技類圖書的榜首,當(dāng)然,還有早些時候出版的《浪潮之巔》也排在很靠前的位置。心想市場的力量應(yīng)該能幫我挑出好書吧,于是就從圖書館借了一本來,一直到今天晚上把它給看完了。
因此想寫一點(diǎn)東西來總結(jié)、反思一下,反正剛開完班會也沒什么事干。
寫在前面的建議:如果你不討厭數(shù)學(xué)的話,強(qiáng)烈推薦這本書,網(wǎng)上也可以下到電子版,不過閱讀感覺上還是很不一樣的。
廢話就不多說了,《數(shù)學(xué)之美》其實(shí)是一本科普類的讀物,所面向的是接受過普通高等教育的人,完全不需要在特定領(lǐng)域有很深的造詣就可以看懂,大概懂一點(diǎn)線性代數(shù)、概率統(tǒng)計、組合數(shù)學(xué)、信息論、計算機(jī)算法、模式識別(雖然列舉了這么多,其實(shí)有些不懂也沒關(guān)系……),所以尤其適合信科的人看。內(nèi)容大部分是和人工智能、計算機(jī)相關(guān)的,這并非我所學(xué)的專業(yè),但作者比較擅長將看似復(fù)雜的原理用簡明的語言表達(dá)出來,所以可讀性還是很好的。
吳軍是清華大學(xué)畢業(yè)的,之前任職于google,后來到了騰訊,這些文章都是發(fā)表在google黑板報上的,后來經(jīng)過了重寫,所以網(wǎng)上下載的和書本內(nèi)容有所差異。由于吳軍本人是研究自然語言處理和語音識別的,所以統(tǒng)計語言模型的東西可能會多一點(diǎn),不過我覺得這絲毫不妨礙全書數(shù)學(xué)之美的展現(xiàn)……感覺收獲還是挺多的,知識上的有一些,但更多還是思維方式上的。作者舉了很多例子試圖讓人明白很多看似復(fù)雜的高科技背后,基本原理其實(shí)是出乎意料簡單的(當(dāng)然,必須承認(rèn)第一個想到這些方法的人還是非常了不起的……)。比如高準(zhǔn)確率的機(jī)器翻譯,看上去好像是計算機(jī)能夠理解各國語言,隱藏在背后的卻是很多具有大學(xué)理科學(xué)歷的人都非常清楚的統(tǒng)計模型和概率模型;再比如拼音輸入法的數(shù)學(xué)原理,早期的研究主要集中在縮短平均編碼長度,比如曾經(jīng)流行一時的五筆輸入法,而現(xiàn)今真正實(shí)用的輸入法卻是有很多信息冗余、編碼長度比較長的拼音輸入法,作者從信息論和市場的角度做了簡單的闡述;又比如新聞的自動分類,許多非it領(lǐng)域的人可能會認(rèn)為計算機(jī)可以讀懂新聞并進(jìn)行分類,而實(shí)際上只是特征向量的抽取、空間中向量夾角的計算,非常非常簡單,但凡學(xué)過一點(diǎn)線性代數(shù)的人絕對是一看就懂的……當(dāng)然,完美的實(shí)現(xiàn)還需要考慮很多細(xì)節(jié)和現(xiàn)實(shí)的情況,但這并不是這本書所關(guān)注的地方,數(shù)學(xué)之美在于其簡潔而不是繁瑣。
除了對于具體信息技術(shù)的剖析之外,作者還花了很大篇幅來講一些杰出人士的成長過程,特別是把這些人的成長經(jīng)歷和中國學(xué)生的成長經(jīng)歷作對比。雖然作者并沒有明說,但字里行間多少流露出對于中國高等教育以及很多中國企業(yè)的批評,一是教育的功利性,缺乏寬松的獨(dú)立思考的環(huán)境,即使學(xué)了一堆理論也難有用武之地,自然也就缺乏創(chuàng)新性的成果;二是中國企業(yè)的短視,大部分都不舍得在新框架開發(fā)上投資,而是坐享學(xué)術(shù)界和國外企業(yè)的研究成果。
總結(jié)一下呢,能夠從更宏觀的角度來思考信息世界背后的數(shù)學(xué)引擎的運(yùn)行原理,讓人明白看似很高級、復(fù)雜的東西背后其實(shí)并不如我們所想象的那樣復(fù)雜,而我們所學(xué)的“枯燥”的數(shù)學(xué)真的可以“四兩撥千斤”,改變億萬人的生活。
數(shù)學(xué)之美手抄報篇四
《數(shù)學(xué)之美》是一本領(lǐng)域相關(guān)的數(shù)學(xué)概念書,生動形象地講解了關(guān)于數(shù)據(jù)挖掘、文本檢索等方面的基礎(chǔ)知識,可以作為數(shù)據(jù)挖掘、文本檢索的入門普及書。另外,就像作者吳軍老師提到的,關(guān)鍵是要從中學(xué)到道————解決問題的方法,而不僅僅是術(shù)。書中也啟發(fā)式的引導(dǎo)讀者形成自己解決問題的道。
下面記錄一下自己讀這本書的一些感想:
第一章《文字和語言vs數(shù)字和信息》:文字和語言中天然蘊(yùn)藏著一些數(shù)學(xué)思想,數(shù)學(xué)可能不僅僅的是一門非常理科的知識,也是一種藝術(shù)。另外,遇到一個復(fù)雜的問題時,可能生活中的一些常識,一些簡單的思想會?給你帶來解決問題的靈感。
第二章《自然語言處理————從規(guī)則到統(tǒng)計》:試圖模擬人腦處理語言的模式,基于語法規(guī)則,詞性等進(jìn)行語法分析、語義分析的自然語言處理有著很大的復(fù)雜度,而基于統(tǒng)計的語言模型很好的解決了自然語言處理的諸多難題。人們認(rèn)識這個過程,找到統(tǒng)計的方法經(jīng)歷了20多年,非常慶幸我們的前輩已經(jīng)幫我們找到了正確的方法,不用我們再去苦苦摸索。另外,這也說明在發(fā)現(xiàn)真理的過程中是充滿坎坷的,感謝那些曾經(jīng)奉獻(xiàn)了青春的科學(xué)家。自己以后遇到問題也不能輕易放棄,真正的成長是在解決問題的過程中。事情不可能一帆風(fēng)順的,這是自然界的普遍真理吧!
第三章《統(tǒng)計語言模型》:自然語言的處理找到了一種合適的方法———基于統(tǒng)計的模型,概率論的知識開始發(fā)揮作用。二元模型、三元模型、多元模型,模型元數(shù)越多,計算量越大,簡單實(shí)用就是最好的。對于某些不出現(xiàn)或出現(xiàn)次數(shù)很少的詞,會有零概率問題,這是就要找到一數(shù)學(xué)方法給它一個很小的概率。以前學(xué)概率論的時候覺的沒什么用,現(xiàn)在開始發(fā)現(xiàn)這些知識可能就是你以后解決問題的利器。最后引用作者本章的最后一句話:數(shù)學(xué)的魅力就在于將復(fù)雜的問題簡單化。
第四章《談?wù)勚形姆衷~》:中文分詞是將一句話分成一些詞,這是以后進(jìn)一步處理的基礎(chǔ)。從開始的查字典到后來基于統(tǒng)計語言模型的分詞,如今的中文分詞算是一個已經(jīng)解決的問題。然而,針對不同的系統(tǒng)、不同的要求,分詞的粒度和方法也不盡相同,還是針對具體的問題,提出針對該問題最好的方法。沒有什么是絕對的,掌握其中的道才是核心。
第五章《隱馬爾科夫模型》:隱馬爾科夫模型和概率論里面的馬爾科夫鏈相似,就是該時刻的狀態(tài)僅與前面某幾個時刻的狀態(tài)有關(guān)?;诖罅繑?shù)據(jù)訓(xùn)練出相應(yīng)的隱馬爾科夫模型,就可以解決好多機(jī)器學(xué)習(xí)的問題,訓(xùn)練中會涉及到一些經(jīng)典的算法(維特比算法等)。關(guān)于這個模型,沒有實(shí)際實(shí)現(xiàn)過,所以感覺好陌生,只是知道了些概率論講過的原理而已。
第六章《信息的度量和作用》:信息論給出了信息的度量,它是基于概率的,概率越小,其不確定性越大,信息量就越大。引入信息量就可以消除系統(tǒng)的不確定性,同理自然語言處理的大量問題就是找相關(guān)的信息。信息熵的物理含義是對一個信息系統(tǒng)不確定性的度量,這一點(diǎn)與熱力學(xué)中的熵概念相同,看似不同的學(xué)科之間也會有著很強(qiáng)的相似性。事務(wù)之間是存在聯(lián)系的,要學(xué)會借鑒其他知識。
第七章《賈里尼克和現(xiàn)代語言處理》:賈里尼克是為世界級的大師,不僅在于他的學(xué)術(shù)成就,更在于他的風(fēng)范。賈里尼克教授少年坎坷,也并非開始就投身到自然語言方面的研究,關(guān)鍵是他的思想和他的道。賈里克尼教授治學(xué)嚴(yán)謹(jǐn)、用心對待自己的學(xué)生,對于學(xué)生的教導(dǎo),教授告訴你最多的是“什么方法不好”,這很像聽到的一句話“我不贊同你,但我支持你”。賈里克尼教授一生專注學(xué)習(xí),最后在辦公桌前過世了。讀了這章我總結(jié)出的一句話是“思想決定一個人的高度”。在這章中對于少年時的教育,以下幾點(diǎn)值得借鑒:1、少年時期其實(shí)沒有必要花那么多時間讀書,他們的社會經(jīng)驗(yàn)、生活能力以及在那時樹立起的志向?qū)椭麄円簧?、中學(xué)時花大量時間學(xué)會的內(nèi)容,在大學(xué)用非常短的時間就可以讀完,因?yàn)樵诖髮W(xué)階段,人的理解力要強(qiáng)很多。3、學(xué)習(xí)(和教育)是一個人一輩子的過程。4、書本的內(nèi)容可以早學(xué),也可以晚學(xué),但是錯過了成長階段卻是無法補(bǔ)回來的。
第八章《簡單之美————布爾代數(shù)和搜索引擎的索引》:布爾是19世紀(jì)英國的一位中學(xué)教師,但他的公開身份是啤酒商,提出好的思想的人不一定是大師。簡單的建立索引可以根據(jù)一個詞是否在一個網(wǎng)頁中出現(xiàn)而設(shè)置為0和1,為了適應(yīng)索引訪問的速度、附加的信息、更新要快速,改進(jìn)了索引的建立,但原理上依然簡單,等價于布爾運(yùn)算。牛頓的一句話“(人們)發(fā)覺真理在形式上從來是簡單的,而不是復(fù)雜和含混的”。做好搜索,最基本的要求是每天分析10—20個不好的搜索結(jié)果,積累一段時間才有感覺。有時候,學(xué)習(xí)、處理問題,可以從不好的方面入手,效果可能更好。
第九章《圖論和網(wǎng)絡(luò)爬蟲》:圖的遍歷分為“廣度優(yōu)先搜索(breadth—first search,簡稱bfs)”和“深度優(yōu)先搜索(depth—first search,簡稱dfs)。互聯(lián)網(wǎng)上有幾百億的網(wǎng)頁,需要大量的服務(wù)器用來下載網(wǎng)頁,需要協(xié)調(diào)這些服務(wù)器的任務(wù),這就是網(wǎng)絡(luò)設(shè)計和程序設(shè)計的藝術(shù)了。另外對于簡單的網(wǎng)頁,沒必要下載。還需要存儲一張哈希表來記錄哪些網(wǎng)頁已經(jīng)存儲過(如果記錄每個網(wǎng)頁的url,數(shù)量太多,這里可以用后面提到的信息指紋,只需要一個很多位的數(shù)字即可),避免重復(fù)下載。另外,在圖論出現(xiàn)的很長一段時間里,實(shí)際需求的圖只有幾千個節(jié)點(diǎn),那時圖的遍歷很簡單,人們都沒有怎么專門研究這個問題,隨著互聯(lián)網(wǎng)的出現(xiàn),圖的遍歷一下子有了用武之地,很多數(shù)學(xué)方法就是這樣,看上去沒有什么用途,等到具體的應(yīng)用出來了一下子開始派上大用場了,這可能就是世界上很多人畢生研究數(shù)學(xué)的原因吧。一個系統(tǒng)看似整體簡單,但里面的每個東西都可能是一個復(fù)雜的東西,需要很好的設(shè)計。
第十一章《如何確定網(wǎng)頁和查詢的相關(guān)性》:構(gòu)建一個搜索引擎的四個方面:如何自動下載網(wǎng)頁、如何建立索引、如何衡量網(wǎng)頁的質(zhì)量以及確定一個網(wǎng)頁和某個查詢的相關(guān)性。搜索關(guān)鍵詞權(quán)重的科學(xué)度量tf—idf,tf衡量一個詞在一個網(wǎng)頁中的權(quán)重,即詞頻。idf衡量一個詞本身的權(quán)重,對主題的預(yù)測能力。一個查詢和該網(wǎng)頁的相關(guān)性公式由詞頻的簡單求和變成了加權(quán)求和,即tf1*idf1 + tf2*idf2 + 。。。 + tfn*idfn??此茝?fù)雜的搜索引擎,里面的原理竟是這么簡單!
第十二章《地圖和本地搜索的最基本技術(shù)——有限狀態(tài)機(jī)和動態(tài)規(guī)劃》:地址的解析依靠有限狀態(tài)機(jī),當(dāng)用戶輸入的地址不太標(biāo)準(zhǔn)或有錯別字時,希望進(jìn)行模糊匹配,提出了一種基于概率的有限狀態(tài)機(jī)。通用的有限狀態(tài)機(jī)的程序不是很好寫,要求很高,建議直接采用開源的代碼。圖論中的動態(tài)規(guī)劃問題可以用來解決兩點(diǎn)間的最短路徑問題,可以將一個“尋找全程最短路線”的問題,分解成一個個尋找局部最短路線的小問題。有限狀態(tài)機(jī)和動態(tài)規(guī)劃問題需要看相關(guān)的算法講解,才能深入理解,目前對其并未完全理解。
第十三章《google ak—47的設(shè)計者——阿米特·辛格博士》:辛格堅持選擇簡單方案的一個原因是容易解釋每一個步驟和方法背后的道理,這樣不僅便于出了問題時查錯,而且容易找到今后改進(jìn)的目標(biāo)。辛格要求對于搜索質(zhì)量的改進(jìn)方法都要能說清楚理由,說不清楚理由的改進(jìn)即使看上去有效也不會采用,因?yàn)檫@樣將來可能是個隱患。辛格非常鼓勵年輕人要不怕失敗,大膽嘗試。遵循簡單的哲學(xué)。
第十四章《余弦定理和新聞的分類》:將新聞根據(jù)詞的tf—idf值組成新聞的特征向量,然后根據(jù)向量之間的余弦距離衡量兩個特征之間的`相似度,將新聞自動聚類。另外根據(jù)詞的不同位置,權(quán)重應(yīng)該不同,比如標(biāo)題的詞權(quán)重明顯應(yīng)該大點(diǎn)。大數(shù)據(jù)量的余弦計算也要考慮很多簡化算法。
第十五章《矩陣運(yùn)算和文本處理中的兩個分類問題》:將大量的文本表示成文本和詞匯的矩陣,然后對該矩陣進(jìn)行奇異值svd分解,可以得到隱含在其中的一些信息。計算余弦相似度的一次迭代時間和奇異值分解的時間復(fù)雜度在一個數(shù)量級,但計算余弦相似度需要多次迭代。另外,奇異值分解的一個問題是存儲量大,而余弦定理的聚類則不需要。奇異值分解得到的結(jié)果略顯粗糙,實(shí)際工作中一般先進(jìn)行奇異值分解得到粗分類結(jié)果,在利用余弦計算得到比較精確地結(jié)果。我覺得這章講的svd有些地方不是很清楚,已向吳軍老師請教了,等待回信。
第十六章《信息指紋及其應(yīng)用》:信息指紋可以作為信息的唯一標(biāo)識。有很多信息指紋的產(chǎn)生方法,互聯(lián)網(wǎng)加密要使用基于加密的偽隨機(jī)數(shù)產(chǎn)生器,常用的算法有md5或者sha—1等標(biāo)準(zhǔn)。信息指紋可以用來判定集合相同或基本相同。youtobe就用信息指紋來反盜版。128位的指紋,1。8*10^19次才可能重復(fù)一次,所以重復(fù)的可能性幾乎為0。判定集合是否相同,從簡單的逐個比對到利用信息指紋,復(fù)雜度降低了很多很多。啟發(fā)我們有時候要用變通的思想來解決問題。
第十七章《由電視劇《暗算》所想到的——談?wù)劽艽a學(xué)的數(shù)學(xué)原理》:rsa加密算法,有兩個完全不同的鑰匙,一個用于加密,一個用于解密。該算法里面蘊(yùn)含著簡單但不好理解的數(shù)學(xué)思想。信息論在密碼設(shè)計中的應(yīng)用:當(dāng)密碼之間分布均勻并且統(tǒng)計獨(dú)立時,提供的信息最少。均勻分布使得敵人無從統(tǒng)計,而統(tǒng)計獨(dú)立能保證敵人即使知道了加密算法,也不能破譯另一段密碼。
第十八章《閃光的不一定是金子——談?wù)勊阉饕娣醋鞅讍栴}》:把搜索反作弊看成是通信模型,作弊當(dāng)做是加入的噪聲,解決噪聲的方法:從信息源出發(fā),增強(qiáng)排序算法的抗干擾能力;過濾掉噪聲,還原信息。只要噪聲不是完全隨機(jī)并且前后有相關(guān)性,就可以檢測到并消除。作弊者的方法不可能是隨機(jī)的,且不可能一天換一種方法,及作弊是時間相關(guān)的。因此在搜集一段時間的作弊信息后,就可以將作弊者抓出來,還原原有的排名。一般作弊都是針對市場份額較大的搜索引擎做的,因此,一個小的搜索引擎作弊少,并不一定是它的反作弊技術(shù)好,而是到它那里作弊的人少。
第十九章《談?wù)剶?shù)學(xué)模型的重要性》:早期的行星運(yùn)行模型用大圓套小圓的方法,精確地計算出了所有行星運(yùn)行的軌跡。但其實(shí)模型就是簡單的橢圓而已。一個正確的數(shù)學(xué)模型應(yīng)該在形式上是簡單的;一個正確的模型可能開始還不如一個精雕細(xì)琢過的錯誤模型來的準(zhǔn)確,但是,如果我們認(rèn)定大方向是對的,就應(yīng)該堅持下去;大量準(zhǔn)備的數(shù)據(jù)對研發(fā)很重要;正確的模型可能受到噪聲干擾,而顯得不準(zhǔn)確,這是不應(yīng)該用一種湊合的修正方法來彌補(bǔ)它,要找到噪聲的根源,這也許能通往重大的發(fā)現(xiàn)。
第二十章《不要把雞蛋放在一個籃子里——談?wù)勛畲箪啬P汀罚簩σ粋€隨機(jī)事件預(yù)測時,當(dāng)各種情況概率相等時,信息熵達(dá)到最大,不確定性最大,預(yù)測的風(fēng)險最小。最大熵模型的訓(xùn)練非常復(fù)雜,需要時查看資料做進(jìn)一步的理解。
第二十一章《拼音輸入法的數(shù)學(xué)原理》:輸入法經(jīng)歷了以自然音節(jié)編碼,到偏旁筆畫拆字輸入,再回歸自然音節(jié)輸入的過程。任何事物的發(fā)展,螺旋式的回歸不是簡單的重復(fù),而是一種升華。輸入法的速度取決于編碼的場地*尋找這個鍵的時間。傳統(tǒng)的雙拼,記住編碼太難,尋找每個鍵的時間太長,并且增加了編碼上的歧義。根據(jù)香農(nóng)第一定理可以計算理論上每個漢字的平均最短碼長。全拼不僅編碼平均長度較少,而且根據(jù)上下文的語言模型可以很好的解決歧義問題。利用統(tǒng)計語言模型可是實(shí)現(xiàn)拼音轉(zhuǎn)漢字的有效算法,而且可以轉(zhuǎn)換為動態(tài)規(guī)劃求最短路徑問題。如今各家輸入法的效率基本在一個量級,進(jìn)一步提升的關(guān)鍵就在于建立更好的語言模型。可以根據(jù)每個用戶建立個性化的語言模型。輸入的過程本身就是人和計算機(jī)的通信,好的輸入法會自覺或者不自覺的的遵循通信的數(shù)學(xué)模型。要做出最有效的輸入法,應(yīng)該自覺使用信息論做指導(dǎo)。
第二十二章《自然語言處理的教父馬庫斯和他的優(yōu)秀弟子們》:將自然語言處理從基于規(guī)則到基于統(tǒng)計,貢獻(xiàn)最大的兩個人,一個是前面介紹的賈里尼克教授,他是一個開創(chuàng)性任務(wù);另一個是將這個方法發(fā)揚(yáng)光大的米奇·馬庫斯。馬庫斯的貢獻(xiàn)在于建立了造福全世界研究者的賓夕法尼亞大學(xué)ldc語料庫以及他的眾多優(yōu)秀弟子。馬庫斯的影響力很大程度上是靠他的弟子傳播出去的。馬庫斯教授有很多值得欽佩的地方:給予他的博士研究生自己感興趣的課題的自由,高屋建瓴,給學(xué)生關(guān)鍵的指導(dǎo);寬松的管理方式,培養(yǎng)各有特點(diǎn)的年輕學(xué)者;是一個有著遠(yuǎn)見卓識的管理者。他的學(xué)生為人做事風(fēng)格迥異,但都年輕有為,例如追求完美的邁克爾·柯林斯和尋求簡單美的艾克爾·布萊爾。大師之所以能成為大師,肯定有著一些優(yōu)秀的品質(zhì)和追求。
第二十三章《布隆過濾器》:判斷一個元素是否在一個集合當(dāng)中時,用到了布隆過濾器,存儲量小而且計算快速。其原理是:建立一個很長的二進(jìn)制,將每個元素通過隨機(jī)數(shù)產(chǎn)生器產(chǎn)生一些信息指紋,再將這些信息指紋映射到一些自然數(shù)上,最后在建立的那個很長的二進(jìn)制上把這些自然數(shù)的位置都置為1。布隆過濾器的不足之處是它可能把不在集合中的元素錯判成集合中的元素,但在某些條件下這個概率是很小的,補(bǔ)救措施是可以建立一個小的白名單,存儲那些可能誤判的元素。布隆過濾器背后的數(shù)學(xué)原理在于完全隨機(jī)的數(shù)字其沖突的可能性很小,可以用很少的空間存儲大量的信息,并且由于只進(jìn)行簡單的算術(shù)運(yùn)算,因此速度非???。《編程珠璣》中第一章的那個例子就是布隆過濾器的思想。開闊思維,尋找更好更簡單的方法。
第二十四章《馬爾科夫鏈的擴(kuò)展——貝葉斯網(wǎng)絡(luò)》:貝葉斯網(wǎng)絡(luò)是馬爾科夫鏈的擴(kuò)展,由簡單的線性鏈?zhǔn)疥P(guān)系擴(kuò)展為網(wǎng)絡(luò)的關(guān)系,但貝葉斯網(wǎng)絡(luò)仍然假設(shè)每一個狀態(tài)只與它直接相連的狀態(tài)相關(guān)。確定貝葉斯網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和各個狀態(tài)之間相關(guān)的概率也需要訓(xùn)練。在詞分類中,可以建立文章、主題和關(guān)鍵詞的貝葉斯網(wǎng)絡(luò),用來得到詞的分類。貝葉斯網(wǎng)絡(luò)的訓(xùn)練包括確定拓?fù)浣Y(jié)構(gòu)和轉(zhuǎn)移概率,比較復(fù)雜,后者可以參考最大熵訓(xùn)練的方法。貝葉斯網(wǎng)絡(luò)導(dǎo)出的模型是非常復(fù)雜的。
第二十五章《條件隨機(jī)場和句法分析》:句法分析是分析出一個句子的句子結(jié)構(gòu),對于不規(guī)則的句子,對其進(jìn)行深入的分析是很復(fù)雜的,而淺層的句法分析在很多時候已經(jīng)可以滿足要求了。條件隨機(jī)場就是進(jìn)行淺層句法分析的有效的數(shù)學(xué)模型。條件隨機(jī)場與貝葉斯網(wǎng)絡(luò)很像,不用之處在于,條件隨機(jī)場是無向圖,而貝葉斯網(wǎng)絡(luò)是有向圖。條件隨機(jī)場的訓(xùn)練很復(fù)雜,簡化之后可以參考最大熵訓(xùn)練的方法。對于條件隨機(jī)場的詳細(xì)參數(shù)及原理還不理解。
第二十六章《維特比和他的維特比算法》:維特比算法是一個動態(tài)規(guī)劃算法,凡是使用隱馬爾科夫模型描述的問題都可以用它來解碼。維特比算法采用逐步漸進(jìn)的方法,計算到每步的最短距離,到下步的最短距離只用接著本步的計算即可,相比窮舉法,大大縮短了計算的時間,并且基本可以實(shí)現(xiàn)實(shí)時的輸出,這看似簡單,但在當(dāng)時確是很了不起的。維特比并不滿足停留在算法本身,他將算法推廣出去,并應(yīng)用到了實(shí)際中,創(chuàng)立了高通公司,成為了世界上第二富有的數(shù)學(xué)家。高通公司在第二代移動通信中并不占很強(qiáng)的市場地位,而其利用cdma技術(shù)霸占了3g的市場,可見遠(yuǎn)見的洞察力是多么的重要。
第二十七章《再談文本分類問題——期望最大化算法》:該章講的其實(shí)就是k均值聚類問題,設(shè)置原始聚類中心,然后不斷迭代,直至收斂,將每個點(diǎn)分到一個類中。其實(shí)隱馬爾科夫模型的訓(xùn)練和最大熵的訓(xùn)練都是期望最大化算法(em)。首先,根據(jù)現(xiàn)有的模型,計算各個觀測數(shù)據(jù)輸入到模型中的計算結(jié)果,這個過程稱為期望值計算過程,或e過程;接下來,重新計算模型參數(shù),以最大化期望值,這個過程稱為最大化的過程,或m過程。優(yōu)化的目標(biāo)函數(shù)如果是個凸函數(shù),則一定有全局最優(yōu)解,若不是凸函數(shù),則可能找到的是局部最優(yōu)解。在以后的一些問題求解過程中,應(yīng)該考慮其是否是em問題,也可以考慮參考這種思想,不斷迭代以優(yōu)化目標(biāo)的過程。
第二十八章《邏輯回歸和搜索廣告》:雅虎和百度的競價排名廣告并不比谷歌的根據(jù)廣告的預(yù)估點(diǎn)擊率來客觀的推送廣告收入多。點(diǎn)擊預(yù)估率有很多影響因素,一種有效的方法是邏輯回歸模型,邏輯回歸模型是一種將影響概率的不同因素結(jié)合在一起的指數(shù)模型。其訓(xùn)練方法和最大熵模型相似。同樣不是很理解其具體內(nèi)涵。
第二十九章《各個擊破和google云計算的基礎(chǔ)》:分而治之,各個擊破是一個很好的方法,google開發(fā)的mapreduce算法就應(yīng)用了該方法。將一個大任務(wù)分成幾個小任務(wù),這個過程叫map,將小任務(wù)的結(jié)果合并成最終結(jié)果,這個過程叫reduce,該過程如何調(diào)度、協(xié)調(diào)就是工程上比較復(fù)雜的事情了??梢姶罅坑玫降?、真正有用的方法往往簡單而又樸實(shí)。
附錄《計算復(fù)雜度》:計算機(jī)中復(fù)雜度是以o()來表示的,如果一個算法的計算量不超過n的多項(xiàng)式函數(shù),則稱算法為多項(xiàng)式函數(shù)復(fù)雜度的(p問題),是可以計算的。若比n的多項(xiàng)式函數(shù)還高,則是非多項(xiàng)式問題,實(shí)際上是不可計算的。非多項(xiàng)式問題中一種非確定的多項(xiàng)式問題(簡稱np),是科學(xué)家研究的焦點(diǎn),因?yàn)楝F(xiàn)實(shí)中好多問題都是np問題。另外還有np—complete問題(np問題可以在多項(xiàng)式時間內(nèi)規(guī)約到該問題)和np—hard問題,對于這兩種問題,需要簡化找到近似解。
整體上,《數(shù)學(xué)之美》這本書讓我了解了很多文本處理,數(shù)據(jù)挖掘相關(guān)的知識,學(xué)到了很多。其中,簡單美以及一些科學(xué)家的大師風(fēng)范讓我印象深刻!書中提到的一些思想(即道)讓我受益匪淺!
數(shù)學(xué)之美手抄報篇五
本書介紹了google產(chǎn)品中涉及的自然語言處理、統(tǒng)計語言模型、中文分詞、信息度量、拼音輸入法、搜索引擎、網(wǎng)頁排名、密碼學(xué)等內(nèi)容背后的數(shù)學(xué)原理。讓我們看到了布爾代數(shù)、離散數(shù)學(xué)、統(tǒng)計學(xué)、矩陣計算、馬爾科夫鏈等似曾相識的內(nèi)容在實(shí)際生活中的應(yīng)用。相比于其他數(shù)學(xué)題材書籍,吳軍老師把抽象、深奧的數(shù)學(xué)方法解釋得通俗易懂,書中同時引用了諸多的歷史典故和人物介紹,給人以很多啟發(fā),也讓人由衷感嘆數(shù)學(xué)的簡潔和強(qiáng)大。
雖是數(shù)據(jù)專業(yè)畢業(yè),但是才疏學(xué)淺,無力對數(shù)學(xué)的美進(jìn)行闡述。僅就書中兩個比較喜歡的地方發(fā)表一點(diǎn)不成熟的見解,與諸位共勉。
其一,在講google的搜素引擎反作弊時談到做事情的兩種境界“道”和“術(shù)”,術(shù)就是具體的做事方法,而道則是隱藏在問題背后的動機(jī)和本質(zhì)。在術(shù)這個層面解決問題要付出更多的努力,有點(diǎn)類似于我們常說的“頭疼醫(yī)頭,腳疼醫(yī)腳”,暫時不疼了,過幾天復(fù)發(fā)了,再去醫(yī)治,如此往復(fù),無法從根本上解決;而只有找到了致病原因,才能做到藥到病除,根本治愈。本人之前參與過行內(nèi)月終自動核對的研發(fā),月終核對初期數(shù)據(jù)的不一致性只能靠數(shù)百業(yè)務(wù)人員人工核對數(shù)據(jù)差異,然后修改數(shù)據(jù),每月1日都要加班加點(diǎn),工作量很大,這是從術(shù)上解決問題。后來找到了產(chǎn)生差異的原因是會計核算時的利息調(diào)整造成的,把這些數(shù)據(jù)接過來進(jìn)行相應(yīng)沖減后差異就消失了,業(yè)務(wù)人員也不用來加班了,這才是從道上解決問題。
其二,是在做中文網(wǎng)頁排名時提到的從業(yè)界成功的秘訣之一:“先幫助用戶解決80%的問題,再慢慢解決剩下的20%的問題。許多時候做事失敗,不是因?yàn)槿瞬粔騼?yōu)秀,而是做事的方法不對。一開始追求大而全的解決方案,之后長時間不能完成,最后不了了之”。我們在做項(xiàng)目時也是一樣,業(yè)務(wù)有時要的功能非常急,可能有些功能也實(shí)現(xiàn)不了(比如系統(tǒng)響應(yīng)時間長、查詢明細(xì)不能支持省行等)。這時我們就要將焦點(diǎn)關(guān)注在那些可以實(shí)現(xiàn)的80%的功能上,哪怕剛剛上線的系統(tǒng)界面丑點(diǎn),操作復(fù)雜點(diǎn),反應(yīng)速度慢點(diǎn),但是至少業(yè)務(wù)有可用的系統(tǒng),剩下時間再去優(yōu)化那剩下的20%。這樣可以幫助我行搶占先機(jī),在與同行業(yè)的競爭中取得主動。如果等待我們把所有的細(xì)節(jié)都搞清楚再動手開發(fā),力求完美,那么很可能系統(tǒng)能夠上線的時候業(yè)務(wù)已經(jīng)不需要了。
數(shù)學(xué)之美,也就是簡單之美。希望大家能夠喜歡數(shù)學(xué),喜歡數(shù)學(xué)之美。
數(shù)學(xué)之美手抄報篇六
讀完本書,第一感受:次奧!原來數(shù)學(xué)如此多的原理模型概念都可以用去解決各種it技術(shù)問題啊。特別是語言識別和自然語言處理這類問題完全就是建立在數(shù)學(xué)原理之上的。總之,這本書就是用非常深入淺出的話去說明如何用數(shù)學(xué)方法去解決計算機(jī)的各種工程問題。這是一本講道,而不是術(shù)的書。 要完全讀懂這本書,我覺得至少需要掌握這三門課:高等數(shù)學(xué),離散數(shù)學(xué),還有概率論與數(shù)理統(tǒng)計。唉..我當(dāng)初數(shù)學(xué)學(xué)得太水了,還掛了高數(shù)啊...有好的概念沒看懂,以后有時間在好好看吧。如果想搞計算機(jī)研究的話,數(shù)學(xué)基礎(chǔ)必不可少,別總在抱怨各種數(shù)學(xué)課上的東西一輩子都用不著。
發(fā)現(xiàn)作者對人類自然發(fā)展的認(rèn)識非常深,其從語言,文字,數(shù)學(xué)的產(chǎn)生發(fā)展,信息的傳播記錄得出了這個結(jié)論:信息的產(chǎn)生傳播接收反饋,和今天最先進(jìn)的通信在原理上沒有任何差別。就算是科學(xué)上最高深的技術(shù),那也是模擬我們生活中的一些基本原理。
我們今天使用的十進(jìn)制,就是我們扳手指扳了十次,就進(jìn)一次位。而瑪雅文明他們數(shù)完了手指和腳指才開始進(jìn)位,所以他們用的是二十進(jìn)制。實(shí)際上阿拉伯?dāng)?shù)字是古印度人發(fā)明的,只是歐洲人不知道這些數(shù)字的真正發(fā)明人是古印度,而就把這功勞該給了“二道販子”阿拉伯人。
語言的數(shù)學(xué)本質(zhì)
任何一種語言都是一種編碼方式,比如我們把一個要表達(dá)的意思,通過語言一句話表達(dá)出來,就是利用編碼方式對頭腦中的信息做了一次編碼,編碼的結(jié)果就是一串文字,聽者則用這語言的解碼方法獲得說話者要表達(dá)的信息。
自然語言處理模型
計算機(jī)是很笨的,他們唯一會做的就是計算。自然語言處理在數(shù)學(xué)模型上是基于統(tǒng)計的,說一個句子是否合理,就看看他出現(xiàn)的可能性大小如何,可能性就是用概率來衡量,比如一個句子,出現(xiàn)的概率為1/10^10,另一個句子出現(xiàn)的概率為1/10^20,那么我們就可以說第一個句子比第二個句子更加合理。當(dāng)然這要求有足夠的觀測值,他有大數(shù)定理在背后支持。
最早的中文分詞方法
這句話:“同學(xué)們呆在圖書館看書”,如何分詞?應(yīng)該是這樣:同學(xué)們/呆在/圖書館/看書.最先的方法是北航一老師提出的查字典方法,就是把句子從左道右掃描一遍,遇到字典里面出現(xiàn)的詞就標(biāo)示出來,遇到復(fù)合詞如(北京大學(xué))就按照最長的分詞匹配,遇到不認(rèn)識的字串就分割成單個字,于是中文的分詞就完成了。但是這只能解決78成的分詞問題,但是“像發(fā)展中國家”這種短語它是分不出來的。后來大陸用基于統(tǒng)計語言模型方法才解決了。
隱含馬可夫模型(沒這么看懂)
一直被認(rèn)為是解決打多數(shù)自然語言處理問題最為快速有效的方法,大致意思是:隨機(jī)過程中各個狀態(tài)的概率分布,只與他的前一個狀態(tài)有關(guān)。比如對于天氣預(yù)報,我們只假設(shè)今天的氣溫只與昨天有關(guān)而與前天沒有關(guān)系,這雖然不完美,但是以前不好解決的問題都可以給出近視值了。
一個讓我印象深刻的觀點(diǎn):
小學(xué)生和中學(xué)生其實(shí)沒有必要花那么多時間去讀書,其覺得最主要的是孩子們的社會經(jīng)驗(yàn),生活能力,和那時候樹立起來的志向,這將幫助他們一生。而中學(xué)生階段花很多時間比同伴多讀的課程,在大學(xué)以后可以用非常短的時間就可以讀完。因?yàn)樵诖髮W(xué)階段,人的理解能力要強(qiáng)很多,比如中學(xué)要花500小時才能搞明白的內(nèi)容,大學(xué)可能花100小時就搞定了。學(xué)習(xí)和教育是一個人一輩子的事情,很多中學(xué)成績好的人進(jìn)入大學(xué)后有些就表現(xiàn)不太好了,要有不斷學(xué)習(xí)的動力才行。
余弦定理和新聞分類
我在新浪干過一年多新聞,這篇認(rèn)真看了一篇,很吃驚原理cos x與新聞分析也有關(guān)系啊。google的新聞服務(wù)是由計算機(jī)自動整理分類的。而傳統(tǒng)的媒體如門戶網(wǎng)站是讓編輯讀懂新聞,找到主題,再分類分級別的,真苦逼啊...計算機(jī)自動分類原理是這樣:如一篇新聞有10000個詞,組成一個萬維向量,這個向量就代表這篇新聞,可以通過某種算法表達(dá)這個新聞主題的類型,如果兩個向量的方向一致,說明對應(yīng)的新聞用詞一致,方向可用夾角表示,夾角可用余弦定理表示,所以當(dāng)夾角的余弦值接近于1時,這兩篇新聞就可以歸為一類了。
沒看懂的東西:
布爾代數(shù):布爾代數(shù)把邏輯學(xué)和數(shù)學(xué)合二為一,給了我們一個全新的視角看世界...
網(wǎng)絡(luò)爬蟲的基本原來是利用了圖論的廣度優(yōu)先搜索和深度優(yōu)先搜索...
搜索引擎的結(jié)果排名用了稀疏矩陣的計算...
地圖最基本的計算是利用了有限狀態(tài)機(jī)和圖論的最短路徑...
密碼學(xué)原理,最大熵模型,拼音輸入法的數(shù)學(xué)模型,布隆過濾器,貝葉斯網(wǎng)絡(luò)等等...
任何事物都有它的發(fā)展規(guī)律,當(dāng)我們認(rèn)識了規(guī)律后,應(yīng)當(dāng)在生活工作中遵循規(guī)律,希望大家透過it規(guī)律的認(rèn)識,可 以舉一反三的總結(jié)學(xué)習(xí)認(rèn)識規(guī)律,這樣有助于自己的境界提升一個層次。
任何問題總是能找到相應(yīng)的準(zhǔn)確數(shù)學(xué)模型,一個正確的數(shù)學(xué)模型在形式上應(yīng)當(dāng)是簡單的,一個好的方法在形式上應(yīng)當(dāng)也是簡單的。簡單才是美。
數(shù)學(xué)之美手抄報篇七
數(shù)學(xué)一直都是小學(xué)生學(xué)習(xí)的重點(diǎn),因此,數(shù)學(xué)網(wǎng)小學(xué)頻道精心為大家提供數(shù)學(xué)之美,希望對大家有所幫助。
張奠宙與木振武兩位先生在《數(shù)學(xué)美與課堂教學(xué)》中把數(shù)學(xué)美分成了4個層次:美觀、美好、美妙、完美。
現(xiàn)將其中部分摘錄如下:
1、美觀:數(shù)學(xué)對象以形式上的對稱、和諧、簡潔,總給人的觀感帶來美麗、漂亮的感受。
比如:幾何學(xué)常常給人們直觀的美學(xué)形象,美觀、勻稱、無可非議;
在算術(shù)、代數(shù)科目中也很多:
如(a+b)c=ac+b
a+b=b+a
這些公式和法則非常對稱與和諧,同樣給人以美觀感受。
但是外形上的的美觀,并不一定是真實(shí)和正確的。
比如:sin(a+b)=sina+sinb是何等的'對稱、和諧、美觀啊!但是它是錯誤的,就象雖然美麗但是有毒。
2、美好:數(shù)學(xué)上的許多東西,只有認(rèn)識到它的正確性,才能感覺到它的美好。
3、美妙:美妙的感覺需要培養(yǎng),美妙的感覺往往來自意料之外但在情理之中的事物。三角形的高交于一點(diǎn)就是這樣;2個圓柱體垂直相截后將截面展開,其截線所對應(yīng)的曲線竟然是一條正弦曲線,與原來猜想的是一斷圓弧大出意料之外,經(jīng)過分析證明的確是正弦曲線,又在情理之中,美妙的感覺就油然而生了。
4、完美:數(shù)學(xué)總是盡量做到完美無缺。這就是數(shù)學(xué)的最高品質(zhì)和最高的精神境界。歐氏幾何公理化體系的建立,1+1的證明都是追求數(shù)學(xué)完美的典型例子。
數(shù)學(xué)之美手抄報篇八
1,知識要學(xué)以致用。上學(xué)的時候?qū)W習(xí)概率論、運(yùn)籌學(xué)這些學(xué)科,只是單純的認(rèn)為是數(shù)學(xué)知識。讀過這本書才發(fā)現(xiàn),原來我們?nèi)粘S玫降乃阉鳌⒄Z音識別、文章分類這些功能的背后,都是數(shù)學(xué)知識在起作用。
如果讀書的時候就知道這些,學(xué)習(xí)會更有目的性。結(jié)合應(yīng)用情況,也能更好的理解這些概念。
2,一項(xiàng)技術(shù)如果注定要被淘汰,那么從現(xiàn)在就放棄它。從統(tǒng)計學(xué)的角度解決機(jī)器翻譯的方法,明顯優(yōu)于從語法結(jié)構(gòu)角度起手的方法。但是還是有很多學(xué)者鉆研后者,最后白白浪費(fèi)了自己多年的時間。
一個公司更應(yīng)該如此。后面讀《浪潮之巔》看到雅虎為了避免文章分類出錯,竟然采用人工分類的方法??吹降臅r候,很難想象這是一家互聯(lián)網(wǎng)公司能做出來的事情。
數(shù)學(xué)之美手抄報篇九
周旭龍
一、關(guān)于此書
數(shù)學(xué)之美
記得幾年前看完了《浪潮之巔》之后,便知道了吳軍老師還有另外一本非常出名的著作《數(shù)學(xué)之美》,但是一直沒有列入計劃閱讀。直到我看完了《硅谷之謎》以及《智能時代》之后,便自己上網(wǎng)買了一本第二版的《數(shù)學(xué)之美》。正如李開復(fù)博士所說:“在我認(rèn)識的頂尖研究員和工程師里,吳軍博士是極少數(shù)具有強(qiáng)大敘事能力和對科技、信息領(lǐng)域的發(fā)展變化有很深的縱向洞察力,并能進(jìn)行有效歸納總結(jié)的人之一。”,正是因?yàn)樵谇懊鎺妆緯形铱吹搅藚擒娎蠋煆?qiáng)大的“講故事”的能力,他能用通俗易懂,深入淺出的語言將技術(shù)原理講清楚,這就十分膩害了,在《數(shù)學(xué)之美》中他也再次展示了這一點(diǎn)。
最近除了閱讀《數(shù)學(xué)之美》,還訂閱了吳軍老師的《硅谷來信》,每天在早上洗漱時聽一封信,在睡覺前也會聽一封信,借吳軍老師之眼去看世界,也可以讀到一流的科學(xué)家/工程師對于各種事件非常獨(dú)特的見解,以豐富自己的眼界。在此,感謝之前sobey公司的我的前老板劉總的推薦,我也將《硅谷來信》推薦給你們(可以利用你們的碎片時間來學(xué)習(xí))。
二、看數(shù)學(xué)之美
part1簡單即是美的方法
這本書一共29章,主要介紹了這些數(shù)學(xué)方法:統(tǒng)計方法、統(tǒng)計語言模型、中文信息處理、隱含馬爾科夫模型、布爾代數(shù)、圖論、網(wǎng)頁排名技術(shù)、信息論、動態(tài)規(guī)劃、余弦定理、矩陣運(yùn)算、信息指紋、密碼學(xué)、搜索技術(shù)、數(shù)學(xué)模型、最大熵模型、拼音輸入法、貝葉斯網(wǎng)絡(luò)、句法分析、維特比算法、各個擊破算法等。
例如,在統(tǒng)計語言模型一章中,我們會發(fā)現(xiàn)原來使用簡單的數(shù)學(xué)模型就可以解決復(fù)雜的語音識別、機(jī)器翻譯等問題,但是使用很復(fù)雜的文法規(guī)則和人工智能卻做不到,而這些僅僅需要我們了解概率論和統(tǒng)計學(xué)的知識就可以應(yīng)用到工程中。(當(dāng)然,最先提出將統(tǒng)計學(xué)方法應(yīng)用到計算機(jī)應(yīng)用工程問題的先驅(qū)們是真的值得我們?yōu)槠涔恼频模。┐送猓唵蔚牟紶柎鷶?shù)就是支撐搜索引擎索引的數(shù)學(xué)基礎(chǔ),一個漂亮的pagerank矩陣乘法迭代加上一個tf-idf公式,就可以大程度地改善搜索結(jié)果的質(zhì)量,()無一不體現(xiàn)出簡單即是美的特點(diǎn),而數(shù)學(xué)模型剛好符合這個要求。
又如,在信息的度量和作用一章,我們再次回顧了信息熵的重要性,這也是吳軍老師一直在重復(fù)提及的信息論(吳軍老師喜歡站在信息論的高度看問題,而不只是看到片面的表象)。一個事物內(nèi)部會存在隨機(jī)性,也就是不確定性,而從外部消除這個不確定唯一的辦法是引入信息,而需要引入的信息量取決于這個不確定的大小。就像我們在追一個女生的時候,很多時候往往不是一拍即合,一見鐘情的,只有互相表達(dá)的信息(即引入信息)足夠了,才會消除各自對于對方的顧慮。等到引入的信息量消除了處在兩個人之間的屏障,那么我們就可以跟對方告白宣告在一起了。
本書中介紹的所有的這些方法在吳軍老師的筆下都只為了突出一句話:數(shù)學(xué)的精彩之處就在于簡單的模型可以干大事。
ps:對于書中提到的大部分的數(shù)學(xué)模型都有其開源的代碼實(shí)現(xiàn),而我們這些工程人員只需要使用這些開源工具到自己的實(shí)際項(xiàng)目中即可,么么噠!
part2傳道授業(yè)的專家們
這本書除了在高層講述數(shù)學(xué)方法在計算機(jī)應(yīng)用(主要是語音識別等互聯(lián)網(wǎng)應(yīng)用領(lǐng)域)的基本原理(吳軍老師稱其為“道”)外,還穿插了一些傳道的專家們的故事,包括:賈里尼克、辛格、馬庫斯以及維特比等。
比如,吳軍老師的博士生導(dǎo)師賈里尼克教授。賈里尼克教授少年坎坷,也并非開始就投身到自然語言方面的研究,關(guān)鍵是他的思想和他的道。賈里克尼教授治學(xué)嚴(yán)謹(jǐn)、用心對待自己的學(xué)生,對于學(xué)生的教導(dǎo),教授告訴你最多的是“什么方法不好”。這讓我回想起當(dāng)年看李開復(fù)博士的《世界因你而不同》一書中聽到的一句話(李開復(fù)博士的導(dǎo)師羅迪教授給李開復(fù)講的一句話)“我不贊同你,但我支持你”,于是也就有了李開復(fù)在語音識別領(lǐng)域的一鳴驚人的成就。賈里尼克的一生富于傳奇色彩,先在哈佛大學(xué)、康奈爾大學(xué)教書,接著在ibm任職,之后又去約翰-霍普金斯大學(xué)教書。他的貢獻(xiàn)主要有如下幾個:第一,提出了統(tǒng)計語言識別的框架結(jié)構(gòu);第二,共同提出了bcjr算法;第三,領(lǐng)導(dǎo)建立了世界著名的clsp實(shí)驗(yàn)室。
又如,辛格博士現(xiàn)任主管google搜索的高級副總裁,并被學(xué)術(shù)界公認(rèn)是當(dāng)今最權(quán)威的網(wǎng)絡(luò)搜索專家。他奉行簡單的哲學(xué),并一直堅持尋找簡單有效的解決方案。令我印象最深刻的就在于,吳軍博士在設(shè)計分類器時,依照吳軍力求完美的態(tài)度,應(yīng)該還會花很多時間去盡善盡美,但是被辛格博士止住了,“在工程上簡單實(shí)用的方法最好”。這種做事情的哲學(xué)其實(shí)非常值得我們借鑒,即先幫助用戶解決80%的問題,再慢慢解決剩下的20%的問題,是在工業(yè)界成功地秘訣之一。許多失敗并不是因?yàn)槿瞬粌?yōu)秀,而是做事情的方法不對,一開始追求大而全的解決方案,之后長時間不能完成,最后不了了之。在我們的日常工作中也是一樣,在項(xiàng)目開發(fā)設(shè)計中,很多人不管業(yè)務(wù)場景和技術(shù)要求,一上來就這種架構(gòu)那種模式,往往不考慮到底這種設(shè)計是不是大牛拉小車,最后雖然解決了問題但是交付時間被延后,既讓用戶不滿意也讓部門不滿意。
三、悟技術(shù)之道
吳軍老師在《數(shù)學(xué)之美》中提到:“這本書的目的是講道而不是講術(shù)。很多具體的搜索技術(shù)很快會從獨(dú)門絕技到普及,再到落伍,追求術(shù)的人一輩子工作很辛苦。只有掌握了搜索的本質(zhì)和精髓才能永遠(yuǎn)游刃有余”?;氐轿覀?nèi)粘5拈_發(fā)工作中,作為it工程師,程序員,要跟上技術(shù)的大潮流,需要學(xué)習(xí)的技術(shù)太多太多,如果一味地只為去追技術(shù)的腳步,那么我們也會很累很累,而且可能會是花了80%的時間卻只得到了20%的效果,更別談期望值最大化了,或許根本就達(dá)不到你期望值的60%。相反,比如cnblogs(博客園)在招聘工程師一直提到的“3大原理,2個協(xié)議,1種結(jié)構(gòu)”(計算機(jī)原理、操作系統(tǒng)原理、編譯原理、tcp/ip協(xié)議、http協(xié)議、數(shù)據(jù)結(jié)構(gòu))卻是沒有怎么變化的(甚至是短時間不會變化的),而這些東西恰好是在這個浮躁的社會,我們這些所謂的計算機(jī)系的畢業(yè)生,所謂的科班畢業(yè)生所缺乏的(因?yàn)榇蟛糠秩硕紱]有在大學(xué)期間將這些東西真正地學(xué)好,而只是為了所謂的幾個學(xué)分去圖書館奮戰(zhàn)一兩個周末而已)。站在高處向下看,也許我們一直看不到底,但是站在底處卻是可以看見底的,這也是我為什么在畢業(yè)之后還要去重新溫故操作系統(tǒng)原理和數(shù)據(jù)結(jié)構(gòu)等科目的原因。
愿我們能夠在底層站的更穩(wěn)后,能夠以一種更加全局的視角去看待上層建筑,感悟技術(shù)之道!
數(shù)學(xué)之美手抄報篇十
我第一次看到這本書是在兩三年前,當(dāng)時看的是電子書,雖然沒太仔細(xì)看,但是第一次近距離了解到這些互聯(lián)網(wǎng)應(yīng)用背后的數(shù)學(xué)原理。
前段時間,我在同學(xué)的桌上看到了《數(shù)學(xué)之美》的紙質(zhì)書,就向他借來讀。雖說"書非借不能讀也",但實(shí)際上借了書也沒能好好讀,斷斷續(xù)續(xù)讀了有一個月才讀完。
由于工作背景的緣故,吳軍博士的這本書主要內(nèi)容集中在語言識別和搜索領(lǐng)域,但這絲毫不妨礙它確實(shí)反映了很多共同的道理。我總結(jié)了幾點(diǎn)供大家探討。
歐拉公式,最美的數(shù)據(jù)公式之一。
雖然在大家的眼里,數(shù)學(xué)是一門深奧的學(xué)科,但是很多數(shù)學(xué)規(guī)律卻能用非常簡單的公式表示出來。我想"簡單卻非常有用"或許就是數(shù)學(xué)之美的內(nèi)涵吧。
書中作者給了很多"簡單卻非常有用"的例子,比如簡單的布爾代數(shù)就是搜索引擎的數(shù)學(xué)基礎(chǔ);比如助google一舉逆襲成為搜索老大pagerank算法就是矩陣乘法迭代結(jié)合tf-idf公式;地圖導(dǎo)航搜索就是簡單的動態(tài)規(guī)劃;統(tǒng)計語言模型可以輕松解決看似難度、復(fù)雜度超高機(jī)器翻譯、語音識別。
數(shù)學(xué)的精彩之處就在于簡單的模型可以干大事。從本質(zhì)上講,數(shù)學(xué)的思維方法就是抽象與簡化。簡單的模型怎么來?靠的是先抽象,后簡化。對于復(fù)雜的問題,往往可以通過抽象,然后用數(shù)學(xué)模型來描述它。選擇了合理的模型就成功了一半。但是有了模型,往往模型看著簡單,但求解比較困難。這就需要合理假設(shè)繼續(xù)簡化,或者說通過增加合理的假設(shè)條件來簡化計算。以書上提到的馬爾科夫鏈為例,雖然公式的求解非常困難,但是一旦加上適當(dāng)?shù)募僭O(shè),問題就一下子簡化了非常多。
所以,針對紛繁蕪雜的現(xiàn)實(shí)情況,我們一定要能時刻準(zhǔn)備著把復(fù)雜問題簡單化,一定要做到大膽合理假設(shè),盡可能的簡化問題,抓住其主要矛盾,先用很小的代價解決大部分的問題,剩下的部分再分步解決。
作者說到,技術(shù)分為術(shù)和道兩種,具體的做事方法是術(shù),做事的原理和原則是道。技術(shù)容易學(xué),但也容易落伍,所以追求術(shù)的.人一輩子工作很辛苦,只有掌握了道的本質(zhì)和精髓才能永遠(yuǎn)游刃有余。真正做好一件事沒有捷徑,需要一萬小時的專業(yè)訓(xùn)練和努力。
道是什么?道實(shí)際上就是方向,就是判斷。
我想有些領(lǐng)導(dǎo)之所以成為優(yōu)秀的領(lǐng)導(dǎo),是因?yàn)樗麄冋莆樟说?,反而對具體的術(shù)不那么關(guān)注。
舉個書上的兩個例子,都是關(guān)于搜索的:一個例子是搜索的本質(zhì)是什么?自動下載盡可能多的網(wǎng)頁;建立快速有效的索引;根據(jù)相關(guān)性對網(wǎng)頁進(jìn)行公平準(zhǔn)確的排序。另一個例子是搜索引擎作弊的本質(zhì)是什么?是在網(wǎng)頁排名信號中加入了噪聲,因此反作弊的關(guān)鍵是去除噪聲。
所以,我們在工作的時候,要善于理解事物的原理與本質(zhì)。要先回答是什么、為什么?最后才是怎么做。再比如,在學(xué)習(xí)某個軟件或某項(xiàng)技術(shù)時,就需要先掌握它的工作原理與工作機(jī)制,以便于我們判斷其適用的場景和不適用的場景,而不是先去熟悉怎么用它。
書上對自然語言處理著墨很多。最初的自然語言處理是基于規(guī)則的句法分析,但是一段時間過后,人們發(fā)現(xiàn)句法分析的準(zhǔn)確率很難提升。正當(dāng)句法分析派走投無路的時候,統(tǒng)計語言模型出現(xiàn)了,而且越走越順,很快就把句法分析派遠(yuǎn)遠(yuǎn)拋在了后面。問題就來了,那為什么最開始科學(xué)家們不直接研究統(tǒng)計語言模型?答案當(dāng)然是不能,原因是時機(jī)還不成熟,因?yàn)榻y(tǒng)計語言模型所需要基于的大數(shù)據(jù)量的語言庫還沒有,大規(guī)模并行計算的能力還不夠。同樣的,統(tǒng)計語言模型就是最好的嗎?當(dāng)然是不盡然,科學(xué)家們現(xiàn)在開始研究基于深度學(xué)習(xí)的自然語言處理,相信不久的將來,語言識別、機(jī)器翻譯會有另外一個質(zhì)的飛躍。
我們做什么事情都不可能是一蹴而就,一步到位,想畢其功于一役的往往最后的結(jié)局都是失敗的。
對我們而言,不管是架構(gòu)規(guī)劃也好、系統(tǒng)建設(shè)也好、管理工作也好,更是需要找準(zhǔn)突破口,循序漸進(jìn),逐步演化。當(dāng)然,我們也不能固步自封、墨守成規(guī)。
數(shù)學(xué)之美手抄報篇十一
兩根自我扭曲,向上,相對而立的不銹鋼方柱雕塑,豎立在小區(qū)的庭院中。
我端詳,兩根鋼柱,似一對秘密來往的情人,你望著我,我看著你,保留一點(diǎn)空間,堅守一段距離,生怕被人看見;你是我的另一面,我是你的另一面,相互凝望相互想像;你中有我的影子,我中有你的形象,熱烈盼望無限期望。好像是說:有距離,請不要走近我;心靠近,請不要遠(yuǎn)離我;親近我。別讓人看見我,偶爾在時間、空間與心靈的三維坐標(biāo)上相遇,這便是永恒的向往。其形,似乎你是我的左心房,我是你的右心房,不同的心房間隔一段距離,不是走近,而是隔斷,在時空中,距離滋生著永恒的美麗;其情,在心與心幾乎是零距離的默默凝視中,無論相距咫尺,還是遠(yuǎn)隔天涯,都有共同的心聲,都能展現(xiàn)出一種孤獨(dú)、超脫、思念的距離之美。
寫到此處,突然想起銀行營業(yè)大廳里的一塊牌子:請在一米線外等候。一條黃色的等待線,界定了一個美的距離;想起高速公路上兩車之間的距離,留下一點(diǎn)緩沖的余地,可以隨時調(diào)整自己。距離,有著諸多不便和難言的苦楚。但,不跨越那條線,不縮短那點(diǎn)安全空間,卻是對前面客戶隱私的尊重,卻是對自己安全的珍惜。由此細(xì)細(xì)地品味,距離產(chǎn)生寂寞與孤獨(dú),也產(chǎn)生美麗與品位。有品位才有感悟,有美麗才能產(chǎn)生一種奇妙的效果。
距離有時間的、空間的,也有心理的。
時間的距離,可以滋生思念,也能夠滋生怨恨。能讓人感到溫情時,再遠(yuǎn)也沒有距離;而讓人感到厭惡時,再近也令人討厭。有時,零距離時,往往感受不到美麗與幸福;離你最遠(yuǎn)的,反而覺得最近,時時牽掛。
空間的距離,冥王星離太陽太遠(yuǎn),59億公里,溫度低至200°左右,無生命可言。水星離太陽太近,約5000萬公里,溫度高達(dá)400℃左右,亦無生命可言。地球離太陽約1。5億公里,不遠(yuǎn)不近,溫度宜人,充滿生機(jī)。人際,遠(yuǎn)了,容易淡忘;近了,生出摩擦;適中,產(chǎn)生美麗。人就像冬天的刺猬,太遠(yuǎn)了,覺得孤獨(dú)和寒冷,感到隔膜與障礙;太近了,感到刺人,又仿佛失去了神秘感和吸引力。車與車太近,準(zhǔn)出車禍;人與人太近,準(zhǔn)出矛盾。遠(yuǎn)觀則清,近觀則濁,距離并不是無情,而是空間的轉(zhuǎn)換,有天涯若比鄰,就有咫尺成天涯。
心理的距離?!盀槭裁慈松鷼鈺r說話要喊?”“因?yàn)?,兩個人生氣的時候,心的距離是很遠(yuǎn)的,為讓對方聽得見,就必須喊起來。在喊的同時人會更生氣,更生氣距離就更遠(yuǎn),更遠(yuǎn)就要更大聲地喊……”有緣天涯咫尺,無緣咫尺天涯。朋友之間要保持一段距離,過于親近,有時會被刺傷,過于疏遠(yuǎn),叉感受不到友情的溫暖,只有把握好相處的距離,才能讓友誼之樹常青。世界上最遠(yuǎn)的距離,不是天涯海角,不是相隔千里,不是生死相離,也不是天各一方,而是就在身邊,卻不知道珍惜!關(guān)鍵是懂得:懂得喝酒的人,找到感覺;懂得知足的人,找到快樂;懂得放下的人,找到自由;懂得關(guān)懷的人,找到朋友;懂得珍惜的人,找到幸福。
需要距離時,距離是一種美,有距離就有交流溝通的彩虹,有距離就有理解寬容的天空;不需要距離時,距離就是一條荒蕪的路,演繹出人間一幕幕悲歡離合的??;知道自己和別人之間的距離,是一種智慧;掌握自己與別人之間的距離,是一種技巧。
距離,凝聚了力,升華了愛,能隔斷是非,求得安全,獲得美滿;能淡化仇恨,彌合裂痕,泯滅是非。適當(dāng)?shù)氖柽h(yuǎn),彼此留一定的空間,人與人之間的情感就不會套上繩索。愛,需要成長的空間,如今,往日的`藤纏樹、樹戀藤的“粘”式愛情令人神疲心累,每時每刻都在一起纏著、繞著、抱著、親著,形影不離,親密無間,未必就能心心相印,只會令雙方窒息。愛的藝術(shù)就像放風(fēng)箏,不要把對-方抓牢,而應(yīng)該讓彼此在一定的距離兩端相互欣賞,只要攥住手中那根線,給他一片自由的空間,才能欣賞到翱翔的風(fēng)景。距離,給美留下足夠的自由和想像空間,具有一種牽腸掛肚的思念和時空變換的新鮮感,猶如輕霧繚繞的高山,猶如可望不可及的皎月。保持距離,才能保護(hù)自己,才能給對方適當(dāng)?shù)幕顒涌臻g,才能保持自己的相對獨(dú)立性。
數(shù)學(xué)之美手抄報篇十二
在網(wǎng)上看到有人推薦吳軍博士的《數(shù)學(xué)之美》,盡管我從事社會科學(xué)研究,但對數(shù)學(xué)的推崇一直如此,所以買來一讀,我的真切體驗(yàn)正如吳軍博士在書的后記中所說,把自己“境界提升了一個層次”。
那么,對我而言,到底提升了什么境界呢?
首要的肯定是思想境界。在未讀這本書之前,我知道對于這個世界的事件形成的信息集合,人類只有兩種方式可以表達(dá),一個是數(shù)字,一個是語言。整個實(shí)數(shù)的集合是無窮個,而且每個數(shù)字都是唯一的;整個世界中的事件也是無窮個的,而且每個事件也時獨(dú)一無二的,這樣數(shù)學(xué)中的數(shù)字集合與世界中的事件集合就構(gòu)成一個一一對應(yīng)的關(guān)系,所以研究數(shù)字之間的關(guān)系,實(shí)際上就是在研究世界中事件之間的關(guān)系。語言中的概念和世界中的事件之間也是可以構(gòu)成一個對應(yīng)關(guān)系的,但問題是,語言中概念的集合是有限的,所以它和數(shù)字集合的對應(yīng)顯然只能是部分對應(yīng)。
計算機(jī)科學(xué)的發(fā)展,人類需要把語言處理成數(shù)字,因?yàn)橛嬎銠C(jī)只能識別數(shù)字信號,所以“語言的數(shù)字化”成為計算機(jī)產(chǎn)生以來發(fā)展最快、而且最有創(chuàng)新性的領(lǐng)域,而許多華人科學(xué)家成為了這個領(lǐng)域的頂尖專家,如李開復(fù),吳軍博士是卓越的科學(xué)家之一。至此我才感到,在計算機(jī)主導(dǎo)的世界中,信息化就是數(shù)字化,而最難的數(shù)字化、也是最有成就的數(shù)字化,就是對人類自然語言的數(shù)字化,因?yàn)槿祟惖男畔缀?00%是用語言承載、傳播的,計算機(jī)要與人對話,變成智能化的機(jī)器,首先要解決的就是語言的數(shù)字化問題。但我們在電腦上自如地輸入文字時、或者拿著手機(jī)通話時,我們跟本沒有意識到,那些卓越的語言科學(xué)家,早已經(jīng)把我們的語言,轉(zhuǎn)化成數(shù)字信號,通過輸入、處理、解碼的方式,讓我們無障礙地聯(lián)絡(luò)、工作。
我似乎感到,語言與數(shù)字的關(guān)系,就是人與自然關(guān)系的接口。套用古希臘畢達(dá)哥拉斯學(xué)派的觀點(diǎn),加上我的理解,即是,數(shù)是萬物的本原,語言是人的本原!
吳軍博士似乎也在提升我對方法的認(rèn)識境界??茖W(xué)研究的思考方式,習(xí)慣遵循本質(zhì)、規(guī)律、連續(xù)性思維,在語言學(xué)研究的早期,人類為了讓計算機(jī)識別語言,采用建立語言規(guī)則和語言規(guī)則數(shù)據(jù)庫的辦法,但最終以失敗告終(20世紀(jì)50-70年代),70年代后科學(xué)家采用了語言統(tǒng)計模型,研究取得了突飛猛進(jìn)。語言統(tǒng)計模型的勝利,再一次證明了宇宙量子模型的信念,世界是不連續(xù)的隨機(jī)性的粒子構(gòu)成,人類數(shù)千年文明進(jìn)化出來的語言系統(tǒng),就是動態(tài)的隨機(jī)概率事件。其二,物理思維再也難逃牛頓的經(jīng)典本質(zhì)思維方法,即找尋到百分之百確定性的規(guī)律,而信息論思維是研究如何把握不確定性現(xiàn)象,利用概率統(tǒng)計是不二法門。其三,語言本質(zhì)上就是信息傳播,只有從通信模型視角才能真正理解計算機(jī)的功能,對語言的編碼、處理、傳輸、解碼是計算機(jī)的強(qiáng)項(xiàng),計算機(jī)是永遠(yuǎn)不可能理解語言的意思的。
在《數(shù)學(xué)之美》中,吳軍博士對他的老師、師兄弟、同事的經(jīng)歷、掌故進(jìn)行了敘述,讓我們了解到這些世界一流的學(xué)科家、技術(shù)精英們的為人處世品質(zhì)、鮮明個性、科學(xué)素養(yǎng)及其管理風(fēng)格。例如賈里尼克對博士生的嚴(yán)酷淘汰,馬庫斯對學(xué)生的寬宏大度,但我感到他們有一樣?xùn)|西是共同的,就是對科學(xué)創(chuàng)造、頂尖人才的識別和器重,甚至是無條件的包容。如此為人的境界才是根本,因?yàn)閭ゴ蟮目茖W(xué)創(chuàng)造畢竟是人做出來的,只有崇高的人文精神之下才能造就頂尖的人才、一流的科學(xué)和技術(shù)。
觀國內(nèi)的學(xué)說界,官風(fēng)盛行、人情充斥,與這些一流學(xué)說群對科學(xué)創(chuàng)造的賞識、對個性人才的包容,對科學(xué)探索的熱誠,可謂相去甚遠(yuǎn)。
看來,我們只能寄希望于年輕一代,但愿吳博士的《數(shù)學(xué)之美》,能讓我們的學(xué)子們,初步體驗(yàn)到科學(xué)精英們卓越的才智與情懷。
數(shù)學(xué)之美手抄報篇十三
連手指、腳尖等前端部位都注意到的人,在人群中看起來就像聚光燈照射一般亮眼。
只是拿個玻璃杯,撩一撩頭發(fā)或者蹺一蹺腿就可以散發(fā)出令人心醉的氣息,這種改變動作與外表的原動力其實(shí)就是自信。
這里我以芭蕾舞者為例。芭蕾舞者那精心琢磨過的`美可以說是至高無上的藝術(shù)。即使現(xiàn)在不是芭蕾舞者,但只要小時候?qū)W過一點(diǎn)芭蕾舞,也會散發(fā)出過人的優(yōu)雅氣質(zhì)。過去讓我覺得心動的女性幾乎100%都學(xué)過芭蕾舞。
我并不是鼓勵大家學(xué)習(xí)芭蕾舞,但建議大家能將芭蕾舞的動作與氣質(zhì)帶入日常生活,比如用手指輕輕固定吸管,坐在沙發(fā)上時將手輕靠在扶手上一個小小的動作就能令人瞬間變得優(yōu)雅。即使沒有人注意到也沒關(guān)系,最重要的是自己要熟悉前端之美,并將這樣的感覺帶入日常生活。在這樣的狀態(tài)下,你一定比過去美麗動人。
數(shù)學(xué)之美手抄報篇十四
確切的來說,《數(shù)學(xué)之美》并不是一本書,它是谷歌黑板報中的一系列文章,介紹數(shù)學(xué)在信息檢索和自然語言處理中的主導(dǎo)作用和奇妙應(yīng)用,每一篇文章都不長,但小中見大,從看似高深的高科技中用通俗易懂的案例展示了數(shù)學(xué)之美,深深的吸引了我。
這一系列文章的作者是google公司的科學(xué)家吳軍。他畢業(yè)于清華大學(xué)計算機(jī)系(本科)和電子工程系(碩士),并于1993-在清華任講師。他于19起在美國約翰霍普金斯大學(xué)攻讀博士,并于xx年獲得計算機(jī)科學(xué)博士學(xué)位。在清華和約翰霍普金斯大學(xué)期間,吳軍博士致力于語音識別、自然語言處理,特別是統(tǒng)計語言模型的研究。他曾獲得1995年的全國人機(jī)語音智能接口會議的最佳論文獎和xx年eurospeech的最佳論文獎。
吳軍博士于xx年加入google公司,現(xiàn)任google研究院資深研究員。到google不久,他和三個同事們開創(chuàng)了網(wǎng)絡(luò)搜索反作弊的研究領(lǐng)域,并因此獲得工程獎。xx年,他和兩個同事共同成立了中日韓文搜索部門。吳軍博士是當(dāng)前google中日韓文搜索算法的主要設(shè)計者。在google其間,他領(lǐng)導(dǎo)了許多研發(fā)項(xiàng)目,包括許多與中文相關(guān)的產(chǎn)品和自然語言處理的項(xiàng)目,并得到了公司首席執(zhí)行官埃里克.施密特的高度評價。吳軍博士在國內(nèi)外發(fā)表過數(shù)十篇論文并獲得和申請了近十項(xiàng)美國和國際專利。他于xx年起,當(dāng)選為約翰霍普金斯大學(xué)計算機(jī)系董事會董事。
正是他在信息檢索與自然語言處理領(lǐng)域中的一系列工作,使他講述了我所看到的內(nèi)容-數(shù)學(xué)之美。
看了數(shù)學(xué)之美,立即聯(lián)想到了金庸小說中的武林高人,總是把一套大多數(shù)人都會的入門功夫使得威力無比,擊潰眾多敵者。東西放在那,它的威力如何,并鍵在于使用者,武術(shù)如此,數(shù)學(xué)同樣如此。
于我而言,語音視別是一類高科技,作為非專業(yè)人土,深覺高奧。但看完數(shù)學(xué)之美之后,頓感驚詫,原來如此深奧東西的解決方法自己也學(xué)過,并且理工科讀過大學(xué)的人都學(xué)過,那就是統(tǒng)計學(xué)中的條件概率p(a/b),即b事件發(fā)生條件下a事件發(fā)生的概率。
如果s表示一連串特定順序排列的詞w1,w2,…,wn,換句話說,s可以表示某一個由一連串特定順序排練的詞而組成的一個有意義的句子?,F(xiàn)在,機(jī)器對語言的識別從某種角度來說,就是想知道s在文本中出現(xiàn)的可能性,也就是數(shù)學(xué)上所說的s的概率用p(s)來表示。利用條件概率的公式,s這個序列出現(xiàn)的概率等于每一個詞出現(xiàn)的概率相乘,于是p(s)可展開為:
p(s)=p(w1)p(w2|w1)p(w3|w1w2)…p(wn|w1w2…wn-1)
其中p(w1)表示第一個詞w1出現(xiàn)的概率;p(w2|w1)是在已知第一個詞的前提下,第二個詞出現(xiàn)的概率;以次類推。不難看出,到了詞wn,它的出現(xiàn)概率取決于它前面所有詞。從計算上來看,各種可能性太多,無法實(shí)現(xiàn)。因此我們假定任意一個詞wi的出現(xiàn)概率只同它前面的詞wi-1有關(guān)(即馬爾可夫假設(shè)),于是問題就變得很簡單了?,F(xiàn)在,s出現(xiàn)的概率就變?yōu)椋?/p>
p(s)=p(w1)p(w2|w1)p(w3|w2)…p(wi|wi-1)…
(當(dāng)然,也可以假設(shè)一個詞又前面n-1個詞決定,模型稍微復(fù)雜些。)
接下來的問題就是如何估計p(wi|wi-1)。現(xiàn)在有了大量機(jī)讀文本后,這個問題變得很簡單,只要數(shù)一數(shù)這對詞(wi-1,wi)在統(tǒng)計的文本中出現(xiàn)了多少次,以及wi-1本身在同樣的文本中前后相鄰出現(xiàn)了多少次,然后用兩個數(shù)一除就可以了,p(wi|wi-1)=p(wi-1,wi)/p(wi-1)。
也許很多人不相信用這么簡單的數(shù)學(xué)模型能解決復(fù)雜的語音識別、機(jī)器翻譯等問題。其實(shí)不光是常人,就連很多語言學(xué)家都曾質(zhì)疑過這種方法的有效性,但事實(shí)證明,統(tǒng)計語言模型比任何已知的借助某種規(guī)則的解決方法都有效。比如在google的中英文自動翻譯中,用的最重要的就是這個統(tǒng)計語言模型。去年美國標(biāo)準(zhǔn)局(nist)對所有的機(jī)器翻譯系統(tǒng)進(jìn)行了評測,google的系統(tǒng)是不僅是全世界最好的,而且高出所有基于規(guī)則的系統(tǒng)很多。
這就是數(shù)學(xué)的美妙之處了,它把一些復(fù)雜的問題變得如此的簡單。
看到《數(shù)學(xué)之美》,在感嘆數(shù)學(xué)的美妙與神奇之處時,自然而然聯(lián)系到自己專業(yè)(地質(zhì)工程而或巖土工程)中的數(shù)學(xué)應(yīng)用。
數(shù)學(xué)之美手抄報篇十五
其實(shí)不然,數(shù)學(xué)一直滲透在我們生活的各個方面,尤其是在今天這個信息時代,很多簡單樸素的數(shù)學(xué)思想,能發(fā)揮一般人很難想象的巨大作用。比如,計算機(jī)處理自然語言,用到的最重要工具是統(tǒng)計學(xué)的思想;計算機(jī)對新聞內(nèi)容的分類,依靠的是數(shù)學(xué)里的余弦定理;而電子電路的基本邏輯,則來源于僅有0和1兩個數(shù)字的布爾代數(shù)。
在《數(shù)學(xué)之美》里,吳軍用自己在工作中使用數(shù)學(xué)的親身經(jīng)歷,為我們展現(xiàn)了數(shù)學(xué)的重要性,以及他對數(shù)學(xué)之美的理解。吳軍是“得到”app專欄《吳軍的谷歌方法論》的主理人。曾先后供職于谷歌和騰訊,是著名的自然語言處理專家和搜索專家。同時,他還是位暢銷書作家,除了這本《數(shù)學(xué)之美》以外,還寫過《文明之光》《智能時代》《浪潮之巔》等多本暢銷書。
【本文地址:http://aiweibaby.com/zuowen/7297105.html】