读书笔记

By admin in 天文学 on 2019年3月22日

率先章 文字和语言vs数字和消息

在此以前:数学和人类对自然的认识以及生育运动关系起来,如天艺术学、几何和工程学、文学、力学、物管理学、生物学等。

香农(消息论)——第1次将数学和言语学生联合会系起来

信息

  • 很久从前人类以差异的叫声表示分裂的新闻,达到互相调换的目标。
  • 音信传播的基本形式:  源音讯 ->
    编码 -> 信道传输 -> 接收者解码 -> 还原音信

文字和数字的来源于

文字:文字是新闻的载体。知道“罗塞塔”石碑的传说。

  1. 新闻冗余的基本点:当石碑经历风吹日晒,一部分文字被腐蚀掉时,还有另一有的重新的文字作为备份,能够回复石碑的新闻。类似的还有身体的DNA,在人体个中,有99%的DNA是船到江心补漏迟的,正是那99%管教了人类的平常繁殖,当遇人类境遇辐射时,DNA产生变异的票房价值是1%。
  2. 语言材质,尤其是双语或多语的相比较语言材质对翻译至关心重视要,它是我们从事机械翻译商讨的基本功。
  3. 不等的文字系统在笔录新闻上的力量是等价的。这些结论是翻译的根底。
  4. 文字按意思聚类(多义性)和接纳上下文消除歧义性(disambiguation)。

数字:进制的发生

为了表达大数,分化的雍容发生了不相同的数字代表方法,最后唯有利用10进制的文武生活了下来。

  • 10进制:古中国、古印度、阿拉伯
  • 12进制:印度、苏梅岛
  • 20进制:玛雅,玛雅文明退步的来由之一正是进制太复杂,不方便人民群众正确进步,我们未来要背九九乘法表,他们背的是361路围棋棋盘。
  • 单位进制:休斯敦(五 、十 、50、100、500、一千)

数字的表示方法(编解码原理)

  • 中原:编解码的密钥是乘除 二百万 = 2 x 100 x
    一千0
  • 汉堡:编解码的密钥是加减 IV = 5-1 = 4
     ,要用罗马文字表明10亿的话,一黑板是写不下的。

文字和言语背后的数学

  1. 切合最短编码原理(新闻论):(亚特兰大体系文字)常用字短,生僻字长。(意型文字)常用字笔画少,生僻字笔画长。
  2. 古中文的文言文是削减的国语。古人平常口头调换用的是白话文,与现行反革命的口头语相差相当小。
    那为何有文言文呢?当时没有神速的保留文字的章程,文字供给刻在竹子、龟壳上,相比费时费劲,于是古人就把语言压缩成简练的古文,以节约新闻存款和储蓄量。道理:当传输信道相比窄的时候,新闻就要压缩编码。
  3. 抄佛经的校验情势:将各类字母映射成2个数字。把每一页文字对应的数字按行列加起来,写在每行每列的尾巴。在抄写时,把温馨的数字和原版的书文的数字实行相比,能够以最快的快慢检查是或不是有抄写错误,而且还能够一定行列。那种归纳可行的法子已经早先显示出数学之美了。
  4. 语法不能够遮盖全体的言语,即不能够清除全部的“病句”,试图破除“病句”,纯化语言是墨守陈规的。“到底是言语对,依然语法对?”,前者从语法规则出发,后者从真正语言(语言材质)出发。现代自然语言处理的到位表明了语言获胜。

 

第1章 自然语言处理的两条路

一 、语意了然(退步):让电脑像人脑一样分析语句的情趣,建立语法分析树。败因有两点:

  1. 当遇到长难句时,计算量大幅增添,总结机的解码是上下文非亲非故的,而自然语言是上下文相关的。
  2. 要明了语意必须建立大气的语法规则,可是就算规则再多,也不能够遮住全部的自然语言,总会有新的流行语言发生,它们处于语法规则之外。

② 、数学与总括(成功):通过隐含马尔可夫模型来估摸句子出现的大概。

  • 马尔可夫就算:在叁个句子中,每一种词x出现的几率只与它前面的多个词x-1有关,而与更前方的0~x-二个词无关。那是三个偷懒却使得的比方,那个出名的只要使得语言处理的盘算速度大幅度进步且不失准确。(上下文相关性)
  • 马尔可夫链是马尔可夫模型的底蕴。它是3个有向图,各类状态之间有转移可能率。同时,马尔可夫链也对概率论的钻研发生了伟大进献。
  • 马尔可夫链的教练:鲍姆-韦尔奇算法。

  总结学陷阱:

  • 当计算样本不足时(分母太小),计算结果的说服力将骤降,此时得以用古德-图灵方法对总计结果开始展览降价平滑处理
  • N阶马尔可夫假若:每种词和它最近的N-3个词有关,N元模型的高低是N的指数关系。谷歌翻译使用的是4阶模型
  • 了解贾里Nick对现代语言处理的进献。由贾里Nick(FrederickJelinek)和他领导的IBM华生实验室通过总括的不二法门将语言识别率从7/10进步到百分之九十,基于总括的自然语言处理商讨方法公告成功。

 

 

其三章 总计语言模型(Statistical Language Model)

   1.
语言从一起先正是上下文相关的新闻表明和传递格局。总括语言模型就是为拍卖上下文相关的语言而树立的数学模型。

 

    2. 依照规则的语言处理进度(退步):
分析3个句子的种类是不是合乎文法,含义是还是不是正确。

        基于总括的语言处理进程(成功):
依照这种词的依次,组成句子的恐怕有多大:

        P(w1,w2,w3,….wn) =
P(w1)*P(w2|w1)(P(w3|w1,w2)*…*P(wn|w1…wn-2,wn-1)。w是word的意思。

       
这是辩论上的尺度可能率模型,实际运用时,往往只可以形成P(wi|wi-1,wi-2)或P(wi|wi-1),前者叫2元文法模型(Bigram
Model),后者叫3元文法模型。

       
假若认为wi的概率与任何w没有提到,那正是一元模型。

 

    3.
标准化可能率工程化。以二元模型为例,P(wi|wi-1)= P(wi, wi-1)/ P(wi-1).
那是贝叶斯定理。

       
依照大数定律,P(wi,wi-1)在样本丰裕大(那里就是语言材质丰硕多)时,能够用#(wi,wi-1)/#(语言材料库)近似逼近。

       
一般的话,N-gram模型中,N越大,音讯量越大,效果越好,同时总括量也越大,呈N的指数升高。

      
越多工程细节,如零可能率的可能率平滑难题,见原书。

 

 第④章 粤语分词

    1.
办法演化历史:查字典+最长匹配(北大孙启斌硕士)。能消除柒 、8成的难点。不能够解决的是“上大城书店”这类。

  • 计算方式。若是3个句子S有三种分法:A1…Ak、B1…Bm、C1….Cn。那么最好的分法正是max(P(A1…Ak),P(B1,..Bm),P(C1…Cn)所对应的分法。具体寻找最大的共同可能率是叁个动态规划难题,能够用维特比(Viterbi)算法消除。
  • 格局的立异:孙茂松(哈工业余大学学东军大学)和吴德凯(东方之珠金融大学)。孙茂松解决无词典的分词,吴德凯用粤语分词的不二法门划分英文词组。

    2. 工程细节:

  (1)分词一致性。 依照各人以及使用的必要,分词是不雷同的,比如“南开东军事和政院学”到底分为“哈工大”和“高校”依旧不分词,要看具体行使。

  (2)分词粒度。一致性达不到是因为分词的粒度要求不雷同。粒度要基于使用决定。例如,假设是寻找引擎,把“哈工业余大学学东军事和政院学”不分词的话,人们追寻单个“浙大”的时候,可能就找不到含有南开东军事和政院学的网页搜索结果。

 

  分词的禁止确可分为:

  (1)错误。错误又分为两种,一种是越界型错误,如把“北大生”分成“北大/生”;另一种是覆盖型错误,如把“贾里Nick”分成五个字。

  (2)颗粒度不一致。如人工分词的不同性。可不视为不当。

 

 第5章 隐含马尔可夫模型

    1.
以翻译为例,输入消息串(源语言)S1,S2,…,Sn
,输出音信串(目的语言)O1,O2,…,On。他得以消除的标题是找到接收串对应的最恐怕的输入串。

        s1,s2,…,sn =
ArgMax(P(s1,s2,…,sn|o1,o2,…,on))=ArgMax(P(o1,o2,…,on|s1,s2,…,sn)*P(s1,s2,…,sn)/P(o1,o2,…,on))。这广泛的一块儿可能率能够用饱含马尔科夫模型来预计。HMM认为s1->o1,s2->o2,…,sn->on,且这么些是独自的。

 
P(s1,s2,…,sn,o1,o2,..,on)=P(o1,o2,…,on|s1,s2,…,sn)*P(s1,s2,…,sn)=连乘t(P(st|st-1)*P(ot|st))。那几个公式正是HMM(隐马尔可夫模型),那个可能率就是HMM的参数。

2.
环抱隐含马尔可夫模型HMM有多少个为主难题:

  1. 给定二个模型,怎么着总括有个别特定的出口类别的可能率;(Forward-Backward算法,FrederickJelinek(弗里德里克。贾里Nick))
  2. 给定3个模型和某个特定的输出种类,如何找出最有大概发生那一个输出的情景类别;(Vetebi
    Algorithm(Witt比算法))
  3. 给定丰裕数量的体察数据,如何猜想隐含马尔可夫模型的参数。(隐含Marco夫模型的教练:有监督(人工标注)和无监督(鲍姆韦尔奇算法))

3.
涵盖马尔科夫模型的陶冶使用到无监察和控制陶冶的鲍姆韦尔奇算法(期望值最大化(Exceptation-马克西姆ization,简称EM进程))。

 
因为HMM的参数推测供给多量的从s到o的标注数据,工作量太大,只可以用算法来缓解了。算法的思想上,先若是这一个可能率均等,于是获得四个初始模型M0,用那么些开头模型标注样本,然后再依照HMM公式总括出新的模型参数,获得M1,能够证实的是P(O|M1)>P(O|M0),于是数次迭代,直到Mi+1和Mi相差无几。

 

 

 第陆章 信息的胸怀和效益

    1.
新闻熵。假如四个消息有32种只怕性,你至少须要某些次才能击中?答案是由此二分法,至少log32=四遍就能够猜中。5正是音信熵。

       
公式:H(x)=求和【-(P(x)*logP(x)】.

       
实际上音讯熵表示的是不肯定的气量。

    2.
新闻的功效:消除不分明。假若你不了解地点将要做出什么动作,那么给你一个连锁新闻,你就能下落对方动作的不鲜明性判断。

    3. 这什么样是唇揭齿寒信息:就是能降低不鲜明性的音讯。那怎么权衡他大跌了略微不分明性?答案是看指标消息与提供新闻的口径熵:H(X|Y)=-求和【P(X,Y)*P(X|Y)】X是指标消息,Y是提供的音信。可以证实的是H(X|Y)<=H(X)。更进一步,H(X|Y,Z)=-求和【P(X,Y,Z)*P(X|Y,Z)】<=H(X|Y)
<=
H(X).正是说条件更加多,条件熵越小,目的音讯X的不分明性越少。等号创立的口径是,提供的音讯与X无关。

   
4.源熵H(X)-条件熵H(X|Y)=I(X;Y),正是削减的不分明性的量化值,它的名字叫互音信

    5. 还有二个定义叫相对熵,衡量的是五个分布函数的相似性,TF-IDF的理论依照就是它。

 

 第玖章 贾里Nick和当代语言处理

    1.
书能够早点读,也能够晚点读,读不懂就不读,当您到了大学,就恐怕读懂了,因为人长大了,领会能力会上涨,掌握的快,学习的也快,比小时候阅读的频率高,小时候固然要成才,确立志向。学习是一人终身的进程。

    2.
贾里Nick的开创性进献是首创总结划办公室法创造语音识别框架,以及BCJ昂科威算法(数字通讯应用最广的多少个算法之一,另一个是维特比算法)。

 

第⑧章 布尔代数和查找引擎的目录

    1.
道与术:事情的规律是道,具体的劳作情势叫术。追求的术的人,毕生工作费力,只有精通道,才能百发百中。追求术的人,往往是可望走走后门,

       
希望有3个模型能把业务毕其功于一役,但那是不具体的。

    2.
布尔代数:正是真、假的构成四则运算(与、或、非)

    3.
索引是怎么建立的。基本原理:有个别许文章就建多少长度的一个位串,一个词在什么样小说中出现过,就把这叁个小说对应的位标为1。具体选取时,

       
还有依照小说的主要等目的,建立分歧级其他目录,因为索引太大了。假诺有100亿个网页,没条索引的尺寸正是100亿位。

 

第10章:图论和网络爬虫

    1.
引例:哥波德戈里察堡七桥题材。是二个图遍历难点。引理是,要是要力所能及一回遍历全部的边,不另行,那么各种节点的度自然是偶数(对于每个点,

                 
 出去多少边,就有微微进入的边)。

    2. 图的广度优先遍历和纵深优先遍历。对应爬虫就是广度优先爬取和深度优先爬取。深度优先的便宜是节约”握手“时间。广度优先的功利是足以先

       
爬取主要的首页,然后再爬取次主要的。

    3.
片段网页需求周转一段脚本才能生成,那么爬虫就要效仿浏览器,运行一下网页在爬取分析。

    4.
一个U福特ExplorerL应该让钦命的机器去爬取,只样就只有一台机械发起判断该U翼虎L是还是不是曾经爬取过。不然每种机器蒙受该UPAJEROL都去服务器上判断一下是还是不是

        已经抓取过,浪费时间。

 

第八章:PageRank,GOOGLE的民主表决式网页排行技术

    1. 三个网页的首要性在于指向它的任何网页的最首要之和。

   

    2.
pagerank算法的宗旨是迭代总计每一个网页的权重,然后通过权重的大小对网页排名。迭代开始时每种网页的权重是同等的,然后通过总结更新每种网页的权重,规则如下:

      (1)当一个网页被越来越多的网页引用时,它的权重越大

      (2)当一个网页的权重越大时,它引用的网页的权重也随着变大

      (3)当1个网页引用的网页更多时,被它引用的网页获得的权重就越小

      如此频仍迭代,算法最终会流失到三个永恒的排名。

 

 

第9一章:怎么样显明网页和询问的相关性

    1.
注重词相关性权重的不利衡量:TF-IDF

        TF(Term
Frequency)=(该词在该文书档案中冒出的次数/该文书档案的总词数)

        IDF(Inverse Document
Frequency)=log(总文书档案数/出现该词的文书档案数),为何要取log?因为IDF是特定条件下第二词概率分布的绝对熵(交叉熵)

 

第⑧二章:地图和地点搜索的主导技巧-有限状态机和动态规划

    1.
当google的首个款式具备导航功用的android手提式有线电话机公布时,守旧导航公司麦哲伦导航的估价狂跌4成。

    2.
地方分析:正是简单状态机的情形转移。先分析省,再到首个阶段市或然县,再到第多个级次街道,最后是号。必需是那种顺序的才是合法的地方。AT&T有零星状态机的精晓源码。

    3.
导航与动态规划。假如一条路线是最短的,那么其子路径也势必是最短的,都在那条路子就不会是最短的。要总计东京(Tokyo)到马尼拉的最短路径,那么先把新加坡到圣菲波哥大的中途路径,横切几刀,然后再在分手的小段里面寻找到达该阶段每种城市的最短路径,当计算到结尾1个阶段时,全局最短路径就发出了。(运筹学
图论 寻找最短路径)

 

第9三章:Google AK-47的设计者 – 阿密特.辛格学士

    1.
永不一开始就把品种对象想得百分百的完美,只要能解决五分之四的要求就能够开端先导了。过分追求完善,在长日子内不能够达到规定的标准这几个完美,最后就连发了之了。也等于项目战败了。那正是完美主义的难过,不是她不聪明,而是方法不对。

    2.
做模型,每日分析badcase,那是王道。

 

第9四章:余弦定理与情报分类

    1.
将文件表示为词的向量后,计算文本向量的余弦值,能够衡量文本的相似度,值越大,相似度越高。而且和文书的尺寸没有涉及。

    2.
余弦向量积的测算技术:向量的长度能够先保存下去;向量内积能够只考虑非零成分;删除虚词;给处于段落开始部分的词更高的权重,能够增加分类的准头。

 

第七五章:矩阵运算与文本处理的七个分类难点

    1.
三个难点是:文本按主旨分类(比如把介绍奥林匹克运动会的音信归为体育类)、词按意思归类(比如把移动项目标词,归为体育类)。那两者都得以通过矩阵运算来宏观消除。

    2.
音信分类的本来面目是聚类。1回性把10万个音讯两两相似度计算出来的措施是矩阵的奇异值分解(SVD)。SVD的瑕疵是储存须求大。

    3. Amn=Bmm * Cmn * Dnn.
那是未经降维的固有公式。Amn是文书档案与词的涉嫌,B是词到此项目,C是此种类到文书档案连串,D是文书档案种类到文书档案。

 

第八六章:信息指纹及其应用

    1.
音信指纹就是把音信随便地照耀到三个多维二进制空间的贰个点(正是二个数字)。Hash是中间的一种。指标是为着寻找、去重、和加密。

    2.
驳斥上,四个音信指纹必要的最少位数是她的新闻熵。

    3.
断定集合相同:最棒艺术是,计算两汇聚的指印,然后判断指纹是或不是一致。

    4.
信息指纹有大概是双重的,即,五个不等的音信,对应了相同的指印。但概率异常低。

    5.
一般哈希。用于google网页判重。

 

第⑦七章:由电视机剧《暗算》所想到的 – 谈谈密码学的数学原理

    1.
加密后的密文的概率分布不可能和公开的可能率分布相同,不然,通过采集大批量密文,就有可能由此总计来破解。

    2.
当下最棒的加密算法是不可逆算法。

    3.
怀有的密码都得以经过穷举来破解,只是穷举的时间超越一定阈值就觉着是不可破解。

 

第⑦八章:闪光的不必然是纯金-谈谈搜索引擎反作弊难题

    1.
排在搜索引擎非广告位第三位的结果不自然是最佳的,TA有大概是作弊了。

    2.
化解作弊的道是信息论的噪音处理。作弊的正是噪音

        1)从音信源出发,抓牢抗噪

        2)从传输中过滤噪音

     
 关键是找到噪音的频率特征。那里就是找到作弊网站的特殊性。比如它一般包涵大批量的外链。作弊网站从来由于链接相似,往往能形成clique

 

第8天问:谈谈数学模型的第2

    1.
实在的数学模型应该是足以作证的,而不是为着消除某些难题凑出来的。例子正是托勒密为了计算拟合行星的轨迹,选择大圆套小圆的法子,相比生硬,复杂。其实,那里确实的模子是Newton依照万有引bu力推导出来的椭圆模型。

    2.
三个确实的数学模型应该是简单的。

    3.
毋庸置疑的模型刚初步容许没有经过精雕细琢的二个荒谬模型准确。

    4. 规范的数码对发现模型很主要

    5.
正确的模型大概受噪音烦扰。正确的做法不是想艺术拟合噪音,而是找出噪音的来源,这只怕是个主要发现。

 

第3十章:不要把鸡蛋置于3个篮子里- 谈谈最大熵模型

    1.
原理:预测应该完全知足已知的标准化,对未知的情事不做其余主观固然,在那种景况下,可能率分布均匀,预测风险相当小。因为此时候概率分布的新闻熵最大。

    2.
早已证实,任何一组不自相顶牛的音信,最大熵模型是存在并且是绝无仅有的。

    3.
最大熵模型的教练:GIS(通用迭代法)、IIS(实际上,以往用的是L-BFGS,SGD,书中的算法相比较老,效果没有前日的好)。

 

第叁十一章:拼音输入法的数学原理

    1.
输入法实际是一种将语言转变为字母种类的编码方法。好坏的权衡目的是平均击键次数*摸索这几个键的平均时间长度

    2.
复杂的编码规则不享有实用性。人一方面在揣摩,一边还得想编码,功效是非常低的。

    3.
香农第①定律:对于贰个消息,任何编码长度都相当大于ta的音信熵。

    4.
拼音输入法的拼音转汉字的算法便是动态规划:依照拼音系列,找最恐怕的汉字连串。具体育项目测验算须要使用HMM模型,即拼音体系的转移概率以及拼音与汉字的生成可能率。与寻找地图上的最短路径相似,那里的路径长度正是更换概率与生成概率的积。

    5.
输入法模型是可以天性化的,因为分化的用户,ta平时接纳的词的限定或项目是特定的。所以能够遵照ta的输入语言材料来磨炼ta的援网店模特型。

 

第3十二章:自然语言处理的黑帮大哥Marcus和它的门生们

    1.
从规则到总结的更换,开创性职分是贾里Nick,发扬光大的是马库斯(Mitch
Marcus)

   
2.着实的学问牛人从不吝啬ta的研讨成果,因为当您了然了ta的研商,ta已经到达了另1个高地。(感觉那和生意中的保密完全是倒转的)

 

第1十三章:布隆过滤器

    1.
原理:将源音讯均匀随机地照耀到3个不小的位串中,把相应位串的位标为1.
寻觅时,便是看位串中要摸索的音信对应的位是还是不是1.做2个布尔与运算就能够。

    2.
只是布隆过滤器的布隆码有大概重新。重复的可能率是相当低的。假若真有双重,补救措施是对重复的记录建立白名单。

 

第壹十四章:马尔科夫链的扩大-贝叶斯互连网

    1.
贝叶斯网络正是多路径方式的Marco夫链,也是有向的。

    2.
贝叶斯网络的练习分为七个部分:先生成网络的布局,再总括节点之间的权重即概率。选取哪些因素组成网络,使用互信息的方法。可能率的测算使用最大熵模型。

 

第①十五章:条件随机场和句法分析

    1.
尺码随飞机场是测算联合概率密度的模子。句法分析是可辨句子中的名词、名词短语、动词短语等协会。

    2.
尺度随飞机场实际上是无向的贝叶斯网络。他们都以可能率图的一种

天文学,    3.
用于句法分析正是寻觅二个句子在不一致句法分割下,取得最大学一年级块概率的很是分法。

 

第叁十六章:维特比和她的维特比算法

    1.
维特比算法就是针对篱笆网络检索最短路径的动态规划算法。类似于在地图上找最短路径。

    2.
CDMA的开拓者队(Portland Trail Blazers)是1个人美貌的女艺员,名叫Heidi.拉马尔。

    3.
CDMA码分多址的码是密码的趣味,接收端依照本身的密码解码信道信息,解码不了的就象征不是发放ta的。

 

第贰十七章:再谈文本自动分类难题-期望最大化算法

    1.
k-centroids聚类算法背后的理论基础便是EM

    2.
k-centroids的E正是点到类为主的偏离d和类之间的距离D。目的函数就是D-d

    3.
EM的长河分成两步:计算E,根据E重新总计模型参数,以最大化指标函数。

    4.
EM是一类算法,不是实际算法。比如后面的GIS也是EM的一种。

    5.
E的最大化能否达到全局最优?假若指标函数的凸函数,那么就足以,不然达到的是一对最优。熵是凸函数,欧式距离是,余弦距离不是。

 

第壹十八章:逻辑回归和搜索广告

    1.
追寻广告的一个优化指标正是展望用户会点击哪个广告。叫CT纳瓦拉(Click Through
Rate)预估

    2.
这么些模型的参数很多,达百万。

    3.
逻辑回归模型能很好地融为一炉大批量的参数,并把3只可能率适应到七个介于0,1以内的逻辑曲线上,而自变量的限定是负无穷到正无穷。当然自变量也是急需采用的。

    4.
google和腾讯的点击率预估用的正是逻辑回归。

 

第2十天问:种种击破算法和google云总括

    1. 依次击破算法就是分治算法。

    2.
MapReduce的规律来自于分治算法。把父母物切分成小任务,分别总计,然后再统一。

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图
Copyright @ 2010-2019 亚洲必赢手机官网 版权所有