《数学的美》读书笔记

By admin in 天文学 on 2018年11月20日

率先章 文字与言语vs数字和信

事先:数学与人类对自之认和生活动关系起,如天文学、几何同工程学、经济学、力学、物理学、生物学等。

香农(信息论)——第一糟糕以数学和言语学联系起来

信息

  • 很久以前人类以不同之喊叫声表示不同的音信,达到彼此交流之目的。
  • 消息传播之基本模式:  源信息 ->
    编码 -> 信道传输 -> 接收者解码 -> 还原音

言和数字之源于

亲笔:文字是信息的载体。知道“罗塞塔”石碑的典故。

  1. 信息冗余的要:当石碑经历风吹日晒,一部分文被腐蚀掉时,还有其他一样部分还的亲笔作为备份,可以还原石碑的音信。类似的还有身体之DNA,在身中,有99%底DNA是废的,正是这99%确保了人类的常规繁殖,当面临人类遇到辐射时,DNA发生变异的票房价值是1%。
  2. 语料,尤其是双语或多语的自查自纠语料对翻译要,它是我们从机械翻译研究的基础。
  3. 不等的字系统在记录信息上之力量是等价格的。这个结论是翻译的基本功。
  4. 文字按意思聚类(多义性)和运上下文消除歧义性(disambiguation)。

数字:进制的发生

为表达大数,不同的大方产生了不同之数字代表方法,最终只有使10进制的文武在了下。

  • 10进制:古中国、古印度、阿拉伯
  • 12进制:印度、斯里兰卡
  • 20进制:玛雅,玛雅文明失败的缘故有就是是进制太复杂,不便于正确发展,咱们现在只要背九九乘法表,他们坐的是361行程围棋棋盘。
  • 单位进制:罗马(5、10、50、100、500、1000)

数字的意味方法(编解码原理)

  • 中原:编解码的密钥是就除 二百万 = 2 x 100 x
    10000
  • 罗马:编解码的密钥是加减 IV = 5-1 = 4
     ,要为此罗马文表达10亿底说话,一黑板是描摹不下的。

言与言语背后的数学

  1. 符最短编码原理(信息论):(罗马体系文)常因此配少,生僻字长。(意型文字)常因此字笔画少,生僻字笔画长。
  2. 古老汉语的古文是缩减的汉语。古人日常口头交流用之是白话文,与现时之口头禅相差不老。
    那为什么有文言文呢?当时从未有过高速之保存文字的不二法门,文字需要刻于竹子、龟壳上,比较费时费力,于是古人就拿语言压缩成简练的文言文,以节省信息存储量。道理:当传输信道比较窄的当儿,信息就使压缩编码。
  3. 抄佛经的校验方式:将每个字母映射成一个数字。把各一样页亲笔对应的数字以行列加起,写于各行每列的尾部。在抄写时,把团结之数字与原文的数字进行比,可以坐最好抢之快检查是不是发生抄袭写错误,而且还能定点行列。这种简易可行的法门都起表现出数学之美了。
  4. 语法不克掩盖有的语言,即无法排除所有的“病句”,试图破除“病句”,纯化语言是徒劳无益的。“到底是语言对,还是语法对?”,前者由语法规则出发,后者自实际语言(语料)出发。现代自然语言处理的成功证明了语言获胜。

 

第二章 自然语言处理的蝇头长长的总长

1、语意理解(失败):让电脑像人脑一样分析报告句之意思,建立语法分析树。失败原因来点儿接触:

  1. 当遇长难句时,计算量大幅增多,计算机的解码是上下文无关的,而自然语言是上下文相关的。
  2. 使懂语意必须建立大气的语法规则,然而尽管规则更多,也无克遮住任何底自然语言,总会时有发生新的流行语言有,它们处于语法规则之外。

2、数学和统计(成功):通过隐含马尔可夫模型来估算句子出现的可能性。

  • 马尔可夫假设:在一个句中,每个词x出现的概率就及她前面的一个词x-1有关,而跟更前方的0~x-2独词无关。这是一个偷懒却使得的如果,这个著名的比方使得语言处理的测算速度大幅提升都不失去准。(上下文相关性)
  • 马尔可夫链是马尔可夫模型的功底。它是一个生出于图,各个状态中出易概率。同时,马尔可夫链也本着概率论的钻来了宏伟贡献。
  • 马尔可夫链的教练:鲍姆-韦尔奇算法。

  统计学陷阱:

  • 当统计样本不足时(分母太小),统计结果的说服力将回落,此时足据此古德-图灵方法对统计结果进行打折平滑处理
  • N阶马尔可夫假设:每个词和她面前的N-1只词有关,N元模型的深浅是N的指数关系。Google翻译下的凡4阶模型
  • 了解贾里尼克本着现代语言处理的孝敬。由贾里尼克(Frederick
    Jelinek)和他领导的IBM华生实验室通过统计的办法将语言识别率从70%增高到90%,基于统计的自然语言处理研究措施宣告成功。

 

 

老三回 统计语言模型(Statistical Language Model)

   1.
言语从平开始便是上下文相关的音信达和传递方式。统计语言模型就是吧拍卖上下文相关的语言而建之数学模型。

 

    2. 基于规则之言语处理过程(失败):
分析一个词的队列是否吻合文法,含义是否科学。

        基于统计的言语处理过程(成功):
按照这种词之相继,组成句子的可能有多生:

        P(w1,w2,w3,….wn) =
P(w1)*P(w2|w1)(P(w3|w1,w2)*…*P(wn|w1…wn-2,wn-1)。w是word的意思。

       
这是辩论及之准概率模型,实际运用时,往往只能完成P(wi|wi-1,wi-2)或P(wi|wi-1),前者为2首位文法模型(Bigram
Model),后者为3头版文法模型。

       
如果当wi的票房价值与另外w没有干,那即便是一样元型。

 

    3.
标准概率工程化。以第二长型也例,P(wi|wi-1)= P(wi, wi-1)/ P(wi-1).
这是贝叶斯定理。

       
根据大数定律,P(wi,wi-1)在样本足够好(这里就是是语料足够多)时,可以就此#(wi,wi-1)/#(语料库)近似逼近。

       
一般的话,N-gram模型中,N越怪,信息量越来越怪,效果进一步好,同时计算量也越来越充分,呈N的指数增长。

      
更多工程细节,如零概率的概率平滑问题,见原书。

 

 第四章节 中文分词

    1.
道演变史:查字典+最丰富匹配(哈工大王晓龙博士)。能迎刃而解7、8化的题目。无法化解的凡“上海大学城书店”这类似。

  • 统计方式。假设一个句子S有三种植分法:A1…Ak、B1…Bm、C1….Cn。那么最佳的分法就是max(P(A1…Ak),P(B1,..Bm),P(C1…Cn)所对应的分法。具体寻找最好要命之联手概率是一个动态规划问题,可以据此维特于(Viterbi)算法解决。
  • 措施的精益求精:孙茂松(清华大学)和吴德凯(香港科技大学)。孙茂松解决无词典的分词,吴德凯用中文分词的措施划分英文词组。

    2. 工细节:

  (1)分词一致性。 根据每人同采取的需求,分词是不一致的,比如“清华大学”到底分为“清华”和“大学”还是不分词,要扣现实运用。

  (2)分词粒度。一致性达不交是坐分词的粒度需求不一致。粒度要根据使用决定。例如,如果是寻觅引擎,把“清华大学”不分开词的语句,人们寻找单个“清华”的早晚,可能就是找不交含有清华大学之网页搜索结果。

 

  分词的取缔确可分为:

  (1)错误。错误又分为两栽,一栽是越界型错误,如将“北京大学生”分成“北京大学/生”;另一样种是埋型错误,如将“贾里尼克”分成四独字。

  (2)颗粒度不等同。如人工分词的不一致性。可不视为错误。

 

 第五段 隐含马尔可夫模型

    1.
为翻译为条例,输入信息错(源语言)S1,S2,…,Sn
,输出信息差(目标语言)O1,O2,…,On。他可化解之问题是找到接收串对应之最为可能的输入串。

        s1,s2,…,sn =
ArgMax(P(s1,s2,…,sn|o1,o2,…,on))=ArgMax(P(o1,o2,…,on|s1,s2,…,sn)*P(s1,s2,…,sn)/P(o1,o2,…,on))。这广泛的齐概率可以就此带有马尔科夫模型来估算。HMM认为s1->o1,s2->o2,…,sn->on,且这些是单身的。

 
P(s1,s2,…,sn,o1,o2,..,on)=P(o1,o2,…,on|s1,s2,…,sn)*P(s1,s2,…,sn)=连乘t(P(st|st-1)*P(ot|st))。这个公式就是HMM(隐马尔可夫模型),这些概率就是HMM的参数。

2.
围绕隐含马尔可夫模型HMM有三个主导问题:

  1. 为得一个模子,如何算某个特定的输出序列的票房价值;(Forward-Backward算法,Frederick
    Jelinek(弗里德里克。贾里尼克))
  2. 受得一个模子和某某特定的输出序列,如何寻找来极其有或出这输出的状态序列;(Vetebi
    Algorithm(维特比算法))
  3. 吃得足够数量之观赛数据,如何估量隐含马尔可夫模型的参数。(隐含马尔科夫模型的训练:有监督(人工标注)和管监控(鲍姆韦尔奇算法))

3.
分包马尔科夫模型的训使及无监督训练的鲍姆韦尔奇算法(期望值最大化(Exceptation-Maximization,简称EM过程))。

 
因为HMM的参数估计需要大量之从s到o的标注数据,工作量太好,只能用算法来解决了。算法的思量齐,先借而这些概率都等,于是得到一个初始模型M0,用这个初始模型标注样本,然后又依据HMM公式计算出新的型参数,得到M1,可以证实的是P(O|M1)>P(O|M0),于是多次迭代,直到Mi+1和Mi相差无几。

 

 

 第六章节 信息的气量和意图

    1.
信息熵。如果一个信息来32种可能性,你足足得多少次才会打中?答案是通过二细分法,至少log32=5浅就得中。5就算是信息熵。

       
公式:H(x)=求和【-(P(x)*logP(x)】.

       
实际上信息熵表示的凡无显的气量。

    2.
信息之意向:消除不明白。假如你免晓地方将做出什么动作,那么给你一个相关消息,你尽管可知降对方动作之不确定性判断。

    3. 那么什么是系信息:就是力所能及下降不确定性的信。那怎么权衡他大跌了小不确定性?答案是看目标信息及提供信息之尺度熵:H(X|Y)=-求和【P(X,Y)*P(X|Y)】X是目标信息,Y是提供的音。可以说明的是H(X|Y)<=H(X)。更进一步,H(X|Y,Z)=-求和【P(X,Y,Z)*P(X|Y,Z)】<=H(X|Y)
<=
H(X).就是说条件更多,条件熵越聊,目标信息X的不确定性越少。等号成立的极是,提供的音讯以及X无关。

   
4.源熵H(X)-条件熵H(X|Y)=I(X;Y),就是减的不确定性的量化值,它的讳叫互信息

    5. 还有一个概念让相对熵,衡量的凡个别个分布函数的相似性,TF-IDF的理论依据就是它。

 

 第七章 贾里尼克同当代语言处理

    1.
书可以早点读,也堪过读,读不理解就未念,当您顶了高等学校,就可能读懂了,因为人长大了,理解能力会上升,理解的不久,学习之吗尽快,比小时候读书的频率高,小时候尽管只要成才,确立志向。学习是一个人数终生的长河。

    2.
贾里尼克的开创性贡献是首创统计方法成立语音识别框架,以及BCJR算法(数字通信应用最常见的个别个算法有,另一个凡是维特比算法)。

 

第八章 布尔代数和摸索引擎的目录

    1.
道以及技术:事情的原理是道,具体的工作方式叫术。追求的技巧的总人口,一生工作累,只有掌握道,才会游刃有余。追求术的人,往往是冀走捷径,

       
希望发生一个型能把工作毕其功于一役,但随即是免现实的。

    2.
布尔代数:就是的确、假的重组四虽运算(与、或、非)

    3.
索引是怎建立的。基本原理:有些许文章就建多添加的一个位串,一个词在怎么文章中起过,就将那些文章对应的位标为1。具体采用时,

       
还有根据文章的机要等指标,建立不同级别之目录,因为索引太可怜了。如果起100亿单网页,没条索引的长就是100亿各项。

 

第九节:图论和网络爬虫

    1.
引例:哥尼斯堡七桥题材。是一个图遍历问题。引理是,如果假定力所能及平等一体遍历所有的限度,不更,那么每个节点的度一定是偶数(对于每个点,

                 
 出去多少度,就生出些许进入的限度)。

    2. 图的广度优先遍历和深优先遍历。对诺爬虫就是广度优先爬取和纵深优先爬取。深度优先的益处是节省”握手“时间。广度优先的利益是足以先

       
爬取重要之首页,然后又攀取次重要的。

    3.
局部网页需要周转一截脚论才会非常成,那么爬虫就设效仿浏览器,运行一下网页在爬取分析。

    4.
一个URL应该为指定的机械去爬取,只样就光发同等高机械发起判断该URL是否就爬取了。否则每个机器遇到拖欠URL都失去服务器上判断一下是否

        已经逮捕到手过,浪费时间。

 

第十节:PageRank,GOOGLE的民主表决式网页排名技术

    1. 一个网页的要害在于指于它们的外网页的机要之和。

   

    2.
pagerank算法的核心是迭代计算每个网页的权重,然后经权重的大小对网页排名。迭代开头时每个网页的权重是同等的,然后经计算更新每个网页的权重,规则如下:

      (1)当一个网页为越来越多的网页引用时,它的权重越怪

      (2)当一个网页的权重越老时,它引用的网页的权重为随即转移充分

      (3)当一个网页引用的网页越多时,被她引用的网页获得的权重就进一步聊

      如此频繁迭代,算法最终会磨到一个永恒的排名。

 

 

第十一段:如何确定网页和查询的相关性

    1.
最主要词相关性权重的不错度量:TF-IDF

        TF(Term
Frequency)=(该词在该文档中出现的次数/该文档的毕竟词数)

        IDF(Inverse Document
Frequency)=log(总文档数/出现该词的文档数),为什么而收获log?因为IDF是特定条件下要词概率分布的相对熵(交叉熵)

 

第十二章:地图及当地搜索的基本技术-有限状态机和动态规划

    1.
当google的首先缓慢有所导航功能的android手机发布时,传统导航公司麦哲伦导航的估价狂跌4成为。

    2.
地点分析:就是鲜状态机的状态转移。先分析看,再届第二独阶段市或者县,再至第三个阶段街道,最后是声泪俱下。必需是这种顺序的才是法定的地址。AT&T有少状态机的公开源码。

    3.
导航和动态规划。如果相同漫漫路径是最好差的,那么其子路径为迟早是最最短缺的,都在就长长的路子就是不会见是最缺的。要计算都顶广州之极其差路径,那么先拿北京到广州的中途路径,横切几刀子,然后又于分别的小段里面找到该等每个城市之无比缺路径,当计算到结尾一个流时,全局最差路径就是闹了。(运筹学
图论 寻找最好短缺路径)

 

第十三章:Google AK-47的设计者 – 阿密特.辛格博士

    1.
绝不同开始即管种对象想得100%的周到,只要能够缓解80%之需就可初步下手了。过分追求面面俱到,在添加日子内无法达成这到,最后就未了了底了。也就是是项目失败了。这就是完美主义的殷殷,不是外非智,而是方法无针对。

    2.
召开模型,每天分析badcase,这是王道。

 

第十四回:余弦定理与新闻分类

    1.
用文件表示为歌词的向量后,计算文本向量的余弦值,可以衡量文本的相似度,值更怪,相似度更强。而且同文书的尺寸没有涉嫌。

    2.
余弦向量积的计技巧:向量的尺寸可以先保存下来;向量内积可以只是考虑非零元素;删除虚词;给处于段落开头部分的歌词再次强之权重,可以增强分类的准确性。

 

第十五章:矩阵运算和文本处理的有限单分类问题

    1.
星星单问题是:文本以主题分类(比如将介绍奥运会的讯息归为体育类)、词按意思归类(比如将移动类的乐章,归为体育类)。这两头都可经过矩阵运算来圆解决。

    2.
情报分类的真相是聚类。一次性将10万只新闻两星星互似度计算出来的法子是矩阵的奇异值分解(SVD)。SVD的毛病是储存需求非常。

    3. Amn=Bmm * Cmn * Dnn.
这是未经降维的原有公式。Amn是文档与歌词的干,B是歌词到者路,C是此类别到文档类别,D是文档类别到文档。

 

第十六回:信息指纹及其使用

    1.
信指纹便是拿信随便地照耀到一个大多维二迈入制空间的一个沾(就是一个数字)。Hash是中的等同种植。目的是为着寻找、去再、和加密。

    2.
反驳及,一个消息指纹需要之极端少位数是外的消息熵。

    3.
断定集合相同:最佳艺术是,计算两凑合的指印,然后判断指纹是否相同。

    4.
音指纹有或是再度的,即,两个不等的信,对诺了一致之指印。但概率极低。

    5.
般哈希。用于google网页判重。

 

第十七回:由电视剧《暗算天文学》所想到的 – 谈谈密码学的数学原理

    1.
加密后的密文的概率分布不克和当面的概率分布相同,否则,通过搜集大量密文,就生出或由此统计来破解。

    2.
时极好之加密算法是不可逆算法。

    3.
持有的密码都足以经穷举来破解,只是穷举的时日越一定阈值就看是不行破解。

 

第十八回:闪光之未肯定是金-谈谈搜索引擎反作弊问题

    1.
清除在摸引擎非广告位第一员的结果未肯定是最好好之,TA有或是作弊了。

    2.
缓解作弊的申是信息论的噪声处理。作弊的即是噪声

        1)从信息源出发,加强抗噪

        2)从传输中淋噪音

     
 关键是找到噪音的效率特征。这里虽是找到作弊网站的特殊性。比如其一般含大量底外链。作弊网站直接由链接相似,往往能够形成clique

 

第十九段:谈谈数学模型的要紧

    1.
真的数学模型应该是可作证的,而休是为缓解有问题凑出来的。例子就是托勒密为了计算拟合行星的轨迹,采用非常圆套小圆的法,比较生硬,复杂。其实,这里确实的型是牛顿因万生出引bu力推导出来的扁圆形模型。

    2.
一个真正的数学模型应该是简约的。

    3.
不错的模型刚起容许没有经过精雕细琢的一个荒唐模型准确。

    4. 准儿之数据对发现型很重要

    5.
正确的型或吃噪音干扰。正确的做法不是怀念办法拟合噪音,而是找有噪音的源,这也许是个举足轻重发现。

 

第二十章:不要将鸡蛋置于一个篮子里- 谈谈最可怜熵模型

    1.
规律:预测应该完全满足已了解的尺码,对未知之场面不做任何主观假设,在这种情况下,概率分布均匀,预测风险最小。因为这概率分布的消息熵最老。

    2.
一度证明,任何一样组不自相抵触的音信,最充分熵模型是是以是绝无仅有的。

    3.
顶深熵模型的训:GIS(通用迭代法)、IIS(实际上,现在于是底凡L-BFGS,SGD,书被的算法比较老,效果没今天底好)。

 

第二十一章:拼音输入法之数学原理

    1.
输入法实际是一律栽将语言转变吗字母序列的编码方法。好坏之衡量指标是平均击键次数*查找这键的平均时长

    2.
苛的编码规则不有实用性。人一方面以构思,一边还得想编码,效率是绝低的。

    3.
香农第一定律:对于一个音,任何编码长度都非小于ta的音信熵。

    4.
拼音输入法之拼音转汉字的算法就是动态规划:根据拼音序列,找最可能的汉字序列。具体测算需要用HMM模型,即拼音序列的变概率以及拼音与汉字之生成概率。与追寻地图上的极度差路径相似,这里的路长度就是变概率与生成概率的积。

    5.
输入法模型是得个性化的,因为不同之用户,ta经常应用的词的限量或者项目是一定的。所以可以因ta的输入语料来训练ta的拉模型。

 

第二十二段:自然语言处理的教父马库斯以及她的入室弟子们

    1.
自规则及统计的转换,开创性任务是贾里尼克,发扬光大的是马库斯(Mitch
Marcus)

   
2.真的的学问牛人从不吝啬ta的研究成果,因为当您了解了ta的钻,ta已经抵了另外一个高地。(感觉立马跟生意中的保密了是倒转的)

 

第二十三章:布隆过滤器

    1.
原理:将来自信息都匀随机地照耀到一个深死的个串中,把相应位串的位标为1.
搜寻时,就是看各串中如摸索的信息对应之号是匪是1.举行一个布尔与运算就好。

    2.
可是布隆过滤器的布隆码有或再次。重复的概率是最最低之。如果真的来双重,补救方法是针对重的记录建立白名单。

 

第二十四节:马尔科夫链的扩张-贝叶斯网络

    1.
贝叶斯网络就是是差不多途径形式之马尔科夫链,也是有于的。

    2.
贝叶斯网络的训练分为两只有:先生成为网络的组织,再计节点内的权重即概率。选择哪些因素组成网络,使用互信息之不二法门。概率的盘算以最要命熵模型。

 

第二十五回:条件仍机场和句法分析

    1.
极仍机场是精打细算并概率密度的型。句法分析是可辨句子中之名词、名词短语、动词短语等结构。

    2.
尺度仍机场实际上是无向的贝叶斯网络。他们都是概率图的如出一辙种植

    3.
用来句法分析就是找一个词在不同句法分割下,取得最充分联合概率的异常分法。

 

第二十六章节:维特比和外的维特比算法

    1.
维特比算法就是对篱笆网络搜索最好缺路径的动态规划算法。类似于当地形图及搜寻最差路径。

    2.
CDMA的开山是千篇一律号漂亮的阴艺员,名叫海蒂.拉马尔。

    3.
CDMA码分多址的堆是密码的意思,接收端根据自己之密码解码信道信息,解码不了底哪怕表示未是发放ta的。

 

第二十七章:再谈文本自动分拣问题-期望最大化算法

    1.
k-centroids聚类算法背后的说理基础就是EM

    2.
k-centroids的E就是沾到接近基本的偏离d和类之间的距离D。目标函数就是D-d

    3.
EM之进程分成两步:计算E,根据E重新计算模型参数,以最大化目标函数。

    4.
EM是一致近似算法,不是切实可行算法。比如前面的GIS也是EM的同等栽。

    5.
E底最大化能免可知及全局最精美?如果目标函数的凸函数,那么即便得,否则达到的凡部分最完美。熵是凸函数,欧式距离是,余弦距离不是。

 

第二十八章:逻辑回归和搜索广告

    1.
追寻广告的一个优化目标就是是预测用户会点击哪个广告。叫CTR(Click Through
Rate)预估

    2.
之模型的参数很多,达百万。

    3.
逻辑回归模型能生好地融为一体大量底参数,并拿同概率适应到一个介于0,1期间的逻辑曲线上,而打变量的限是负无穷到正无穷。当然自变量也是亟需选择的。

    4.
google和腾讯的点击率预估用底即使是逻辑回归。

 

第二十九章:各个击破算法和google云计算

    1. 一一击破算法就是分开治算法。

    2.
MapReduce的原理来于分治算法。把大人物切分成小任务,分别计,然后还统一。

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图
Copyright @ 2010-2018 亚洲必赢手机官网 版权所有