李思晓又一个WordPress站点

浏览: 263

数学之美——余弦定理与新闻分类-哈理工高数竞赛霍凡新闻的分类无非是把相似的新闻放到一类中;互联网中的新闻向来是计算机自动进行分类,计算?


数学之美——余弦定理与新闻分类-哈理工高数竞赛
霍凡新闻的分类无非是把相似的新闻放到一类中;互联网中的新闻向来是计算机自动进行分类,计算机并读不懂新闻,它只能快速计算异都风流 ,这就要求人们设计一个算法来计算出任意两篇新闻的相似性。
假设我们要查找关于某个主题的网页,现任何一个搜索引擎都包含几十万和这个主题有点关系的网页异世蔷薇,显然我们希望对这些网页进行排序,方便我们更快速的查找,因此香江入海,这里的问题是如何度量网页和查询的相关性。
直观地想清朝种田记,提到和主题相关多的网页应该更可能是我们要查找的内容(当然,这个办法会有明显的漏洞),因此我们要根据网页的长度完美微笑公式,对关键词的次数进行归一化,也就是用关键词的次数除以网页的总字数。我们把这个商称为“关键词的频率”或者“单文本词汇频率”(TermFrequency,TF)。
如果一个查询包含关键词W1金梅央,W2...Wn,它们在一篇网页中的词频分别是:TF1,TF2...TFn。那么巴泽特,这个查询和网页的相关性就是:TF1+TF2+...+TFn。
在信息搜索中,使用最多的权重是“逆文本频率指数”(Inverse document frequency,IDF)裂解符文,它的公式是log(D/Dw),其中D是全部网页数千帜雪,Dw是有关键词出现的网页数,利用IDF,上述相关性计算公式就由词频的简单求和变成了加权求和,即TF1*IDF1+TF2*IDF2+...+TFn*IDFn。
对于一篇新闻中的所有实词,我们可以计算出它们的单文本词汇频率/逆文本频率值(TF/IDF)。不难想象,和新闻主题有关的那些诗词频率高,TF/IDF值比较大清夫人。
假设词汇表共有六万四千个词,分别是1-阿2-啊3-阿斗4-阿姨...789-服装...64000-做作在一篇新闻中,这64000个词的TF/IDF值分别为1-02-0.00343-04-0.00052...789-0.034...64000-0.075
对于单词表中某个词在新闻中没有出现,对应值为零;这64000个数虎威太岁,组成一个64000维的向量,我们用这个向量代表这篇图文三维鱼乐队,使其成为特征向量;如果两篇新闻的特征向量相近,则对应的新闻内容相似,归为一类。
向量实际上是多维空间中有向线段,如果两向量方向一致,即夹角接近零,则这两个向量就接近。而要确定两个向量方向是否一致,就要用的余弦定理计算向量的夹角了。
·三角形的余弦定理公式cosA=(b^2+c^2-a^2)/2bc·将三角形两边b、c看成向量许思行,上述公式等价于
cosA=<b,c>/|b||c|
举一个具体例子,假如
新闻X和Y对应的向量分别是
x1,x2司徒骏文,...山沟大军阀,湖人vs马刺x64000和
y1,y2吴彦群,...,y64000夺命开学礼,
那么它们夹角的余弦等于:cosθ=(x1y1+x2y2+...+x64000y64000)/(sqrt(x1^2+x2^2+...+x64000^2)*sqrt(y1^2+y2^2+...+y64000^2))
当两条新闻向量的夹角的余弦等于1时,这两条新闻完全重复,当余弦接近1时,两条新闻相似苏仨门,归为一类,夹角余弦越小仙徊,两新闻越不相关

全文详见:https://www.p66p.cn/9443.html

TOP