網站(zhàn)建設 網絡推廣 網站(zhàn)營銷 軟件開(kāi)發 案例展示 新聞資訊 關于我們 聯系我們
合肥拓野網絡公司新聞資訊
網站(zhàn)布局之TF-IDF算(suàn)法
來(lái)源: | 發布日期:2018-05-05 次 | 人(rén)氣:1579

網站(zhàn)布局之TF-IDF算(suàn)法,說白了在我理(lǐ)解來(lái),這個(gè)算(suàn)法就是通(tōng)過一個(gè)的數(shù)學計(jì)算(suàn),來(lái)确定每個(gè)詞在文章中的權重,從而得(de)到一篇文章的關于詞的帶權重的向量,知道(dào)了這個(gè)以後就好辦了,之後什麽文章關鍵字提取、概述、不同的文章之前的相似性比較都引刃而解了。



求一個(gè)詞的權重就用到TF-IDF算(suàn)法,其實TF-IDF算(suàn)法是分為(wèi)TF(Term Frequency,縮寫為(wèi)TF)與IDF(Inverse Document Frequency,縮寫為(wèi)IDF)的計(jì)算(suàn)。



說起來(lái)也簡單,TF就是這個(gè)詞在文章中的詞頻,出現的次數(shù)比上(shàng)文章的總次數(shù)或者出現次數(shù)最高(gāo)的詞的個(gè)數(shù)。而IDF則是表示TF-IDF算(suàn)法分母上(shàng)加一是為(wèi)了防止分母為(wèi)零。


TF-IDF


這個(gè)數(shù)學的表達式也符合情理(lǐ),如果關鍵字(除去“的”、“為(wèi)了”之類的去除字)在越多(duō)的文檔中出現,它在本篇文章中的權重自然就低(dī)了,舉個(gè)簡單的例子:給你(nǐ)一個(gè)關鍵字計(jì)算(suàn)機,你(nǐ)一點也不知道(dào)這貨表達的意思,因為(wèi)(從這個(gè)算(suàn)法角度講)它在太多(duō)的文章中出現,但(dàn)是如果你(nǐ)的關鍵字為(wèi)0day就不一樣了,包含它的文檔數(shù)遠遠小(xiǎo)于包含關鍵字“計(jì)算(suàn)機”的文檔數(shù)。由此,如果在同一篇文章裏,如果“0day”與“計(jì)算(suàn)機”的TF(詞頻)相同,IDF就可(kě)以保證“0day”的權重較高(gāo)了。



基本的算(suàn)法就是這樣了,其實很(hěn)簡單,但(dàn)是這個(gè)算(suàn)法是基于這樣一個(gè)前提,關鍵詞越重要,出現的頻率越高(gāo)。同時(shí)忽略了詞出現位置的影(yǐng)響,所以這個(gè)算(suàn)法存在漏洞。



 
上(shàng)一篇:網絡安全基本知識
下一篇:合肥拓野網絡公司教大(dà)家(jiā)網絡劫持的定義
熱門(mén)資訊
(2020-06-24)2020端午節放假通(tōng)知 (2018-12-21)移動端seo優化和(hé)排名技(jì)術(shù)怎麽實現? (2019-01-11)網站(zhàn)站(zhàn)內(nèi)優化是非常重要的一個(gè)環節,站(zhàn)內(nèi)SEO優化中如何利用好... (2013-09-09)番茄花(huā)園作(zuò)者被判三年半微軟警告win7盜版 (2011-07-11)微軟重拳打擊番茄花(huā)園盜版 醉翁之意不在酒
推薦資訊
(2013-11-08)IBM宣布推開(kāi)放Linux套裝軟件挑戰Windows 7 (2014-06-12)阿裏巴巴信用支付業務是否會(huì)沖擊銀行(xíng)消費信貸? (2014-05-09)報告稱六成IT家(jiā)電(diàn)企業使用CN域名 (2013-03-29)拓野網絡指出錯誤的堆積關鍵詞有(yǒu)哪些(xiē) (2013-03-26)“2009中國互聯網市場(chǎng)年會(huì)”3月召開(kāi)
電(diàn)商解決方案-專業網絡營銷部署咨詢-成功案例分享-個(gè)性定制(zhì)服務咨詢
網站(zhàn)建設
營銷套餐 PC端 移動端 域名空(kōng)間(jiān)郵箱
網絡推廣
搜狗競價 網站(zhàn)優化
網站(zhàn)營銷
微信公衆号 小(xiǎo)程序 朋友(yǒu)圈推廣
軟件開(kāi)發
定制(zhì)軟件 手機APP
案例展示
精品案例
網絡快訊
公司新聞 行(xíng)業資訊 媒體(tǐ)報道(dào) 網絡知識
關于我們
公司簡介 企業文化 團隊風采 發展曆程
聯系我們
聯系方式 人(rén)才招聘 問題反饋 付款方式
Copyright  ©  2008 - 2018  合肥好好先生網絡科技有限公司, All Rights Reserved