美女亚洲精品在线观看视频,91中文字幕一区二区无码,国产美女无遮挡1区2区

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

機器學(xué)習(xí)中詞袋模型和TF-IDF怎么理解

本篇內(nèi)容主要講解“機器學(xué)習(xí)中詞袋模型和TF-IDF怎么理解”，感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷，實用性強。下面就讓小編來帶大家學(xué)習(xí)“機器學(xué)習(xí)中詞袋模型和TF-IDF怎么理解”吧!

廣水網(wǎng)站制作公司哪家好，找創(chuàng)新互聯(lián)！從網(wǎng)頁設(shè)計、網(wǎng)站建設(shè)、微信開發(fā)、APP開發(fā)、響應(yīng)式網(wǎng)站等網(wǎng)站項目制作，到程序開發(fā)，運營維護。創(chuàng)新互聯(lián)自2013年起到現(xiàn)在10年的時間，我們擁有了豐富的建站經(jīng)驗和運維經(jīng)驗，來保證我們的工作的順利進行。專注于網(wǎng)站建設(shè)就選創(chuàng)新互聯(lián)。

示例

我將用一個流行的例子來解釋本文中的Bag of Words（BoW）和TF-IDF。

我們都喜歡看電影（不同程度）。在我決定看一部電影之前，我總是先看它的影評。我知道你們很多人也這么做！所以，我在這里用這個例子。

以下是關(guān)于某部恐怖電影的評論示例：

點評一：This movie is very scary and long
點評二：This movie is not scary and is slow
點評三：This movie is spooky and good

你可以看到關(guān)于這部電影的一些對比評論，以及電影的長度和節(jié)奏。想象一下看一千篇這樣的評論是多么枯燥。顯然，我們可以從中汲取很多有趣的東西，并以此為基礎(chǔ)來衡量電影的表現(xiàn)。

然而，正如我們在上面看到的，我們不能簡單地把這些句子交給機器學(xué)習(xí)模型，讓它告訴我們一篇評論是正面的還是負(fù)面的。我們需要執(zhí)行某些文本預(yù)處理步驟。

“詞袋”和TF-IDF就是兩個這樣做的例子。讓我們詳細了解一下。

從文本創(chuàng)建向量

你能想出一些我們可以在一開始就把一個句子向量化的技巧嗎？基本要求是：

它不應(yīng)該導(dǎo)致稀疏矩陣，因為稀疏矩陣會導(dǎo)致高計算成本
我們應(yīng)該能夠保留句子中的大部分語言信息

詞嵌入是一種利用向量表示文本的技術(shù)。還有2種單詞嵌入形式是：

Bow，代表詞袋
TF-IDF，代表詞頻-逆文本頻率

現(xiàn)在，讓我們看看如何將上述電影評論表示為嵌入，并為機器學(xué)習(xí)模型做好準(zhǔn)備。

詞袋（BoW）模型

詞袋（BoW）模型是數(shù)字文本表示的最簡單形式。像單詞本身一樣，我們可以將一個句子表示為一個詞向量包（一個數(shù)字串）。

讓我們回顧一下我們之前看到的三種類型的電影評論：

點評一：This movie is very scary and long
點評二：This movie is not scary and is slow
點評三：This movie is spooky and good

我們將首先從以上三篇評論中所有的獨特詞匯中構(gòu)建一個詞匯表。詞匯表由這11個單詞組成：“This”、“movie”、“is”、“very”、“stear”、“and”、“l(fā)ong”、“not”、“slow”、“spooky”、“good”。

現(xiàn)在，我們可以將這些單詞中的每一個用1和0標(biāo)記在上面的三個電影評論中。這將為我們提供三個用于三個評論的向量：

機器學(xué)習(xí)中詞袋模型和TF-IDF怎么理解

點評向量1:[1 1 1 1 1 1 0 0 0 0]

點評向量2:[1 1 2 0 0 1 0 1 0 0 0]

點評向量3:[1 1 1 0 0 0 1 0 1 1 1 1]

這就是“詞袋”（BoW）模型背后的核心思想。

使用單詞包（BoW）模型的缺點

在上面的例子中，我們可以得到長度為11的向量。然而，當(dāng)我們遇到新的句子時，我們開始面臨一些問題：

如果新句子包含新詞，那么我們的詞匯量就會增加，因此向量的長度也會增加。
此外，向量還包含許多0，從而產(chǎn)生稀疏矩陣（這是我們希望避免的）
我們沒有保留任何關(guān)于句子語法和文本中單詞順序的信息。

詞頻-逆文本頻率（TF-IDF）

我們先對TF-IDF下一個正式定義。百科是這樣說的：

“TF-IDF（term frequency–inverse document frequency）是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。TF是詞頻(Term Frequency)，IDF是逆文本頻率指數(shù)(Inverse Document Frequency)”

術(shù)語頻率（TF）

首先讓我們理解術(shù)語頻繁（TF）。它是衡量一個術(shù)語t在文檔d中出現(xiàn)的頻率：

機器學(xué)習(xí)中詞袋模型和TF-IDF怎么理解

這里，在分子中，n是術(shù)語“t”出現(xiàn)在文檔“d”中的次數(shù)。因此，每個文檔和術(shù)語都有自己的TF值。

我們再次使用我們在詞袋模型中構(gòu)建的相同詞匯表來演示如何計算電影點評2：

點評 2: This movie is not scary and is slow

這里

詞匯：“This”，“movie”，“is”，“very”，“stear”，“and”，“l(fā)ong”，“not”，“slow”，“spooky”，“good”
點評2的單詞數(shù)=8
單詞“this”的TF=（點評2中出現(xiàn)“this”的次數(shù)）/（點評2中的單詞數(shù)）=1/8

同樣地

TF(‘movie’) = 1/8
TF(‘is’) = 2/8 = 1/4
TF(‘very’) = 0/8 = 0
TF(‘scary’) = 1/8
TF(‘a(chǎn)nd’) = 1/8
TF(‘long’) = 0/8 = 0
TF(‘not’) = 1/8
TF(‘slow’) = 1/8
TF( ‘spooky’) = 0/8 = 0
TF(‘good’) = 0/8 = 0

我們可以這樣計算所有點評的詞頻：

機器學(xué)習(xí)中詞袋模型和TF-IDF怎么理解

逆文本頻率（IDF）

IDF是衡量一個術(shù)語有多重要的指標(biāo)。我們需要IDF值，因為僅計算TF不足以理解單詞的重要性：

機器學(xué)習(xí)中詞袋模型和TF-IDF怎么理解

我們可以計算點評2中所有單詞的IDF值：

IDF（'this'）=log（文檔數(shù)/包含“this”一詞的文檔數(shù)）=log（3/3）=log（1）=0

同樣地，

IDF(‘movie’, ) = log(3/3) = 0
IDF(‘is’) = log(3/3) = 0
IDF(‘not’) = log(3/1) = log(3) = 0.48
IDF(‘scary’) = log(3/2) = 0.18
IDF(‘a(chǎn)nd’) = log(3/3) = 0
IDF(‘slow’) = log(3/1) = 0.48

我們可以計算每個單詞的IDF值。因此，整個詞匯表的IDF值為：

機器學(xué)習(xí)中詞袋模型和TF-IDF怎么理解

因此，我們看到“is”、“this”、“and”等詞被降為0，代表重要性很?。欢皊cary”、“l(fā)ong”、“good”等詞則更為重要，因而具有更高的權(quán)值。

我們現(xiàn)在可以計算語料庫中每個單詞的TF-IDF分?jǐn)?shù)。分?jǐn)?shù)越高的單詞越重要，分?jǐn)?shù)越低的單詞越不重要：

機器學(xué)習(xí)中詞袋模型和TF-IDF怎么理解

現(xiàn)在，我們可以計算點評2中每個單詞的TF-IDF分?jǐn)?shù)：

TF-IDF(‘this’, Review 2) = TF(‘this’, Review 2) * IDF(‘this’) = 1/8 * 0 = 0

同樣地

TF-IDF(‘movie’, Review 2) = 1/8 * 0 = 0
TF-IDF(‘is’, Review 2) = 1/4 * 0 = 0
TF-IDF(‘not’, Review 2) = 1/8 * 0.48 = 0.06
TF-IDF(‘scary’, Review 2) = 1/8 * 0.18 = 0.023
TF-IDF(‘a(chǎn)nd’, Review 2) = 1/8 * 0 = 0
TF-IDF(‘slow’, Review 2) = 1/8 * 0.48 = 0.06

同樣地，我們可以計算出對于所有評論的所有單詞的TF-IDF分?jǐn)?shù)：

機器學(xué)習(xí)中詞袋模型和TF-IDF怎么理解

我們現(xiàn)在已經(jīng)獲得了我們詞匯的TF-IDF分?jǐn)?shù)。TF-IDF還為頻率較低的單詞提供較大的值，并且當(dāng)IDF和TF值都較高時，該值較高。TF-IDF分值高代表該單詞在所有文檔中都很少見，但在單個文檔中很常見。

到此，相信大家對“機器學(xué)習(xí)中詞袋模型和TF-IDF怎么理解”有了更深的了解，不妨來實際操作一番吧！這里是創(chuàng)新互聯(lián)網(wǎng)站，更多相關(guān)內(nèi)容可以進入相關(guān)頻道進行查詢，關(guān)注我們，繼續(xù)學(xué)習(xí)！

當(dāng)前標(biāo)題：機器學(xué)習(xí)中詞袋模型和TF-IDF怎么理解
標(biāo)題鏈接：http://www.dlmjj.cn/article/jdsiio.html

日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

新聞中心

示例

從文本創(chuàng)建向量

詞袋（BoW）模型

使用單詞包（BoW）模型的缺點

詞頻-逆文本頻率（TF-IDF）

逆文本頻率（IDF）

其他資訊