新聞中心
采用神經(jīng)元形式表達(dá)字典特征并使用CRF(Conditional Random Field)作為決策方法,能夠在大量真實(shí)數(shù)據(jù)集上實(shí)時(shí)進(jìn)行中文分詞;一、百度中文分詞三點(diǎn)原理

創(chuàng)新互聯(lián)公司是專業(yè)的石獅網(wǎng)站建設(shè)公司,石獅接單;提供成都網(wǎng)站制作、成都網(wǎng)站設(shè)計(jì),網(wǎng)頁設(shè)計(jì),網(wǎng)站設(shè)計(jì),建網(wǎng)站,PHP網(wǎng)站建設(shè)等專業(yè)做網(wǎng)站服務(wù);采用PHP框架,可快速的進(jìn)行石獅網(wǎng)站開發(fā)網(wǎng)頁制作和功能擴(kuò)展;專業(yè)做搜索引擎喜愛的網(wǎng)站,專業(yè)的做網(wǎng)站團(tuán)隊(duì),希望更多企業(yè)前來合作!
1. 語義分析:通過對(duì)句子的語義分析,將句子劃分為最小的意義單位。
2. 利用上下文信息:根據(jù)上下文信息來調(diào)整詞性和詞頻,從而減少歧義。
3. 結(jié)合語法規(guī)律:根據(jù)不同的句式特征來實(shí)現(xiàn)對(duì)句子的最優(yōu)化處理。二、百度中文分詞技術(shù)
1. 核心NLP引擎——LAC(Light Automatic Chinese Word Segmentation) :采用神經(jīng)元形式表達(dá)字典特征并使用CRF(Conditional Random Field)作為決策方法,能夠在大量真實(shí)數(shù)據(jù)集上實(shí)時(shí)進(jìn)行中文分詞;
2. 高性能加速——HMM (Hidden Markov Model): 在LAC之前加入HMM,從而大幅度減少交互時(shí)間;
3. 多顆星圖——Star Graph: 針對(duì)不含正常成分的多錯(cuò)字情況,采用Star Graph方法進(jìn)行處理;
4. 迷你字典——Mini Dictionary: 在LAC之前加入Mini Dictionary,從而減少部分非常規(guī)情況所帶來的影響;
5. 深度學(xué)習(xí)——Deep Learning: 針對(duì)一般情況使用CNN/RNN/Bi-GRU+CRF/Attention+CRF 等方法進(jìn)行中文分詞; 6 . 未登錄語計(jì)數(shù) ——Unseen Words Counting : 在 L A C / H M M / S t a r G r a p h / D e e p L e a r n i n g 的基礎(chǔ)上 , 添加 U n s e e n W o r d s C o u n t i n g , 進(jìn)一步優(yōu)化 N E P ; 7 . 多錯(cuò)字優(yōu)化 ——Multi-Error Words Optimization : 針對(duì)多錯(cuò)字情況 , 添加 Multi - Error Words Optimization , 進(jìn)一步優(yōu)化 N E P ;
分享標(biāo)題:網(wǎng)站優(yōu)化seo中需要注意的百度的中文分詞三點(diǎn)原理
文章網(wǎng)址:http://www.dlmjj.cn/article/djceped.html
其他資訊
- 優(yōu)雅設(shè)計(jì):數(shù)據(jù)庫增刪改查網(wǎng)站頭部俏皮靈動(dòng) (數(shù)據(jù)庫增刪改查網(wǎng)站頭部設(shè)計(jì))
- 擁抱新時(shí)代: Redis在集群調(diào)度中的運(yùn)用(集群調(diào)度 redis)
- 一個(gè)域名怎么綁定幾個(gè)服務(wù)器?一臺(tái)服務(wù)器掛多個(gè)域名
- 手機(jī)指紋解鎖數(shù)據(jù)庫:保護(hù)你的隱私安全 (手機(jī)指紋解鎖數(shù)據(jù)庫)
- 方案解決Redis腦裂問題一個(gè)有效的方案(redis腦裂問題及解決)


咨詢
建站咨詢
