新聞中心
中科院的中文分詞問(wèn)題
下載一個(gè) Lucene的最新發(fā)布版,
成都創(chuàng)新互聯(lián)公司是專(zhuān)業(yè)的廣陽(yáng)網(wǎng)站建設(shè)公司,廣陽(yáng)接單;提供做網(wǎng)站、網(wǎng)站制作,網(wǎng)頁(yè)設(shè)計(jì),網(wǎng)站設(shè)計(jì),建網(wǎng)站,PHP網(wǎng)站建設(shè)等專(zhuān)業(yè)做網(wǎng)站服務(wù);采用PHP框架,可快速的進(jìn)行廣陽(yáng)網(wǎng)站開(kāi)發(fā)網(wǎng)頁(yè)制作和功能擴(kuò)展;專(zhuān)業(yè)做搜索引擎喜愛(ài)的網(wǎng)站,專(zhuān)業(yè)的做網(wǎng)站團(tuán)隊(duì),希望更多企業(yè)前來(lái)合作!
里面有Demo程序,并且配有文檔。
看懂之后,稍加修改,可以基本滿(mǎn)足你的需要。
然后如果想要性能更好的中文分詞(Lucene自帶的中文分詞有兩種方式:1、按字索引;2、二個(gè)字為一個(gè)詞進(jìn)行索引),需要找一些中文分詞的文章看看(推薦使用 ICTCLAS(中科院的分詞系統(tǒng))的java版,或者海量分詞的java版)。
注意在建立索引的時(shí)候,需要保存Term的位置信息,這樣在顯示結(jié)果文檔進(jìn)行高亮顯示時(shí),速度會(huì)比較快。
可以訪(fǎng)問(wèn)我的BLOG:
我里面有一篇總結(jié),希望對(duì)你有幫助。
java如何分詞??
如果你的分詞規(guī)則是在一個(gè)字符串的開(kāi)頭和結(jié)尾加上"_",然后兩個(gè)字符一分的話(huà),代碼可以這樣寫(xiě):
import java.util.ArrayList;
import java.util.List;
public class Participle
{
private static final String HEAD_END_STR = "_";
private static final int PARTICIPLE_LENGTH = 2;
public static void main(String[] args)
{
String exampleWord = "計(jì)算機(jī)";
exampleWord = "_" + exampleWord + "_";
int length = exampleWord.length();
ListString result = new ArrayListString();
for (int i = 0; i length - 1; i++)
{
String str = exampleWord.substring(i, i + PARTICIPLE_LENGTH);
result.add(str);
}
System.out.println(result);
}
}
輸出結(jié)果:_計(jì), 計(jì)算, 算機(jī), 機(jī)_
java語(yǔ)言中文分詞程序怎么編寫(xiě)分詞程序正
現(xiàn)可以提供兩種思路:
1.String或是StringBuffer(建議用) 中的indexOf("中華")方法,查找給定的的字符串中是否有給定詞表中的詞。
2.借鑒編譯原理中的狀態(tài)裝換的思想。
先編寫(xiě)一個(gè)狀態(tài)機(jī),用于測(cè)試給定字符串中的詞是否滿(mǎn)足詞表中的內(nèi)容。
寫(xiě)在最后:1)建議使用第一種方法,因?yàn)樵趈ava 內(nèi)部實(shí)現(xiàn)的查找操作其實(shí) 和你想得思路是相同的,不過(guò)他的效率會(huì)高些。
2)如果個(gè)人的編程能力比較強(qiáng)或是不考慮效率只是想實(shí)現(xiàn)專(zhuān)有的分詞算法??梢允褂玫诙N方法。
3)以上的兩種方法都可以使用多線(xiàn)程來(lái)提高程序的效率。
分享題目:中科院java分詞代碼,中科院java分詞代碼是什么
網(wǎng)頁(yè)網(wǎng)址:http://www.dlmjj.cn/article/hdigpo.html