新聞中心
【特稿】在這里我們將通過幾個有趣的例子,來演示Java對象序列化緩存問題。下面這個程序非常神奇,用了不到4秒的時間就向我的硬盤上輸出了1000TB的數(shù)據(jù)。不要懷疑你看錯了,確實是不到4秒時間就輸出1000TB的數(shù)據(jù),不相信你也可以在你的電腦上運行一下這個程序。如果你的硬盤不夠大也不用擔(dān)心,Java完全可以自己解決硬盤容量問題。這個例子對你的電腦***的要求就是必須有256M以上的內(nèi)存,并且要設(shè)置執(zhí)行參數(shù)為-Xmx256m。相信現(xiàn)在沒有誰的電腦內(nèi)存是不夠256M的。

- import java.io.*;
- public class SuperFastWriter {
- private static final long TERA_BYTE = 1024L * 1024 * 1024 * 1024;
- public static void main(String[] args) throws IOException {
- long bytesWritten = 0;
- byte[] data = new byte[100 * 1024 * 1024];
- ObjectOutputStream out = new ObjectOutputStream(
- new BufferedOutputStream(
- new FileOutputStream("bigdata.bin")
- )
- );
- long time = System.currentTimeMillis();
- for (int i = 0; i < 10 * 1024 * 1024; i++) {
- out.writeObject(data);
- bytesWritten += data.length;
- }
- out.writeObject(null);
- out.close();
- time = System.currentTimeMillis() - time;
- System.out.printf("Wrote %d TB%n", bytesWritten / TERA_BYTE);
- System.out.println("time = " + time);
- }
- }
編譯之后,我們就可以執(zhí)行這個程序了。
java -Xmx256m SuperFastWriter
可以看到類似以下的輸出
Wrote 1000 TB
time = 3710
你一定會非常奇怪,我用的到底是什么電腦。不僅輸出的速度那么快,并且輸出的內(nèi)容完全超出了硬盤容量。每秒鐘250 TB,簡直是不可思議的事情。
如果到硬盤上看一下輸出的文件,會發(fā)現(xiàn)文件只有大概150M。這是因為當(dāng)我們通過ObjectOutputStream輸出一個對象的時候,ObjectOutputStream會將該對象保存到一個哈希表中,以后在輸出相同的對象,都會只輸出指針,不輸出內(nèi)容。同樣的事情也發(fā)生在讀取對象的時候。Java通過該機制達(dá)到最小化數(shù)據(jù)輸入和輸出的目的。下面的例子就演示了讀取的過程。
- import java.io.*;
- public class SuperFastReader {
- private static final long TERA_BYTE = 1024L * 1024 * 1024 * 1024;
- public static void main(String[] args) throws Exception {
- long bytesRead = 0;
- ObjectInputStream in = new ObjectInputStream(
- new BufferedInputStream(
- new FileInputStream("bigdata.bin")
- )
- );
- long time = System.currentTimeMillis();
- byte[] data;
- while ((data = (byte[]) in.readObject()) != null) {
- bytesRead += data.length;
- }
- in.close();
- time = System.currentTimeMillis() - time;
- System.out.printf("Read %d TB%n", bytesRead / TERA_BYTE);
- System.out.println("time = " + time);
- }
- }
在這個例子中,我們?nèi)プx取剛才輸出的文件。雖然文件只有150M左右,但是實際讀取的時候,數(shù)據(jù)量應(yīng)該是和寫出的一樣。程序執(zhí)行時間只需要幾秒時間。類似執(zhí)行結(jié)果是:
Read 1000 TB
time = 2033
前面的例子我們反復(fù)的將同一個數(shù)組寫出到文件中,但是并沒有修改數(shù)組的內(nèi)容。下面的例子我們將每次寫出內(nèi)容不同的數(shù)組。因為Arrays.fill()的執(zhí)行效率比較低。所以我們只寫出256個大數(shù)組。
- import java.io.*;
- import java.util.Arrays;
- public class ModifiedObjectWriter {
- public static void main(String[] args) throws IOException {
- byte[] data = new byte[10 * 1024 * 1024];
- ObjectOutputStream out = new ObjectOutputStream(
- new BufferedOutputStream(
- new FileOutputStream("smalldata.bin")
- )
- );
- for (int i = -128; i < 128; i++) {
- Arrays.fill(data, (byte) i);
- out.writeObject(data);
- }
- out.writeObject(null);
- out.close();
- }
- }
接下來,我們把寫出的內(nèi)容在從文件中讀出看看。
- import java.io.*;
- public class ModifiedObjectReader {
- public static void main(String[] args) throws Exception {
- ObjectInputStream in = new ObjectInputStream(
- new BufferedInputStream(
- new FileInputStream("smalldata.bin")
- )
- );
- byte[] data;
- while ((data = (byte[]) in.readObject()) != null) {
- System.out.println(data[0]);
- }
- in.close();
- }
- }
觀察會發(fā)現(xiàn),讀出的內(nèi)容并沒有-128, -127, -126等數(shù)字,只有-128。這是因為雖然每次我們寫出之前都修改了數(shù)據(jù)的內(nèi)容,但是依然是原來的數(shù)組。Java序列化機制除了***次寫出數(shù)組內(nèi)容以外,以后每次只寫出一個指針。在讀的時候,也就只***次讀取到內(nèi)容為-128的數(shù)組,以后每次都根據(jù)讀取到的指針反復(fù)在本地哈希表中讀取了。也就是說序列化機制只關(guān)心對象是否變化,而不關(guān)心內(nèi)容是否變化。
通過這些提點,我們可以看出序列化的原則是:如果需要重復(fù)序列化一個對象,并且兩次序列化之間對象的內(nèi)容會發(fā)生改變,那么就要復(fù)位輸出流?;蛘呙看屋敵銮岸贾匦聞?chuàng)建一個對象。
下面我們看一下每次都創(chuàng)建新對象的結(jié)果:
- public class ModifiedObjectWriter2 {
- public static void main(String[] args) throws IOException {
- ObjectOutputStream out = new ObjectOutputStream(
- new BufferedOutputStream(
- new FileOutputStream("verylargedata.bin")
- )
- );
- for (int i = -128; i < 128; i++) {
- byte[] data = new byte[10 * 1024 * 1024];
- Arrays.fill(data, (byte) i);
- out.writeObject(data);
- }
- out.writeObject(null);
- out.close();
- }
- }
當(dāng)程序運行一會之后,將會提示OutOfMemoryError。這是因為每次對象寫出的時候,都會在哈希表中保留一個指針,所以雖然對象已經(jīng)不再使用了,Java的垃圾回收機制也不會對對象進行回收,要一直等到輸出流復(fù)位為止。當(dāng)循環(huán)多次執(zhí)行的時候,創(chuàng)建的對象越來越多,并且沒有被及時回收,就會出現(xiàn)OutOfMemoryError問題了。通過觀察可以發(fā)現(xiàn),在出現(xiàn)錯誤之前所產(chǎn)生的文件基本接近于為JVM所分配的內(nèi)存大小。如果每次輸出之后,都復(fù)位輸出,就可以避免這個問題了。
- import java.io.*;
- import java.util.Arrays;
- public class ModifiedObjectWriter3 {
- public static void main(String[] args) throws IOException {
- ObjectOutputStream out = new ObjectOutputStream(
- new BufferedOutputStream(
- new FileOutputStream("verylargedata.bin")
- )
- );
- byte[] data = new byte[10 * 1024 * 1024];
- for (int i = -128; i < 128; i++) {
- Arrays.fill(data, (byte) i);
- out.writeObject(data);
- out.reset();
- }
- out.writeObject(null);
- out.close();
- }
- }
不幸的是,復(fù)位輸出為導(dǎo)致所有的對象都被清理,即使是需要重復(fù)輸出的對象。
對ObjectOutputStream和ObjectInputStream進行優(yōu)化設(shè)計很大程度上降低了重復(fù)數(shù)據(jù)的輸入輸出工作,比如字符串。不幸的是,如果不恰當(dāng)?shù)氖褂脮?jīng)常導(dǎo)致OutOfMemoryError錯誤或者輸出數(shù)據(jù)不完整。
當(dāng)前題目:有趣的Java對象序列化緩存問題
文章位置:http://www.dlmjj.cn/article/dpsjsss.html


咨詢
建站咨詢
