2017-07-21 13:49:16 3190瀏覽
Java的基類Object提供了一些方法,其中equals()方法用于判斷兩個對象是否相等,hashCode()方法用于計算對象的哈希碼。equals()和hashCode()都不是final方法,都可以被重寫(overwrite)。
本文介紹了2種方法在使用和重寫時,一些需要注意的問題。
Object類中equals()方法實現(xiàn)如下:
1 2 3 |
public boolean equals(Object obj) { return (this == obj); } |
通過該實現(xiàn)可以看出,Object類的實現(xiàn)采用了區(qū)分度最高的算法,即只要兩個對象不是同一個對象,那么equals()一定返回false。
雖然我們在定義類時,可以重寫equals()方法,但是有一些注意事項;JDK中說明了實現(xiàn)equals()方法應(yīng)該遵守的約定:
(1)自反性:x.equals(x)必須返回true。
(2)對稱性:x.equals(y)與y.equals(x)的返回值必須相等。
(3)傳遞性:x.equals(y)為true,y.equals(z)也為true,那么x.equals(z)必須為true。
(4)一致性:如果對象x和y在equals()中使用的信息都沒有改變,那么x.equals(y)值始終不變。
(5)非null:x不是null,y為null,則x.equals(y)必須為false。
Object類中hashCode()方法的聲明如下:
1 |
public native int hashCode(); |
可以看出,hashCode()是一個native方法,而且返回值類型是整形;實際上,該native方法將對象在內(nèi)存中的地址作為哈希碼返回,可以保證不同對象的返回值不同。
與equals()方法類似,hashCode()方法可以被重寫。JDK中對hashCode()方法的作用,以及實現(xiàn)時的注意事項做了說明:
(1)hashCode()在哈希表中起作用,如java.util.HashMap。
(2)如果對象在equals()中使用的信息都沒有改變,那么hashCode()值始終不變。
(3)如果兩個對象使用equals()方法判斷為相等,則hashCode()方法也應(yīng)該相等。
(4)如果兩個對象使用equals()方法判斷為不相等,則不要求hashCode()也必須不相等;但是開發(fā)人員應(yīng)該認(rèn)識到,不相等的對象產(chǎn)生不相同的hashCode可以提高哈希表的性能。
總的來說,hashCode()在哈希表中起作用,如HashSet、HashMap等。
當(dāng)我們向哈希表(如HashSet、HashMap等)中添加對象object時,首先調(diào)用hashCode()方法計算object的哈希碼,通過哈希碼可以直接定位object在哈希表中的位置(一般是哈希碼對哈希表大小取余)。如果該位置沒有對象,可以直接將object插入該位置;如果該位置有對象(可能有多個,通過鏈表實現(xiàn)),則調(diào)用equals()方法比較這些對象與object是否相等,如果相等,則不需要保存object;如果不相等,則將該對象加入到鏈表中。
這也就解釋了為什么equals()相等,則hashCode()必須相等。如果兩個對象equals()相等,則它們在哈希表(如HashSet、HashMap等)中只應(yīng)該出現(xiàn)一次;如果hashCode()不相等,那么它們會被散列到哈希表的不同位置,哈希表中出現(xiàn)了不止一次。
實際上,在JVM中,加載的對象在內(nèi)存中包括三部分:對象頭、實例數(shù)據(jù)、填充。其中,對象頭包括指向?qū)ο笏鶎兕愋偷闹羔樅蚆arkWord,而MarkWord中除了包含對象的GC分代年齡信息、加鎖狀態(tài)信息外,還包括了對象的hashcode;對象實例數(shù)據(jù)是對象真正存儲的有效信息;填充部分僅起到占位符的作用, 原因是HotSpot要求對象起始地址必須是8字節(jié)的整數(shù)倍。
String類中相關(guān)實現(xiàn)代碼如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 |
private final char value[]; private int hash; // Default to 0 public boolean equals(Object anObject) { if (this == anObject) { return true; } if (anObject instanceof String) { String anotherString = (String)anObject; int n = value.length; if (n == anotherString.value.length) { char v1[] = value; char v2[] = anotherString.value; int i = 0; while (n-- != 0) { if (v1[i] != v2[i]) return false; i++; } return true; } } return false; } public int hashCode() { int h = hash; if (h == 0 && value.length > 0) { char val[] = value;
for (int i = 0; i < value.length; i++) { h = 31 * h + val[i]; } hash = h; } return h; } |
通過代碼可以看出以下幾點(diǎn):
1、String的數(shù)據(jù)是final的,即一個String對象一旦創(chuàng)建,便不能修改;形如String s = “hello”; s = “world”;的語句,當(dāng)s = “world”執(zhí)行時,并不是字符串對象的值變?yōu)榱恕眞orld”,而是新建了一個String對象,s引用指向了新對象。
2、String類將hashCode()的結(jié)果緩存為hash值,提高性能。
3、String對象equals()相等的條件是二者同為String對象,長度相同,且字符串值完全相同;不要求二者是同一個對象。
4、String的hashCode()計算公式為:s[0]*31^(n-1) + s[1]*31^(n-2) + … + s[n-1]
關(guān)于hashCode()計算過程中,為什么使用了數(shù)字31,主要有以下原因:
1、使用質(zhì)數(shù)計算哈希碼,由于質(zhì)數(shù)的特性,它與其他數(shù)字相乘之后,計算結(jié)果唯一的概率更大,哈希沖突的概率更小。
2、使用的質(zhì)數(shù)越大,哈希沖突的概率越小,但是計算的速度也越慢;31是哈希沖突和性能的折中,實際上是實驗觀測的結(jié)果。
3、JVM會自動對31進(jìn)行優(yōu)化:31 * i == (i << 5) – i
本節(jié)先介紹重寫hashCode()方法應(yīng)該遵守的原則,再介紹通用的hashCode()重寫方法。
通過前面的描述我們知道,重寫hashCode需要遵守以下原則:
(1)如果重寫了equals()方法,檢查條件“兩個對象使用equals()方法判斷為相等,則hashCode()方法也應(yīng)該相等”是否成立,如果不成立,則重寫hashCode ()方法。
(2)hashCode()方法不能太過簡單,否則哈希沖突過多。
(3)hashCode()方法不能太過復(fù)雜,否則計算復(fù)雜度過高,影響性能。
《Effective Java》中提出了一種簡單通用的hashCode算法
A、初始化一個整形變量,為此變量賦予一個非零的常數(shù)值,比如int result = 17;
B、選取equals方法中用于比較的所有域(之所以只選擇equals()中使用的域,是為了保證上述原則的第1條),然后針對每個域的屬性進(jìn)行計算:
(1) 如果是boolean值,則計算f ? 1:0
(2) 如果是byte\char\short\int,則計算(int)f
(3) 如果是long值,則計算(int)(f ^ (f >>> 32))
(4) 如果是float值,則計算Float.floatToIntBits(f)
(5) 如果是double值,則計算Double.doubleToLongBits(f),然后返回的結(jié)果是long,再用規(guī)則(3)去處理long,得到int
(6) 如果是對象應(yīng)用,如果equals方法中采取遞歸調(diào)用的比較方式,那么hashCode中同樣采取遞歸調(diào)用hashCode的方式。否則需要為這個域計算一個范式,比如當(dāng)這個域的值為null的時候,那么hashCode 值為0
(7) 如果是數(shù)組,那么需要為每個元素當(dāng)做單獨(dú)的域來處理。java.util.Arrays.hashCode方法包含了8種基本類型數(shù)組和引用數(shù)組的hashCode計算,算法同上。
C、最后,把每個域的散列碼合并到對象的哈希碼中。
下面通過一個例子進(jìn)行說明。在該例中,Person類重寫了equals()方法和hashCode()方法。因為equals()方法中只使用了name域和age域,所以hashCode()方法中,也只計算name域和age域。
對于String類型的name域,直接使用了String的hashCode()方法;對于int類型的age域,直接用其值作為該域的hash。