Single
Precision
Format tunggal-presisi floating-point format angka
komputer yang menempati 4 byte (32 bit) dalam memori komputer dan merupakan
dynamic range yang lebar dari nilai-nilai dengan menggunakan floating point.
Dalam IEEE 754-2008 basis 2 format 32-bit secara
resmi disebut sebagai binary32. Itu disebut tunggal dalam IEEE 754-1985. Pada
komputer lama, format floating-point lain dari 4 byte yang digunakan. Salah
satu bahasa pemrograman pertama yang menyediakan tipe data tunggal dan double-presisi
floating-point adalah Fortran. Sebelum adopsi IEEE 754-1985, representasi dan
sifat ganda tipe data float tergantung pada produsen komputer dan model
komputer.
Single-presisi biner floating-point digunakan karena
jangkauan luas atas titik tetap (yang sama-bit lebar), bahkan jika pada biaya
presisi. Presisi tunggal dikenal sebagai nyata dalam Fortran, [1] sebagai
pelampung di C, C + +, C #, Java [2] dan Haskell, dan sebagai single di Delphi
(Pascal), Visual Basic, dan MATLAB. Namun, mengambang di Python, Ruby, PHP, dan
OCaml dan satu di versi Oktaf sebelum 3.2 merujuk pada nomor presisi ganda.
Dalam PostScript hanya presisi floating-point tunggal.
Dalam contoh ini:
\ text {} tanda = 0
1 + \ sum_ {i = 1} ^ {23} b_ {23}-i 2 ^ {-i} = 1 + 2
^ {-2} = 1,25
2 ^ {(e-127)} = 2 ^ {} 124-127 = 2 ^ {-3}
demikian:
\ text {value} = 1,25 \ kali 2 ^ {-3} = 0,15625
Double
Precision
Dalam komputasi, presisi ganda adalah format nomor
komputer yang menempati dua lokasi penyimpanan yang berdekatan dalam memori
komputer. Sejumlah presisi ganda, kadang-kadang hanya disebut ganda, dapat
didefinisikan sebagai integer, titik tetap, atau floating point (dalam hal ini
sering disebut sebagai FP64). Komputer modern dengan lokasi penyimpanan 32-bit
menggunakan dua lokasi memori untuk menyimpan nomor presisi ganda 64-bit
(lokasi penyimpanan tunggal dapat menampung sejumlah presisi tunggal). Presisi
ganda floating-point merupakan standar IEEE 754 untuk pengkodean biner atau
desimal angka floating-point 64 bit (8 byte).
The presisi ganda biner eksponen floating-point
dikodekan menggunakan representasi offset-biner, dengan offset nol menjadi
1023, juga dikenal sebagai Bias eksponen dalam standar IEEE 754. Contoh
representasi tersebut akan menjadi:
Emin (1) = -1.022
E (50) = -973
Emax (2046) = 1023
Dengan demikian, seperti yang didefinisikan oleh
representasi offset-biner, untuk mendapatkan eksponen benar bias eksponen 1023
harus dikurangkan dari eksponen tertulis.
Para eksponen 00016 dan 7ff16 memiliki arti khusus:
00016 digunakan untuk mewakili nol (jika M = 0) dan
subnormals (jika M ≠ 0), dan
7ff16 digunakan untuk mewakili ∞ (jika M = 0) dan
NaN (jika M ≠ 0),
di mana M adalah mantissa fraksi. Semua pola bit
encoding yang valid.
Kecuali untuk pengecualian atas, jumlah presisi
ganda seluruh digambarkan oleh:
(-1) ^ {\ Text {tanda}} \ kali 2 ^ {\ text {}
eksponen - \ text {eksponen Bias}} \ kali 1 \ text {} mantissa.
Tidak ada komentar:
Posting Komentar