Một phần của bản chất của bộ nhớ là nó chắc chắn hỏng. Các hỏng hóc này thường được phân ra làm hai loại cơ bản: hỏng phần cứng là lỗi phần mềm.
Cái được biết nhất là hỏng phần cứng, mà trong đó các chip đang hoạt động và sau đó, do hư hại vật lý có lỗ hoặc vì các sự kiện khác, trở nên bị hỏng hóc và hỏng thường xuyên. Sử loại lỗi này thông thường đòi hỏi phải thay một số phần cứng bộ nhớ, chẳng hạn như chip, SIMM hoặc DIMM. Những mức độ lỗi phần cứng được viết tắt là HEs (Hard error rates).
Một loại lỗi âm thầm khác là lỗi phần mềm, đây là một lỗi không thường xuyên có thể không bao giờ lặp lại hoặc chỉ có thể xảy ra ở các khoảng thời gian hiếm hoi. Những mức độ lỗi phần mềm được viết tắt là SERs (soft error rates).
Khoảng 20 năm về trước, Intel đã khám phá ra các lỗi phần mềm và là kinh động nền công nghiệp bộ nhớ. Họ đã khám phá ra rằng các phần từ alpha đã gay ra một tỷ lệ lỗi phần mềm cao không chấp nhận được hoặc các xáo trộn sự cố đơn (đôi khi người ta gọi là SEUs: single event upsets) trong DRAM 16KB có tại thời điểm đó. Bởi vì các phần tứ alpha là các phần tử có năng lowngj thấp có thể bị chặn đứng bằng cái gì đó mỏng và nhẹ như một tờ giấy, điều này chứng minh rằng các phần tử alpha gây ra một lỗi phần mềm DRAM, chúng có thể được đến từ các vật liệu bán dẫn. Việc kiểm tra cho thấy các dấu vết thorium và uranium trong vật liệu đóng gói chip nhựa và gốm được sử dụng lúc đó khám phá này bộc tất cả những nhà sản xuất bộ nhớ đánh giá các quy trình sản xuất của họ để sản xuất ra vật liệu sạch.
Ngày nay, các nhà sản xuất bộ nhớ có tất cả nhưng không hoàn toàn loại bỏ hết phần tử alpha và nhiều khám phá gần đây chứng tỏ rằng các phần tử alpha chỉ là một phần nhỏ nguyên nhân gây ra các lỗi phần mềm.
Khi nó sản xuất ra, nguyên nhân lớn nhất của lỗi phần mềm ngày nay là những tia vũ trụ. Các nhà nghiên cứu của IBM đã bắt đầu điều tra các điện thế của những tia vũ trụ mặt đất trong việc gây ra lỗi phần mềm tương ứng với các phân tử alpha. Sự khác biệt là tia vũ trụ là những phần tử năng lượng rất cao và không thể bị chặn bới một tờ giấy hay các loại vỏ chắn mạnh mẽ khác. Người dẫn đầu cuộc điều tra này là tiến sĩ J.F. Ziegler của IBM Watson Research Center tại Yorktown Heights, New York. Ông đã đưa ra nghiên cứu then chốt trong việc tìm hiểu tia vũ trụ và ảnh hưởng của chúng trong lỗi phần mềm bộ nhớ. Một loạt thí nghiệm thú vị tìm hiểu tia vũ trụ - được kết luận cho các lỗi phần mềm, chúng bị loại trừ khi các DRAM được chuyển đến một vòm ngầm được che bởi hơn 50 feets đá.
Tia vũ trụ được kết luận cho các lỗi phần mềm thậm chí còn nghiêm trọng hơn ở SRAM so với DRAM bởi vì số lượng điện yêu cầu để lật một bit trong một tế bào SRAM ít hơn khi lật một tụ điện tế bào DRAM. Tia vũ trụ cũng là một vấn đề lớn đối với bộ nhớ mật độ cao. Khi mật độ chip gia tăng, thì một phần tử lạc sẽ dễ dàng lật một bit. Một số người dự đoán rằng tỷ lệ lỗi phần mềm của một DRAM 64MB sẽ gấp đôi của một chip 16MB và một DRAM 256MB sẽ có tỷ lệ cao hơn gấp bốn lần. Khi kích cỡ bộ nhớ liên tục gia tăng tỷ lệ lỗi phần mềm cũng sẽ gia tăng.
Thật không may , nền công nghiệp PC đã có thất bại to loắn khi nhân ra căn nguyên của các lỗi bộ nhớ. Sự phóng tĩnh điện, đột biến nguồn điện hoặc phần mềm không ổn định có thể dễ dàng giải thích bằng bản chất ngẫu nhiên và không liên tục của lỗi phần mềm, đặc biệt là ngay sau khi tung ra hệ thống điều hành mới hoặc ứng dụng chính.
Mặc dù tia vũ trụ và các sự kiện bức xạ khác là nguyên nhân lớn nhất gây ra các lỗi phần mềm, các lỗi phần mềm cũng có thể được gây ra bởi các lí do sau:
Lỗi sự cố nguồn điện hoặc nhiễu đường điện – điều này có thể được gây ra bởi bộ nguồn trục trặc trong hệ thống hoặc gặp vấn đề ở nguồn đầu vào.
Không đúng loại hay tốc độ - bộ nhớ phải đúng loại với chipset và phù hợp với tốc độ truy cập hệ thống.
Sự nhiễu RF (tầng số radio) – do máy phát radio gần với hệ thống, có thể tạo ra các tín hiệu điện trong đường dây và các mạch hệ thống. Hãy nhớ rằng việc gia tăng sử dụng các thiết bị mạng, bàn phím và chuột không dây có thể dẫn tới nguy cơ nhiễu RF.
Sự phóng tĩnh điện - gây ra các xung nhọn điện tạm thời, từ đó thay đổi dữ liệu.
Những sự cố kỹ thuật về định thời gian – dữ liệu không đến đúng nơi đúng thời điểm, gây ra lỗi. Thường được gây ra bởi vì các thiết lập sai trong BIOS Setup, bởi vì bộ nhớ tốc độ châm hơn so với yêu cầu hệ thống, hoặc bởi vì các bộ xử lý và các thành phần hệ thống khác bị vượt xung.
Sư tích nhiệt – các module bộ nhớ tốc độ cao chạy nóng hơn các module cũ. Các module RDRAM RIMM là bộ nhớ đầu tiên có bao gồm bộ tản (spreader) nhiệt tích hợp, nhiều module bộ nhớ DDR và DDR2 tốc độ cao hiện nay có bao gồm các bộ tản nhiệt để chống lại sự tích nhiệt.
Hầu hết những sự cố này không gây ra việc hỏng chip vĩnh viễn (mặc dù nguồn điện không ổn định hoặc tĩnh điện có thể làm hỏng chip vĩnh viễn (mặc dù nguồn điện không ổn định hoặc tĩnh tiện có thể làm hỏng chip vĩnh viễn), nhưng chúng có thê gây rắc rối tạm thời cho dữ liệu.
Làm thế nào mà bạn có thể đối phó với các lỗi này? Cách tốt nhất để đối phó với vấn đề này là tăng cường khả năng chịu đựng sai sót của hệ thống. Điều này có nghĩa là các cách thự thì đó tìm ra và có thể sửa lỗi trong hệ thống PC. Ba cấp cơ bản và kỹ thuật được sử dụng cho khả năng chịu dựng sai sót trong các máy PC hiện đại là:
Không chẳn lẻ
Chẵn lẻ
ECC
Hệ thống không chẵn lẻ hoàn toàn không có khả năng chịu đựng sai sót. Lý do duy nhất cá hệ thống này được sử dụng là bởi vì chúng có giá thành thấp nhất. Không cần thêm bộ nhớ, giống như kỹ thuật chẵn lẻ hoặc ECC. Bởi vì một byte dữ liệu loại chẵn lẻ có 9 bit so với 8 bit của không chẵn lẻ, giá thành bộ nhớ cao hơn khoảng 12.5%. Ngoài ra, bộ điều khiển bộ nhớ không chẵn lẻ được đơn giản hóa bởi vì nó không cần các cổng logic để tính toán các bit nhớ không chẵn lẻ hoặc ECC. Các hệ thống xách tay có lợi thế là giảm thiểu tối đa năng lượng tiêu thụ nhờ vào việc giảm nguồn bộ nhớ từ việc dùng ít chip DRAM. Cuối cùng, bus dữ liệu hệ thống bộ nhớ hẹp hơn, làm giảm số lượng bộ nhớ đệm dữ liệu. Xác xuất lỗi bộ nhớ được thống kê trong một máy tính văn phòng hiện đại bây giờ được ước tính vào khoảng vài tháng một lỗi. Lỗi sẽ nhiều hơn hoặc ít hơn thường phụ thuộc vào việc bạn có bao nhiêu bộ nhớ.
Tỷ lệ lỗi này có thê được bỏ qua vì các hệ thống cấp thấp không được sử dụng cho các ứng dụng trọng yếu. Trong trường hợp này, tính cực kỳ nhạy cảm của thị trường về giá có lẽ không thể biện bạch việc thêm giá thành của tính chẵn lẻ hoặc bộ nhớ ECC, và các lỗi như vậy phải được bỏ qua.
Kiểm tra tính chẵn lẻ
Một phần IBM lập cho ngành công nghiệp là các chip nhờ trong dãy chín, mỗi chip đều nắm giữ 1 bit dữ liệu: 8 bit mỗi ký tự cộng thêm. 1 bit gọi là bit chẵn lẻ (parity bit). Bit chẵn lẻ cho phép mạch điều khiển bộ nhớ theo dõi 8 bit kia một kiểm tra chéo lặp sẵn cho tính toán vẹn của mỗi byte trong hệ thống.
Ban đầu, tất cả các hệ thống PC sử dụng bộ nhớ kiểm tra tính chẵn lẻ để đảm bảo tính chính xác. Bắt đầu từ năm 1994, hàu hết các nhà cung cấp bắt đầu bán các hệ thống không có kiểm tra this chẵn lẻ hay bất kỳ đĩa nào phát hiện hoặc sửa lỗi! Các hệ thống này có thể sử dụng các module bộ nhớ không chẵn lẻ rẻ hơn, tiết kiệm khoảng 10% đến 15% giá thành bộ nhớ cho hệ thống.
Bộ nhớ chẵn lẻ dẫn đến tăng giá thành hệ thống ban đầu, chủ yếu do các bit bộ nhớ thêm vào. Tính chẵn lẻ không thể sửa lỗi hệ thống, nhưng vì chẵn lẻ có thể phát hiện lỗi, nó giúp người dùng nhận ra những lỗi bộ nhớ khi chúng xảy ra.
Từ đó Intel và những nhà sản xuất chipset khác đạt hỗ trợ bộ nhớ ECC vào nhiều chipset (đặt biệt trong các kiểu cao cấp). Tuy nhiên những chipset dòng thấp nhiều hỗ trợ cho các tính chẵn hay lẻ hay ECC. Nếu độ tin cậy là quan trọng với bạn, hay chắc chắn hệ thống bạn mua có hỗ trợ ECC.
Theo " Nâng cấp và sửa chữa máy tính" Scott Mueller