V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要把任何和邀请码有关的内容发到 NAS 节点。

邀请码相关的内容请使用 /go/in 节点。

如果没有发送到 /go/in,那么会被移动到 /go/pointless 同时账号会被降权。如果持续触发这样的移动,会导致账号被禁用。
serafin
V2EX  ›  NAS

群晖存储池 损毁

  •  
  •   serafin · 245 天前 · 4090 次点击
    这是一个创建于 245 天前的主题,其中的信息可能已经有所发展或是发生改变。

    群晖存储池损毁。联系群晖技术支持,技术支持说日志里出现过 UNC 错误,一般代表硬盘本身发生故障,需要及时更换。 删了一下文件后重启就正常了(硬盘状态良好)。查看 S.M.A.R.T. 没发现任何异常记录。过一周,又提示存储池 损毁,我在日志里发现了 20 来条 Write error at internal disk 在 不同的 sector 。 之前一次是没有 I/O 错误日志的。查看 S.M.A.R.T. 还是很健康。

    请问是硬盘硬件问题还是逻辑问题?

    32 条回复    2024-04-29 14:03:10 +08:00
    listenfree
        1
    listenfree  
       245 天前
    估计是硬盘问题,ssh 上去用 smartctl 看一下。
    serafin
        2
    serafin  
    OP
       245 天前
    HojiOShi
        3
    HojiOShi  
       245 天前
    你自己看看 5 197 198 都不是 0 了,SMART 怎么可能还会报健康?你硬盘在哪买的?
    serafin
        4
    serafin  
    OP
       245 天前
    @HojiOShi 群晖 smart 快速检测,还是报良好;硬盘是 chia 矿潮前意大利亚马逊自营买的?应该没问题。用了 23802 小时了。
    serafin
        5
    serafin  
    OP
       245 天前
    不过是 USB 拆出来的。希捷 16TB 氦气
    listenfree
        6
    listenfree  
       245 天前
    sudo smartctl -x -d sat /dev/sata(?) | more. ? 根据你硬盘的情况换成 1 或 2...
    如果有下面的内容,smart 就会报健康,但是可以已经有坏块了。
    = START OF READ SMART DATA SECTION ===
    SMART overall-health self-assessment test result: PASSED
    listenfree
        7
    listenfree  
       245 天前
    我 8G 矿盘的信息,你可参考
    ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE
    1 Raw_Read_Error_Rate PO-R-- 100 100 016 - 0
    2 Throughput_Performance P-S--- 134 134 054 - 104
    3 Spin_Up_Time POS--- 200 200 024 - 458 (Average 199)
    4 Start_Stop_Count -O--C- 100 100 000 - 1225
    5 Reallocated_Sector_Ct PO--CK 100 100 005 - 0
    7 Seek_Error_Rate PO-R-- 100 100 067 - 0
    8 Seek_Time_Performance P-S--- 128 128 020 - 18
    9 Power_On_Hours -O--C- 099 099 000 - 12216
    10 Spin_Retry_Count PO--C- 100 100 060 - 0
    12 Power_Cycle_Count -O--CK 100 100 000 - 22
    22 Helium_Level PO---K 100 100 025 - 100
    192 Power-Off_Retract_Count -O--CK 099 099 000 - 1651
    193 Load_Cycle_Count -O--C- 099 099 000 - 1651
    194 Temperature_Celsius -O---- 181 181 000 - 33 (Min/Max 12/46)
    196 Reallocated_Event_Count -O--CK 100 100 000 - 0
    197 Current_Pending_Sector -O---K 100 100 000 - 0
    198 Offline_Uncorrectable ---R-- 100 100 000 - 0
    199 UDMA_CRC_Error_Count -O-R-- 200 200 000 - 0
    ntedshen
        8
    ntedshen  
       245 天前
    感觉。。。但凡截个图丢微信或者丢个翻译软件也不至于讲出这 smart 算正常。。。

    错都报在这还跑 selftest 。。。跑的越多只会死的越快。。。
    luodan
        9
    luodan  
       245 天前
    记得拆解 Seagate 的盘要贴脚的,不能直接用。
    cue
        10
    cue  
       245 天前 via iPhone
    我之前存储盘也总是损毁,换了 3 块机械硬盘都用不超过一个月,最后忍无可忍换一块 Sata SSD 一劳永逸了。
    serafin
        11
    serafin  
    OP
       245 天前
    @ntedshen 确实 uncorrectable sectors 爆炸,但是群晖真给你标良好。看了 smart 数据才慌了。

    szzys
        12
    szzys  
       245 天前 via Android
    我家的群晖都被玩具埋在一起了。快 10 年了还没坏
    Yadomin
        13
    Yadomin  
       245 天前 via Android
    毁了一次你还敢接着用🐮
    geniussoft
        14
    geniussoft  
       244 天前 via iPhone
    1. 希捷拆盘是垃圾。
    2. Smart 检测和结果是硬盘固件提供的,DSM 只负责显示。
    serafin
        15
    serafin  
    OP
       244 天前
    @Yadomin 确实,当时有侥幸心理。开机后,邮件通知说存储池已修复。就看了一眼 smart 结果,没仔细看 smart 各个项目的数据。
    serafin
        16
    serafin  
    OP
       244 天前
    目前硬盘状态不错,DSM 强制开了只读模式。备份了大概 4TB 的数据,希望可以坚持到最后。读取速度保持在 110MB/s - 150MB/s 。
    ferock
        17
    ferock  
       244 天前 via iPhone
    @serafin #16

    单盘? 既然不在乎高可用…备份数据还要坚持?

    圈子里很多群晖玩家,用盘都是单盘说只放动作片,丢了无所谓,损毁了却着急的问备份不下来怎么办?
    jzphx
        18
    jzphx  
       244 天前
    希捷一身黑,群晖挂了两块希捷,台式机挂了半块。后面都搞的西数日立没再损毁过
    chunkingName
        19
    chunkingName  
       244 天前
    请问这个 smart 怎么看好还是坏啊 现值比临界值大就是好么?
    libook
        20
    libook  
       244 天前
    前不久刚淘汰一块 Uncorrectable Sectors Count 报 6 的盘,扫扇区发现 6 个扇区不可用、5 个扇区不佳。继续用肯定就会很快恶化了。你这个已经高得比较夸张了。

    具体判断硬盘是不是健康最好还是直接看报告里的具体指标。

    硬盘故障是比较看运气的,同品牌同型号的硬盘,我有用 2 年就异常走售后的,也有用了 5 年没有任何毛病的。
    dpx
        21
    dpx  
       244 天前   ❤️ 1
    希捷和西数对待坏道的处理方式不同,西数遇到坏道会标记躺平,所以早期很容易发现,希捷是尝试隐藏处理坏道从而继续正常使用,坏道少的话没问题,通常会造成很严重才会发现。
    HojiOShi
        22
    HojiOShi  
       244 天前
    @dpx #21 那看来希捷的盘是真不能买,出现故障都敢这么糊弄的。
    bolsterhoo
        23
    bolsterhoo  
       244 天前
    电子产品这种是看脸,13 年买的,同时买的 2 块 2T 的,目前情况良好
    ![NAS]( https://img2.imgtp.com/2024/04/25/VcZiLYU6.png "NAS")
    Autonomous
        24
    Autonomous  
       243 天前
    我有个希捷酷狼也是有坏块,SMART 快速检测无法发现,需要完全检测才行
    serafin
        25
    serafin  
    OP
       243 天前
    @Autonomous 能映射坏快继续用吗?
    Autonomous
        26
    Autonomous  
       243 天前
    @serafin 发现坏块后存储空间没有损毁,硬盘会自动重映射,我把重要数据转移走,踢出 RAID ,并执行了一次 Secure Erase ,之后这块盘只用于存储监控录像和备份。
    hanyuwei70
        27
    hanyuwei70  
       241 天前
    你这个 23k 小时就有 17k 的不可修复扇区了?我有点怀疑你这个是清零盘。
    说真的,换盘吧。
    pigeon2049
        28
    pigeon2049  
       241 天前
    (建议三台 nas 装 pve 组 ceph
    设置双副本或者三副本
    坏了块盘直接换,甚至不影响读写
    (硬件层面的 raid 或者软 raid 并不保险 现在普遍 10t 单盘以上,真坏盘你还得得一两周重建时间,我猜大部分人等不起
    luoshengdu
        29
    luoshengdu  
       241 天前
    感觉还是要好电源和稳定的市电环境。希望我这个备份机老而弥坚 坚挺住

    [img][/img]
    serafin
        30
    serafin  
    OP
       241 天前
    @luoshengdu 我这里也显示良好,要看 smart 详细的项目
    luoshengdu
        31
    luoshengdu  
       240 天前
    @serafin #30 那就继续用一阵子呗。不放重要数据挂了也不怕
    Co1e
        32
    Co1e  
       240 天前
    快速检测不准确的,建议更换硬盘
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1120 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 18:46 · PVG 02:46 · LAX 10:46 · JFK 13:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.