数据匿名化

什么是数据匿名化？

数据匿名化旨在通过从数据库中删除或加密个人身份信息来保护私人或敏感数据。数据匿名化的目的是保护个人或公司的私人活动，同时保持收集和共享数据的完整性。

数据匿名化也称为“数据混淆”、“数据屏蔽”或“数据去标识化”。它可以与去匿名化对比，去匿名化是数据挖掘中使用的技术，试图重新识别加密或模糊的信息。

了解数据匿名化

公司在其正常业务运营过程中生成、存储和处理大量敏感数据。由于在各个部门和国家生成和共享的数据中发现了相关信息，因此技术进步蓬勃发展。得益于社交媒体和电子商务机构等部门共享的数据，技术金融创新 ( fintech ) 在为客户定制金融服务的方式方面取得了巨大进步。

数字媒体和电子商务公司之间共享的数据帮助这两个行业更好地在其网站上向特定用户或消费者宣传产品。然而，为了使共享数据在不损害数据库中编译的客户身份的情况下有用，必须使用匿名化。

实践中的数据匿名化

大多数处理敏感信息的行业（如医疗保健、金融和数字媒体行业）都在执行数据匿名化，同时促进数据共享的完整性。数据匿名化可降低在国家、行业甚至同一公司内的部门之间共享数据时意外披露的风险。它还减少了身份盗窃发生的机会。

例如，一家医院将其患者的机密数据分享给医学研究实验室或制药公司，如果它让患者保持匿名，就可以在合乎道德的情况下这样做。这可以通过从共享列表中删除患者的姓名、社会安全号码、出生日期和地址来完成，同时保留医学研究所需的重要组成部分，如年龄、疾病、身高、体重、性别、种族等。

数据匿名化技术

数据的匿名化以多种方式完成，包括删除、加密、概括和许多其他方式。公司可以从其收集的数据中删除个人身份信息 (PII) ，也可以使用强密码对该信息进行加密。企业还可以决定概括其数据库中收集的信息。例如，一张表包含零售业五位 CEO 的确切总收入。假设记录的收入为 520,000 美元、230,000 美元、109,000 美元、875,000 美元和 124,000 美元。这些信息可以概括为“< 500,000 美元”和“≥ 500,000 美元”等类别。尽管数据被混淆了，但它仍然对用户有用。

数据匿名化推理

数据匿名化是指对机密信息进行消毒和掩盖，这样如果发生违规行为，所获取的数据对罪犯来说毫无用处。每个组织都应高度重视保护数据的需求，因为落入坏人之手的机密信息可能会被有意或无意地滥用。由于监管机构打击重大过失，在处理敏感的客户信息时缺乏敏感性可能会给企业带来巨大的成本。 PCI DSS（支付卡行业数据安全标准）等法律和合规要求在信用卡违规的情况下会对金融机构处以巨额罚款。 PIPEDA是一项加拿大法律，适用于公司对个人信息的披露和使用。还有其他多个监管机构已经成立，以监控组织对私人数据的使用或滥用。

通过称为去匿名化（或“重新识别”）的过程可以解码匿名数据。由于匿名数据可以被解码和解开，批评者认为匿名化提供了一种虚假的安全感。

＃＃强调

数据匿名化是指从敏感数据中剥离或加密个人或识别信息。
随着企业、政府、医疗保健系统和其他组织越来越多地将个人信息存储在本地或云服务器上，数据匿名化对于维护数据完整性和防止安全漏洞至关重要。
在高度敏感的医疗保健和金融领域，必须以符合监管要求的方式隐藏患者或客户数据。