This is an HTML version of an attachment to the Freedom of Information request 'Privacy mechanisms in CPRD'.



Journal of the American Medical Informatics Association
Confidential: For Review Only
 
 
 
 
 
 
Privacy protection and research access mechanisms for 
National Health Service data: The Clinical Practice Research 
Datalink (CPRD) 
 
 
Journal:  Journal of the American Medical Informatics Association 
Manuscript ID:  Draft 
Article Type:  Research and Applications 
Electronic Health Records, Computer security, Information systems, 
Keywords:  Privacy, Confidentiality 
 
 
 
http://mc.manuscriptcentral.com/jamia

Page 1 of 15
Journal of the American Medical Informatics Association
 
1
2
3
4
Privacy protection and research access 
5
6
7
8
Confidential: For Review Only
mechanisms for National Health Service data: 
9
10
The Clinical Practice Research Datalink (CPRD) 
11
12
13
Tim Holt1, Tarita Murray-Thomas2, Tim Williams2, John Parkinson2 
14
1
15
University of Oxford, Oxford, UK 
16
2Clinical Practice Research Datalink (CPRD), Medicines and Healthcare products Regulatory Agency 
17
18
(MHRA), London, UK 
19
20
 
21
Corresponding author: 
22
23
Dr Tim A. Holt PhD MRCP FRCGP 
24
NIHR Academic Clinical Lecturer 
25
26
University of Oxford 
27
Department of Primary Care Health Sciences 
28
29
2nd floor 
30
23-38 Hythe Bridge Street 
31
32
Oxford OX1 2ET 
33
Tel: +44 (0)1865 289281  
34
35
Fax: +44 (0)1865 289287 
36
Email: [email address]  
37
 
38
39
Key  words:  Electronic  Health  Records;  Computer  security;  Information  systems;  Privacy; 
40
41
Confidentiality 
42
 
43
44
Word count (excluding Abstract and References): 3509 words 
45
46
 
47
 
48
49
 
50
 
51
52
 
53
54
 
55
 
56
57
 
58
59
60
 

http://mc.manuscriptcentral.com/jamia

Journal of the American Medical Informatics Association
Page 2 of 15
 
1
2
3
 
4
 
5
6
7
8
Confidential: For Review Only
ABSTRACT 
Electronic  health  records  were  introduced  into  UK  primary  care  during  the  late  1980s  to  support 
9
consultation  based  record  keeping,  prescribing,  practice  administration,  and  later  audit  and 
10
11
performance management. National Health Service (NHS) policies required standardisation of coding 
12
to support future interoperability and the integration of structures to enable equitable provision of 
13
14
care  across  different  regions.  These  processes  also  led  to  the  establishment  of  research  databases 
15
16
containing  large  volumes  of  anonymised,  routinely  collected  data  extracted  from  participating 
17
general  practices.  Whilst  the  completion  of  NHS  clinical  software  integration  has  proven  elusive, 
18
19
these resources have benefitted from the data standardisation process designed to support it. They 
20
provide huge statistical power for addressing observational research questions including pharmaco-
21
22
vigilance.  Linkage  to  other  clinical  databases,  hospital  data,  and  the  Office  for  National  Statistics 
23
24
mortality  data  has  been  established  through  trusted  third  parties.  Recently,  the  potential  for 
25
supporting  primary  care  based  interventional  trials  has  been  developed.  Whilst  the  information 
26
27
stored in these secondary databases contain no personal identifiers, governance arrangements take 
28
29
account  of  legislation  introduced  during  the  1990s  to  offset  public  concern  over  the  control  of 
30
sensitive health information. 2012 sees the creation of the Clinical Practice Research Datalink, which 
31
32
will  bring  together  anonymised  data  from  a  significant  proportion  of  UK  practices  with  extensive 
33
linkage to other national datasets for the benefit of patients, UK public health, life science industries 
34
35
and  the  international  academic  community.  This  paper  describes  how  the  challenges  of  privacy 
36
37
protection and data sharing will be addressed in this new programme. 
38
 
39
40
BACKGROUND AND SIGNIFICANCE 
41
42
Clinical software infrastructure in the UK has from the outset been influenced by the existence and 
43
requirements  of  the  National  Health  Service  (NHS),  a  system  established  in  1948  to  provide 
44
45
equitable access to health care that is free at the point of delivery. Fifty years later, a proposal for 
46
NHS  software  integration  was  made  by  the  National  Programme  for  IT  (NPfIT)[1].  This  described  a 
47
48
vision for NHS software development including the NHS Care Records Service, through which patient 
49
50
records  could  be  accessed  from  outside  individual  practices  and  therefore  beyond  the  team 
51
responsible for usual care. This was designed to support care at remote locations, such as accident 
52
53
and  emergency  facilities,  treating  acutely  ill  individuals  away  from  their  home  base,  and  was 
54
55
generally  welcomed,  but  raised  issues  over  data  control  and  privacy.  Despite  difficulties  in 
56
completing this vision, standardisation of data coding and the integration of previously unconnected 
57
58
59
60
 

http://mc.manuscriptcentral.com/jamia

Page 3 of 15
Journal of the American Medical Informatics Association
 
1
2
3
domains (such as those of hospital laboratories and primary care records) succeeded in achieving the 
4
necessary  interoperability  to  support  the  Quality  and  Outcomes  Framework  (QOF)  established  in 
5
6
7
8
Confidential: For Review Only
2004[2].  This  ‘payment  by  results’  system  required  the  use  of  QMAS  (Quality  Management  and 
Analysis  System)[3]  software  that  extracts  relevant  data  anonymously  from  practices  to  monitor 
9
performance  remotely  against  QOF  targets.  These  developments  moved  chronic  disease 
10
11
management  beyond  individual  patient  care  at  the  practice  level,  and  closer  to  a  nationally 
12
distributed public health endeavour.  
13
14
 
15
16
From a research perspective, routinely collected primary care data were a potentially rich resource 
17
from an early stage, but required careful interpretation[4]. Data began to be extracted from multiple 
18
19
sites  into  the  General  Practice  Research  Database  (GPRD)  as  early  as  1987[5],  and  this  usage 
20
increased  during  the  following  two  decades,  incorporating  more  recently  innovations  involving 
21
22
linkage to secondary data sources, enhanced methodologies and novel applications[6]. This led on to 
23
24
a  range  of  data  repositories  and  integrated  data  collection  systems  summarised  by  Gnani  and 
25
Majeed[7]. In addition to GPRD and QMAS, they include MIQUEST (Morbidity Information Query and 
26
27
Export  Syntax)[8],  Prescribing  Analysis  and  Cost  (PACT)  data[9],  the  RCGP  Weekly  Returns 
28
29
Service[10],  the  Primary  Care  Information  Service  (PRIMIS)[11],  The  Health  Improvement 
30
Network[12]  and  QRESEARCH,  a  large  database  hosted  at  the  University  of  Nottingham[13]. 
31
32
Electronic data recording was, at the start of the 1990s largely designed to support individual care. It 
33
then expanded to meet the needs of clinical audit, later becoming a tool for monitoring adequacy of 
34
35
care at the practice level and of comparing different practices by primary care organisations. These 
36
37
were able not only to extract anonymised data remotely (as GPRD already could) but also to feed the 
38
results  back  to  practices  on  a  regular  basis.  This  process  required  a  certain  level  of  code 
39
40
standardisation that was unnecessary for the requirements of the decade before.  
41
42
 
43
Central  to  this  process  were  the  concepts  of  disease  registers  and  unique  identifiers.  Disease 
44
45
registers  have  become  the  focus  of  structured,  systematic  chronic  disease  management  in  UK 
46
primary  care,  and  are  an  important  basis  for  the  interpretation  of  clinical  behaviour  and  of  health 
47
48
outcomes in research settings. NHS numbers have enabled linkage of information between records 
49
50
held in different clinical databases, as discussed below.  
51
 
52
53
Privacy legislation 
54
55
In  1980  the  global  Organisation  for  Economic  Co-operation  and  Development  (OECD)  defined  a 
56
number  of  key  principles  related  to  data  security,  access  and  accountability[14].  These  have 
57
58
59
60
 

http://mc.manuscriptcentral.com/jamia

Journal of the American Medical Informatics Association
Page 4 of 15
 
1
2
3
influenced  later  policy  development  in  regions  and  individual  nations,  including  Europe  and  its 
4
member  countries.  In  the  UK,  the  Data  Protection  Act  (DPA)  was  first  introduced  in  1984,  and 
5
6
7
8
Confidential: For Review Only
amended  in  1998[15]  in  the  context  of  the  European  Data  Protection  Directive  of  1995  (which  is 
itself currently in the process of revision)[16]. The DPA defines ‘data controllers’ and describes their 
9
responsibilities  with  respect  to  personal  data,  including  more  specifically  ‘sensitive  personal  data’. 
10
11
Such data (and the Act itself) relate to identifiable, living individuals. In the specific arena of health 
12
care, increasing public concern over the sharing of personal health information led to the Caldicott 
13
14
Report of 1997[17]. This established a clear ‘need to know’ principle through which the purposes of 
15
16
health  data  collection  and  usage  must  be  defined  and  justified.  It  requires  each  NHS  organisation 
17
(from  large  Strategic  Health  Authorities  to  individual  general  practices)  to  identify  a  ‘Caldicott 
18
19
Guardian’ who is responsible for all matters related to personal data control and privacy protection. 
20
 
21
22
These  developments  largely  relate  to  the  handling  of  information  on  identifiable  individuals. 
23
24
However,  the  ‘need  to  know’  principle  has  also  influenced  access  to  anonymised  health  data.  The 
25
three  major  UK  primary  care  databases  (GPRD,  QRESEARCH,  and  THIN)  all  collect  pseudo-
26
27
anonymised data that contain no strong identifiers, i.e. no details of the person’s name, address, or 
28
29
other contact details. Record ID numbers are applied in the practices that enable individual records 
30
to be updated over time,  but these numbers are not released to researchers[18]. Those registered 
31
32
with  the  practices  contributing  data  are,  in  the  GPRD  system,  informed  by  practice  poster  and 
33
leaflets  that  their  anonymised  data  will  be  used  and  linked  for  research  unless  they  specifically 
34
35
request their general practitioner to flag their record as not for use in such research. In practice the 
36
37
number of patients that opt out is very small.  
38
 
39
40
Each database requires detailed justification of access to the data and each has a Scientific Advisory 
41
42
Committee.  Such  committees  review  all  proposed  study  protocols;  approving,  suggesting 
43
amendments or rejecting as they decide.  Ethical approval is also required for such work and in most 
44
45
cases  exists  under  a  blanket  approval  arrangement  for  observational  studies.    Individual  studies 
46
requiring direct access to patient populations must in addition seek their own ethical approval from 
47
48
relevant  approving  bodies.  Study  protocols  often  define  medical  code  sets  that  relate  to  the  pre-
49
50
specified  research  question  and  allow  the  identification  of  the  anonymous  records  of  relevant 
51
individuals  in  the  repositories.  In  the  case  of  QRESEARCH,  only  the  coded  events,  observations, 
52
53
prescriptions  and  descriptors  are  released  rather  than  the  whole  health  record.  In  all  cases,  the 
54
55
investigators  must  confirm  through  a  licence  that  no  attempts  will  be  made  to  identify  individual 
56
people or practices. In GPRD, the lowest health administrative area of the UK (defined here as that 
57
58
59
60
 

http://mc.manuscriptcentral.com/jamia

Page 5 of 15
Journal of the American Medical Informatics Association
 
1
2
3
covered by a primary care trust) for which data is made available for research must comprise of at 
4
least  three  GPRD  contributing    practices  within  that  area.  GPRD  is  available  to  the  international 
5
6
7
8
Confidential: For Review Only
academic community through an on-line secured connection (GPRD GOLD)[19]. 
 
9
Linkage to other databases 
10
11
The  opportunity  to  link  primary  care  databases  to  other  sources  of  information  greatly  increases 
12
their potential to address a range of research questions. Despite moves to improve interoperability, 
13
14
there  is  a  sharp  division  in  the  UK  between  the  clinical  software  systems  used  in  primary  and 
15
16
secondary (hospital based) care settings. Linkage  with Hospital Event Statistics  (both inpatient and 
17
outpatient)[20]  allows  research  to  occur  at  the  interface  between  these  domains  and  provides  a 
18
19
more inclusive capture of health outcomes. Linkage to the Office for National Statistics[21] enables 
20
death certificate data to confirm the cause of death of individuals, which is not always recorded in 
21
22
primary  care  after  a  person  has  died.  Other  arrangements  involve  national  disease  registries 
23
24
including linkage of GPRD to the National Cancer Intelligence Network[22]. However, these linkages 
25
require  strong  identifiers  including  NHS  number,  sex,  date  of  birth  and  post  code  which,  as  noted 
26
27
above, are not included in the primary care databases as this would violate the anonymity principle. 
28
29
To  overcome  this,  trusted NHS  third  parties  are  used  that  provide  a  linkage  service  without  either 
30
database ‘seeing’ the other’s data, as discussed further below. 
31
32
 
33
The established model of voluntary linkage of practices to the large research databases is evolving. 
34
35
The  latest  move  will    establish  a  comprehensive  data  collection  system  that  will  involve  a  large 
36
37
proportion  of  UK  practices  linked  to  numerous  other  health  data  sources  as  the  Clinical  Practice 
38
Research Datalink.  
39
40
 
41
42
ESTABLISHMENT OF THE CLINICAL PRACTICE RESEARCH DATALINK (CPRD) 
43
CPRD is jointly funded by the Department of Health’s National Institute for Health Research (NIHR) 
44
45
and  the  Medicines  and  Healthcare  products  Regulatory  Agency  (MHRA).  It  combines  the  original 
46
GPRD operation with the extensive work undertaken within the Research Capability Programme[23] 
47
48
over  the  last  4  years.  CPRD  was  introduced  in  April  2012  as  part  of  the  UK  government’s  Plan  for 
49
50
Growth[24] and will use a federated approach to integrate many NHS datasets and other data which 
51
may be useful for health research. Through the iterative development of data linkages with relevant 
52
53
sources  CPRD  will  enable  access  to  observational  data  to  facilitate  epidemiological  research,  drug 
54
55
safety/effectiveness  and  risk-benefit  research,  help  to  support  surveillance  activities  and  more 
56
importantly facilitate interventional research within the database setting.   
57
58
59
60
 

http://mc.manuscriptcentral.com/jamia

Journal of the American Medical Informatics Association
Page 6 of 15
 
1
2
3
Greater  access  to  data  and  more  extensive  linkage  arrangements  under  the  CPRD  initiative  could 
4
potentially  increase  the  risks  of  re-identification.    However,  CPRD  proposes  to  safeguard  patient 
5
6
7
8
Confidential: For Review Only
privacy  at  all  levels  of  its  operations  starting  with  the  use  of  appropriate  privacy  enhancing 
technologies  for  privacy  consolidation  at  the  design  stage,  the  use  of  a  trusted  third  party  to 
9
undertake  data  linkage  and  the  implementation  of  privacy  impact  assessments,  performance 
10
11
evaluations,  legal  contracts  and  audit.  It  will  use  anonymisation  methods  that  protect  privacy 
12
without  losing  the  functionality  of  data  sources  for  research.  Figure  1  depicts  a  summary  of  the 
13
14
processes for ensuring overall data stewardship in CPRD.  
15
16
 
17
Non-interactive and interactive frameworks for protecting privacy in CPRD 
18
19
CPRD  will  build  upon  the  privacy  mechanisms  supporting  GPRD,  integrated  with  input  from  the 
20
Department of Health Research Capability Program[23].  In the case of the existing GPRD privacy is 
21
22
protected mainly  under a non-interactive framework in which original data is first ‘sanitized’ and a 
23
24
modified  version  is  then  released  to  users[25].  In  contrast  to  an  interactive  framework,  the  non-
25
interactive  solution  allows  data  sanitization  to  be  conducted  offline  as  interactions  with  users  are 
26
27
not  required[26].    The  risk  of  accidental  disclosure  of  sensitive  data  is  avoidable  under  this 
28
29
framework. The potential limitation of using a non-interactive model is that as CPRD expands over 
30
time it may become more difficult to provide utility that has not yet been specified at the time that 
31
32
the  sanitization  is  undertaken[27].  The  anonymisation  of  GPRD  data  is  implemented  at  source  as 
33
part of the data extraction process from practices. Strong identifiers (e.g. name, address, post code, 
34
35
telephone number) are removed and other fields are generalised where necessary (e.g. date of birth 
36
37
becomes year of birth)[28].  
38
 
39
40
Interactive  mechanisms  will  be  used,  under  certain  circumstances,  for  handling  highly  sensitive 
41
42
information  such  as  infectious  disease  data. Under  this  framework,  data  queries  will  be  submitted 
43
through  a  mechanism  that  can  either  deny  queries,  or  alternatively  modify  or  suppress  the  query 
44
45
output  in  order  to  ensure  privacy[26].  This  query  auditing  approach  combined  with  output 
46
perturbation methods have been shown to be of comparable and even of better quality than some 
47
48
non-interactive  solutions[29].  However,  significant  levels  of  data  perturbation  will  have  potential 
49
50
effects on analysis possibly introducing bias and misclassification to observational research. 
51
 
52
53
Data encryption  
54
55
CPRD  will  markedly  expand  the  patient  populations  available  for  research  by  integrating  the 
56
collection  of longitudinal patient data from different practice management software systems. Such 
57
58
59
60
 

http://mc.manuscriptcentral.com/jamia

Page 7 of 15
Journal of the American Medical Informatics Association
 
1
2
3
data will be accessible under a non-interactive framework and privacy  will be  assured through the 
4
use  of  Privacy  Enhancing  Technology  (PET)[29,  30].  Privacy  legislation  such  as  the  European  Union 
5
6
7
8
Confidential: For Review Only
(EU) Data Protection Directive 95/46/EC, Article 17 Security of Processing provides the legal basis for 
the  use  of  PET  in  securing  data  at  such  levels[31].    PET  will  be  used  to  achieve  data  encryption 
9
without the need to collect information such as names, addresses and NHS numbers. Coupled with 
10
11
appropriate levels of governance relating to access and use of data, PET will help to minimize the risk 
12
of  re-identification  of  individuals  in  the  database.  PET  would  operate  during  the  data  collection 
13
14
process to encrypt the  identifiers of patients,  doctors and other practice staff  who enter data into 
15
16
the  practice  management  system.  In  this  way,  all  data  regardless  of  its  origin  of  collection  by  the 
17
CPRD group will be pseudonymised.  As an additional safeguard, patient and practice identifiers will 
18
19
be encrypted for a second time prior to release to researchers via the CPRD data warehouse.  CPRD 
20
policies will be consistent with guidance provided by the Information Commission Office (ICO) on the 
21
22
use of PETs for maintaining privacy[32]. 
23
24
 
25
In those circumstances where patient identifiable information must be made available for research 
26
27
CPRD  will  only  make  this  available  if  individuals  have  given  informed  consent  for  their  data  to  be 
28
29
used  or where researchers have been granted  exemption by the  National Information Governance 
30
Board for  Health and Social Care (NIGB)[33] to use identifiable  data under Section  251 of the NHS 
31
32
Act 2006 (formerly Section 60 of the Health and Social Care Act 2001)[34].   
33
 
34
35
Trusted Third Party (TTP) 
36
37
CPRD  will  have  access  to  patient  demographics  data  for  the  whole  of  the  National  Health  Service 
38
(NHS)  in  England  using  data  maintained  by  the  national  electronic  database  of  the  Personal 
39
40
Demographic  Service  (PDS)[35].  While  the  PDS  does  not  capture  clinical  or  sensitive  data  items  it 
41
42
provides  access  to  patients  NHS  number  which  will  enable  the  deterministic  linkage  of  persons 
43
across data sources. CPRD  will not have direct access to PDS data but will have access to this via a 
44
45
trusted third party, the Information Centre for Health and Social Care[36].  At the level of the trusted 
46
third  party,  PDS  data  will  be  used  to  generate  and  store  a  unique  encrypted  identifier  for  each 
47
48
person (CPRD ID). This will provide the infrastructure needed to support record linkages among any 
49
50
combination of data sources. Use of the CPRD ID will enable audit and replication of analysis in key 
51
studies of high public health importance. This is a key feature of emerging guidelines such as Good 
52
53
Pharmacoepidemiological Practice[37] and recent ENCePP Guidelines[38]. 
54
55
 
56
CPRD  will  use  the  established  protocol  for  record  linkages  via  TTP  as  developed  by  the  GPRD  and 
57
58
59
60
 

http://mc.manuscriptcentral.com/jamia

Journal of the American Medical Informatics Association
Page 8 of 15
 
1
2
3
further  extended  by  the  work  of  the  Research  Capability  Programme.  It  will  also  extend  this 
4
approach  to  include  privacy  preserving  linkage  mechanisms.  This  extension  is  important  as  the 
5
6
7
8
Confidential: For Review Only
number  of data  linkages under  CPRD is  expected to surpass significantly that currently undertaken 
by  GPRD.  Under  this  proposed  arrangement,  the  TTP  will  continue  to  be  independent  of  both  the 
9
NIHR and MHRA and will serve as the mediator of the linkage process.  In principle, data holders and 
10
11
the TTP will agree on the identification data to be used for the linkage and all  data holders will be 
12
required  to  supply  unique  serial  identifiers  and  encrypted  identification  data  to  the  TTP.    Using 
13
14
deterministic  and  probabilistic  techniques,  the  TTP  will  link  individual  records  and  create  a  unique 
15
16
linkage ID.   Once the linkage is complete, the TTP will send the unique serial identifier and linkage 
17
IDs  back  to  each  respective  data  holder  and  will  destroy  all  encrypted  identification  data  used  to 
18
19
generate the linkage.  Data holders will then be able to add the linkage IDs to their dataset using the 
20
unique serial ID and send the required non identifiable dataset with linkage IDs to researchers. Once 
21
22
a common linkage ID exists across systems and datasets, it will be possible for researchers to create 
23
24
linked  data  sets  that  are  de-identified  and  which  they  can  then  use  to  examine  important  public 
25
health and drug safety issues. 
26
27
 
28
29
Privacy Impact Assessments (PIA)  
30
CPRD  will  conduct  privacy  impact  assessment  at  pre-specified  intervals  to  oversee  privacy, 
31
32
confidentiality  and  security.  PIAs  are  therefore  likely  to  reduce  privacy  risks  to  individuals,  build 
33
public trust and confidence and at the same time identify where potential vulnerabilities may exist. 
34
35
Although privacy impact assessments are not a statutory requirement in the UK, many government 
36
37
departments are required to undertake them. CPRD will conduct PIA according to the processes and 
38
guidance outlined by the Information Commissioner’s Office[39] and as required under Department 
39
40
of Health and other government regulations. 
41
42
 
43
44
Information governance 
45
46
CPRD  will  adopt  a  multi-layered  approach  to  information  governance  similar  to  that  previously 
47
48
proposed under the Research Capability Program[23]. Under this model, CPRD will formulate policies 
49
and provide technical solutions to protect patient privacy and will work collaboratively with partner 
50
51
organisations such as the NHS Information Centre, research and other communities and agencies to 
52
53
safeguard patient confidentiality. 
54
55
NIGB  approval  will  be  a  necessary  prerequisite  for  record  linkage  under  CPRD.    This  would  be 
56
57
required  on  a  linkage-by-linkage  basis  and  would  be  pursued  by  CPRD  on  behalf  of  researchers 
58
59
60
 

http://mc.manuscriptcentral.com/jamia

Page 9 of 15
Journal of the American Medical Informatics Association
 
1
2
3
according to its record linkage policy. At the level of data access by researchers, scientific approval 
4
for  undertaking  research  involving  unlinked  or  linked  patient  level  data  will  be  adjudicated  by  the 
5
6
7
8
Confidential: For Review Only
MHRA Independent Scientific Advisory Committee (ISAC).  Where data owners may have additional 
governance  relating  to  access  and  use  of  their  data,  CPRD  will  develop  collaborative  partnerships 
9
with  such  organizations  to  ensure  that  the  potential  for  patient  re-identification  is  minimized  and 
10
11
appropriate use of the individual data source is maintained.  
12
 
13
14
Accessibility arrangements 
15
16
Data  held  in  the  GPRD  is  currently  available  via  two  mediums:  across  a  virtual  computing 
17
environment  (VCE)  with  additional  inbuilt  security  features  and  as  ad-hoc  datasets/analysis  files. 
18
19
CPRD will build on the VCE technology of GPRD to produce secure robust e-based systems to access 
20
all aspects of CPRD services, from data set provision to clinical trial feasibility assessments. In terms 
21
22
of the underlying infrastructure CPRD is likely to consider implementation of Wide area or Local area 
23
24
distributed  database  solutions,  or  potentially  newer  technology  such  as  cloud  based  solutions[40, 
25
41].  Adopted  solutions  will need to  provide  security,  service  continuity, scalability and appropriate 
26
27
levels of response time (depending upon actual tasks). Whilst  cloud computing offers good solutions 
28
29
regarding  service  continuity,  scalability  and  access  security  it  involves  spreading  data  over  a  wide 
30
network  with  physical  duplication  or  mirroring  which  may  well  provide  a  barrier  to  its  use  with 
31
32
healthcare  data  from  a  data  governance  point  of  view.  Local  solutions,  however,  enable  a  greater 
33
degree  of  control  over  the  physical  data,  but  have  less  IT  resource  at  their  disposal  in  terms  of 
34
35
ensuring high quality uninterrupted research service provision.  
36
37
 
38
For  online  access,  CPRD  will  use  the  general  governance  and  security  procedures  of  the  GPRD  to 
39
40
assign and monitor security.  Access will only be granted to users who hold the appropriate secure 
41
42
electronic passes and meet the strict criteria for holding the same.  
43
 
44
45
Potential to support clinical trials 
46
CPRD will support capability to enable pragmatic randomised clinical trials (p-RCT) to be undertaken 
47
48
in the primary care setting.  The technical and operational mechanism for doing so has already been 
49
50
developed by the GPRD[42]. This involves a system developed to facilitate patient recruitment at the 
51
practice,  informed  by  lists  of  patients  identified  as  potentially  eligible.  Patients  may  be  invited  to 
52
53
attend  appointments  or  clinics  for  recruitment  into  studies,  or  alternatively  recruitment  may  take 
54
55
place opportunistically as  part  of a face  to face  consultation. Once recruited  and consented to the 
56
study patients are randomised to an intervention. As with the GPRD, this will be mediated by a study 
57
58
59
60
 

http://mc.manuscriptcentral.com/jamia

Journal of the American Medical Informatics Association
Page 10 of 15
 
1
2
3
specific  e-based system  within CPRD and  external  to  the primary  care setting.  No identifiable data 
4
will leave the practice. Primary  care data will be accumulated and downloaded as per normal data 
5
6
7
8
Confidential: For Review Only
collection processes on a daily basis. These data will then be processed into a separate security ring-
fenced  data  repository,  where  patient  follow  up  data  are  collated  with  TPP  linked  secondary  data 
9
repositories  such  as  Hospital  Episode  Statistics  and  ONS  data.  The  p-RCT  system  is  Good  Clinical 
10
11
Practice  (GCP)  compliant[43]  and  includes  processing  systems  to  facilitate  adverse  event  (AE) 
12
reporting, blinded database creation and fraud detection. CPRD will extend these capabilities to also 
13
14
enable  phase  3  clinical  trials  to  be  conducted  within  the  primary  care  setting.    Using  patients’ 
15
16
electronic  health  records  as  the  backbone  for  collecting  clinical  and  non-clinical  data,  CPRD  will 
17
integrate and unify processes to produce an electronic case report form. The proposed system will 
18
19
enable real time access to recruitment information, resource utilisation, AE reporting data, outcome 
20
identification  and  long  term  follow-up  of  patients.  CPRD  will  work  with  various  primary  care 
21
22
software vendors and interested parties to achieve both technical and semantic interoperability[44] 
23
24
to ensure that processes and data capture are harmonised.   
25
 
26
27
SUMMARY 
28
29
The  Clinical  Practice  Research  Datalink  (CPRD)  is  a  major  development  in  the  integration  of  NHS 
30
health data building on the established processes of the General Practice Research Database (GPRD) 
31
32
and  the  Research  Capability  Programme.  It  takes  advantage  of  two  decades  of  work  designed  to 
33
promote  interoperability  of  component  systems  within  the  UK  National  Health  Service.  It  will 
34
35
significantly  exceed  the  functionality  of  existing  resources  in  terms  of  data  volume,  linkage  and 
36
37
accessibility  to  support  research  and  health  care  delivery.  This  brings  with  it  challenges  to  the 
38
protection  of  privacy,  challenges  to  be  addressed  through  a  range  of  privacy  protecting 
39
40
arrangements,  including  trusted  third  parties  and  privacy  enhancement  technologies.  The 
41
42
experience of GPRD indicates that a rolling programme of system redevelopment will be necessary 
43
over time to keep pace with the expanding volume of data, innovations in systems operating within 
44
45
the health care environment and development of new clinical software solutions. 
46
 
47
48
Ethical approval 
49
50
No ethical approval required 
51
 
52
53
Funding 
54
55
No external funding 
56
 
57
58
59
60
 
10
http://mc.manuscriptcentral.com/jamia

Page 11 of 15
Journal of the American Medical Informatics Association
 
1
2
3
Competing interests 
4
Dr  Tim  Holt  has  no  competing  interests.  Tarita  Murray-Thomas,  Dr  Tim  Williams  and  Dr  John 
5
6
7
8
Confidential: For Review Only
Parkinson  are  employees  of  the  Medicines  and  Healthcare  products  Regulations  Agency  that  is 
responsible for developing the Clinical Practice Research Datalink. They have no competing interests. 
9
10
 
11
12
References 
13
14
1.  Department of Health. Information for health: an information strategy for the modern NHS 1998-
15
16
2005. London: DoH, 1998. 
17
2.
18
  www.qof.ic.nhs.uk/ (Accession date 29.2.12) 
19
3.  http://www.connectingforhealth.nhs.uk/systemsandservices/gpsupport/qmas. 
20
21
4.  Pringle M, Hobbs R. Large computer databases in general practice. BMJ 1991;302(6779):741-2. 
22
5.  http://www.gprd.com/home/default.asp (Accession date 29.2.12) 
23
24
6.  Williams T, van Staa T, Puri S, Eaton S. Recent advances in the utility and use of the General 
25
26
Practice Research Database as an example of a UK Primary Care Data resource. Therapeutic 
27
Advances in Drug Safety 2042098611435911, first published on February 2, 2012 as 
28
29
doi:10.1177/2042098611435911  
30
7.
31
  Gnani S, Majeed A. A user’s guide to data collected in primary care in England. Eastern Region 
32
Public Health Observatory, 2006. 
33
34
8.  http://www.connectingforhealth.nhs.uk/systemsandservices/data/miquest (Accession date 
35
29.2.12) 
36
37
9.  Lovejoy AE, Savage I. Prescribing analysis and cost tabulation (PACT) data: an introduction. Br J 
38
39
Community Nurs 2001;6(2):62-7. 
40
10. RCGP Weekly Returns Service. 
41
42
http://www.hpa.org.uk/Topics/InfectiousDiseases/InfectionsAZ/RealtimeSyndromicSurveillance
43
/SyndromicSystemsAndBulletinArchive/primcRCGPWeeklyReturnsService/.  
44
45
11. University of Nottingham. http://www.primis.nhs.uk/ (Accession date 29.2.12) 
46
47
12. http://www.thin-uk.com/ 
48
13. University of Nottingham. http://www.qresearch.org/SitePages/Home.aspx (Accession date 
49
50
29.2.12) 
51
52
14. http://www.oecd.org/ (Accession date 29.2.12) 
53
15. http://www.legislation.gov.uk/ukpga/1998/29/contents (Accession date 29.2.12) 
54
55
16. http://ec.europa.eu/justice/data-protection/index_en.htm  (Accession date 29.2.12) 
56
57
58
59
60
 
11
http://mc.manuscriptcentral.com/jamia

Journal of the American Medical Informatics Association
Page 12 of 15
 
1
2
3
17. The Caldicott Committee. Report on the Review of Patient-Identifiable Information. London: 
4
Department of Health, 1997. 
5
6
7
8
Confidential: For Review Only
18. http://www.qresearch.org/SitePages/Confidentiality.aspx (Accession date 29.2.12) 
19. http://www.gprd.com/services/online.asp (Accession date 29.2.12) 
9
20. http://www.hesonline.nhs.uk/ (Accession date 29.2.12) 
10
11
21. http://www.statistics.gov.uk/hub/index.html (Accession date 29.2.12) 
12
22.
13
 http://www.ncin.org.uk/home.aspx (Accession date 29.2.12) 
14
23. Research Capability Programme Information Governance Framework (PD16). 
15
16
www.nihr.ac.uk/...Programme.../PD16%20IG%20framework.pdf (Accession date 22/02/2012) 
17
24. Research & Development Directorate. The Government plan for a secure data service: 
18
19
Strengthening the international competitiveness of UK life sciences research. London: 
20
Department of Health, 31st October 2011. 
21
22
25. Chawla S, Dwork C, McSherry F, Talwar K. On the utility of privacy preserving histograms. In: 
23
24
Proceedings of the 21st Conference on Uncertainty in Artificial Intelligence, 2005. 
25
26.
26
 Domingo-Ferrer J. A Three-Dimensional Conceptual Framework for Database Privacy. Computer 
27
Science 2007;4721:193-202. 
28
29
27. Dwork C, McSherry F, Nissim K, Smith A. Calibrating noise to sensitivity in private data analysis. 
30
In: Proceedings of the 3rd Theory of Cryptography Conference, pages 265–284, 2006. 
31
32
28. Sweeney L. Achieving k-anonymity privacy protection using generalization and suppression. 
33
International Journal on Uncertainty, Fuzziness and Knowledge based Systems 2002;10(5):571-
34
35
588. 
36
37
29. Tavani  HT,  Moor  JH.  Privacy  protection,  control  of  information  and  privacy-enhancing 
38
technologies. Readings in cyberethics. Maynard, MA: Jones and Bartlett, 2004: 436-449.  
39
40
30. European Commission Community Research and Development Information Service (CORDIS). 
41
42
Privacy Protection and Electronic Identity Management 
43
http://cordis.europa.eu/fp7/ict/security/eid-management_en.html#priv (Accession date 
44
45
22/02/2012) 
46
31.
47
 European Union (EU) Data Protection Directive 95/46/EC. 
48
http://www.issa.org/Library/Journals/2011/February/Sorensen-
49
50
European%20Union%20Data%20Privacy%20Directive.pdf (Accession date 22/02/2012) 
51
32. Information Commission Office – Privacy Enhancing Technology. 
52
53
www.ico.gov.uk/.../data.../privacy_enhancing_technologies.pdf (Accession date 22/02/2012) 
54
55
33. National Information Governance Board for Health and Social Care : 
56
http://www.nigb.nhs.uk/s251 
57
58
59
60
 
12
http://mc.manuscriptcentral.com/jamia

Page 13 of 15
Journal of the American Medical Informatics Association
 
1
2
3
34. http://www.legislation.gov.uk/ukpga/2006/41/section/251 
4
35. http://www.connectingforhealth.nhs.uk/systemsandservices/demographics/pds (Accession date 
5
6
7
8
Confidential: For Review Only
28.2.12) 
36. http://www.ic.nhs.uk/ (Accession date 28.2.12) 
9
37. ISPE.  Guidelines for good pharmacoepidemiology practices (GPP). Pharmacoepidemiol Drug Saf 
10
11
2008;17(2):200-8. 
12
38.
13
 ENCePP Guide on Methodological Standards in Pharmacoepidemiology EMA/95098/2010 
14
(Amended: 23 August 2011) available at: 
15
16
http://www.encepp.eu/standards_and_guidances/documents/ENCePPGuideofMethStandardsin
17
PE.pdf (Accession date 29.2.12) 
18
19
39. Information Commission Office- Privacy Impact Assessment. 
20
http://www.ico.gov.uk/for_organisations/data_protection/topic_guides/privacy_impact_assess
21
22
ment.aspx (Accession date 22/02/2012) 
23
24
40. Nelson MR. Briefing Paper on Cloud Computing and Public Policy, Prepared for the OECD ICCP 
25
Technology Foresight Forum, October 14, 2009. 
26
27
41. SIIA White paper: Guide to cloud computing for decision makers 
28
29
http://www.siia.net/blog/index.php/2011/07/siia-releases-guide-to-cloud-computing-for-policy-
30
makers/ (Accession date 22/02/2012) 
31
32
42. Van Staa T-P, Goldacre B, Gulliford M, Cassell J, Pirmohamed M, et al. Pragmatic randomised 
33
trials using routine electronic health records. BMJ 2012;344;e55. 
34
35
43. http://www.ich.org/fileadmin/Public_Web_Site/ICH_Products/Guidelines/Efficacy/E6_R1/Step4
36
37
/E6_R1__Guideline.pdf (Accession date 28.2.12) 
38
44. Chan LM, Zeng ML. Metadata Interoperability and Standardization – A Study of Methodology 
39
40
Part I - Achieving Interoperability at the Schema Level. D-Lib Magazine 2006;12(6). ISSN 1082-
41
42
9873. 
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
 
13
http://mc.manuscriptcentral.com/jamia

CPRD (MHRA) Summary Data Stewardship Map 
Journal of the American Medical Informatics Association
Page 14 of 15
Ch 
NHS Domain 
1
2
3 End 
Confidential: For Review Only
Primary care Clinical Data 
Other NHS 
SOP 
Ch 
with Personal IDS 
Clinical Data with Personal IDS 
SOP 
(Data Source) 
SOP 
CoE 
Separation of Clinical 
PET 
4 To  
5
Data and Personal IDs 
PS 
end 
6
PET 
7
Practice Identity Keyed   PET 
All data handled   PS 
SOP 
PET 
8
as with 
Names, addresses removed 
NHS# DOB and  
9
 Primary Care Data  Ch 
10
PC Changed to Pseudo ID 2  
Clinical Data with 
PET 
11
using Key2 
12
Pseudo ID1 using Key1 
13
PET  Data encrypted 
14
PS 
15
Data on Secure N3 network 
Data on Secure N3 network  PS 
16
17

18
PS 
Data to High Security Data Centre 1 
CPRD Trusted Linkage Domain 
NO Links between 
Data to High Security  PS 
19
Data Warehouse 

Data centre 1 and 2 
Data Centre 2 

SOP 
20

With Pseudo ID1 


PS 
21
22
PS 
Data encrypted using K3 
23
PET 
Data only accessible 
SOP 
PS 
CPRD Data Domain 
Data only accessible 
24
to Limited 
CoE 
to Limited 
25
Documented/Controlled  
PS 
Data to Research Data 
CPRD Caldicott Guardian  
Documented/Controlled  
SOP 
26

Users 
SOP 
Store 
Users 
27
With Pseudo ID2  


CoE 
MHRA/CPRD Senior  
28
In High Security Data 
National Information  
Information Risk Officer 
29
Centre 1 
Governance Board 
SOP 

30


31
32


“Researcher”
Ethics approval 
Independent Scientific  approval 
 
33
 Domain 
34

35
Research Companies 
Research Users SOP 
36
PET 

37
RSA key 
Certificate only computers 
SOP 
PS 
38
Small cell Policy 
PET 
39
40
http://mc.manuscriptcentral.com/jamia

41
SOP  Research Output 
Research Output report 

CPRD checks 
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60

Page 15 of 15
Journal of the American Medical Informatics Association
1
2
3
Confidential: For Review Only
4
5
6
7
8
9
10
11
12
13
14
15
Ch 
Charter 
16
PET 
Privacy Enhancing Technology 
17
18
PS 
Physical Security 
19

Legal agreement 
20
21

Governance/Risk minimisation approvals 
22
CoE 
Contracts of Employment 
23
24

Right of Audit 
25
SOP 
Standard Operating Procedures 
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
http://mc.manuscriptcentral.com/jamia
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60