-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathblog_post.Rmd
382 lines (302 loc) · 15.6 KB
/
blog_post.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
---
title: "Oglaševane prodajne cene stanovanj skozi čas"
output: github_document
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```
Višanje cen nepremičnin je zadnje čase aktualna tema, zato si poglejmo, kako se to odraža v nepremičninskih oglasih.
## Podatki
```{r include=FALSE}
library(tidyverse)
library(lubridate)
library(scales)
library(janitor)
library(lemon)
final_table <- read_csv('data/final_table.csv')
```
Podatki so bili pridobljeni med marcem 2019 in majem 2021.
Tako kot v [prejšnjem prispevku](https://tomazweiss.github.io/blog/oglasevane_cene_stanovanj/), je bila tudi tukaj uporabljena avtomatizirana skripta, ki je enkrat na dan s portala [nepremicnine.net](https://www.nepremicnine.net/) pobirala nove oglase.
Poudarimo pomanjkljivosti, ki so v tako pridobljenih podatkih prisotne:
- Gre za **oglaševane** in ne za realizirane cene.
- Nekatera stanovanja se v oglasih pojavijo večkrat, npr. v primerih, ko jih oglašuje več agencij hkrati. Dogaja se tudi,
da oglaševalci v želji po večji vidnosti po nekem času oglas izbrišejo in nato znova vnesejo.
- V majhnem številu oglasov so prisotne očitne večje napake pri objavljeni ceni oz. površini. Zaradi tega pred analizo oglase z nenavadno visoko oz. nizko ceno na kvadratni meter izločimo.
- Zajeti niso bili oglasi, ki so se na isti dan pojavili in tudi izbrisali in tako v času zajema več niso bili vidni.
- Oglaševalci lahko morda kot površino stanovanja navedejo različne vrednosti (bruto, neto, uporabna površina, ...).
- Nekatere nepremičnine se prodajo mimo oglasnikov in tako seveda niso vključene.
Na grafih časovnih vrst, ki sledijo, bo prikazana 12-tedenska drseča mediana cene kvadratnega metra stanovanja.
Zakaj ravno 12 tedensko obdobje? Če izberemo krajše obdobje, krivulje iz dneva v dan precej nihajo in s tem nekoliko
popačijo dejanske trende, v kolikor izberemo daljše obdobje, so pa krivulje sicer bolj zglajene, vendar je lahko dogajanje v kakšnem krajšem
zanimivem obdobju preveč zakrito.
Z namenom, da stanovanja, ki po ceni preveč izstopajo, oz. napake v podatkih ne bi preveč zakrivili slike,
prikazujemo mediane in ne povprečij objavljenih cen.
Vrednost, ki je pri nekem datumu torej prikazana, predstavlja mediano cen v vseh novih oglasih, ki so bili objavljeni
v 12-tedenskem obdobju, ki se konča na ta dan.
Kot rečeno, pred analizo izločimo oglase z zelo visoko oz. zelo nizko ceno na kvadratni meter in oglase, v
katerih podatek o ceni ali površini manjka.
Konkretno to pomeni izbris `r final_table %>% filter(cena_na_m2 < 400) %>% count() %>% pull()`
oglasov s ceno pod 400 EUR/m$^2$, izbris `r final_table %>% filter(cena_na_m2 > 10000) %>% count() %>% pull()` oglasov s
ceno nad 10.000 EUR/m$^2$ in izbris 18 oglasov z manjkajočima podatkoma.
```{r include=FALSE}
final_table <- final_table %>%
filter(cena_na_m2 >= 400) %>%
filter(cena_na_m2 <= 10000)
```
Na koncu ostane v vzorcu `r final_table %>% count() %>% pull() %>% formatC(big.mark = '.', decimal.mark = ',')` oglasov,
od tega `r final_table %>% filter(location == 'ljubljana-mesto') %>% count() %>% pull() %>% formatC(big.mark = '.', decimal.mark = ',')`
za ljubljanska stanovanja.
## Rezultati
Opozorilo: na grafih, ki sledijo, se skala na osi y namenoma ne začne pri 0.
```{r include=FALSE}
# utilities ---------------------------------------------------------------
interval <- 7 * 12
compute_median_price <- function(table, date_to, interval = 28){
# returns median price in period (date_to - interval + 1, date_to)
result <-
table %>%
filter(processed_date >= date_to - days(interval - 1), processed_date <= date_to) %>%
group_by(grouping_var = get(grouping_var)) %>%
summarise(med_cena_na_m2 = median(cena_na_m2, na.rm = TRUE), .groups = 'drop')
return(result)
}
min_date <- final_table %>% summarise(min(processed_date)) %>% pull()
max_date <- final_table %>% summarise(max(processed_date)) %>% pull()
```
#### Ljubljana, okolica Ljubljane in Maribor
```{r include=FALSE}
grouping_var <- 'location'
medians_table <-
tibble(date = seq(min_date + days(interval - 1), max_date, "days")) %>%
rowwise() %>%
mutate(med_cena_na_m2 = list(compute_median_price(final_table, date, interval))) %>%
unnest(cols = c(med_cena_na_m2))
```
```{r lj_okolica_mb, echo=FALSE, fig.height=8, fig.width=12, dpi=300}
medians_table %>%
filter(!is.na(grouping_var)) %>%
mutate(grouping_var = recode(grouping_var,
'ljubljana-mesto' = 'Ljubljana',
'ljubljana-okolica' = 'okolica Ljubljane',
'podravska/maribor' = 'Maribor')) %>%
mutate(grouping_var = factor(grouping_var, levels = c('Ljubljana', 'okolica Ljubljane', 'Maribor'))) %>%
ggplot(aes(x = date, y = med_cena_na_m2, col = grouping_var)) +
geom_line(size = 1) +
scale_x_datetime(breaks = "2 months", labels = date_format("%d.%m.%Y"),
expand = c(0, 0)
) +
scale_y_continuous(# labels=function(x) format(x, big.mark = ".", decimal.mark = ',', scientific = FALSE),
breaks = seq(0, 4000, by = 200),
minor_breaks = NULL
) +
scale_color_manual(values=c("#00BA38", "#619CFF", "#F8766D")) + # show_col(hue_pal()(3))
labs(color = 'Lokacija') +
xlab('Datum') +
ylab(expression(paste('Mediana cene na ', m^2, ' [EUR]'))) +
labs(title = 'Oglaševane prodajne cene stanovanj po času.',
subtitle = 'Prikazane so 12-tedenske drseče mediane cen.',
caption = 'tomazweiss.github.io\nvir: nepremicnine.net')
```
#### Ljubljana glede na tip stanovanja
```{r include=FALSE}
final_table <- final_table %>% filter(location == 'ljubljana-mesto')
grouping_var <- 'size'
medians_table <-
tibble(date = seq(min_date + days(interval - 1), max_date, "days")) %>%
rowwise() %>%
mutate(med_cena_na_m2 = list(compute_median_price(final_table, date, interval))) %>%
unnest(cols = c(med_cena_na_m2))
```
```{r lj_tip, echo=FALSE, fig.height=8, fig.width=12, dpi=300}
medians_table %>%
filter(!is.na(grouping_var)) %>%
filter(grouping_var %in% c('garsonjera', '1-sobno', '2-sobno', '3-sobno')) %>%
mutate(grouping_var = factor(grouping_var, levels = c('garsonjera', '1-sobno', '2-sobno', '3-sobno'))) %>%
ggplot(aes(x = date, y = med_cena_na_m2, col = grouping_var)) +
geom_line(size = 1) +
scale_x_datetime(breaks = "2 months", labels = date_format("%d.%m.%Y"),
expand = c(0, 0)
) +
scale_y_continuous(# labels=function(x) format(x, big.mark = ".", decimal.mark = ',', scientific = FALSE),
breaks = seq(0, 5000, by = 200),
minor_breaks = seq(0, 5000, by = 100)
) +
labs(color = 'Tip stanovanja') +
xlab('Datum') +
ylab(expression(paste('Mediana cene na ', m^2, ' [EUR]'))) +
labs(title = 'Oglaševane prodajne cene stanovanj po času - Ljubljana.',
subtitle = 'Prikazane so 12-tedenske drseče mediane cen.',
caption = 'tomazweiss.github.io\nvir: nepremicnine.net')
```
#### Ljubljana glede na del mesta
```{r include=FALSE}
grouping_var <- 'upravna_enota'
medians_table <-
tibble(date = seq(min_date + days(interval - 1), max_date, "days")) %>%
rowwise() %>%
mutate(med_cena_na_m2 = list(compute_median_price(final_table, date, interval))) %>%
unnest(cols = c(med_cena_na_m2))
```
```{r lj_del_mesta, echo=FALSE, fig.height=8, fig.width=12, dpi=300}
medians_table %>%
filter(!is.na(grouping_var)) %>%
mutate(grouping_var = factor(grouping_var, levels = c('Lj. Center', 'Lj. Vič-Rudnik', 'Lj. Bežigrad', 'Lj. Šiška', 'Lj. Moste-Polje'))) %>%
ggplot(aes(x = date, y = med_cena_na_m2, col = grouping_var)) +
geom_line(size = 1) +
scale_x_datetime(breaks = "2 months", labels = date_format("%d.%m.%Y"),
expand = c(0, 0)
) +
scale_y_continuous(# labels=function(x) format(x, big.mark = ".", decimal.mark = ',', scientific = FALSE),
breaks = seq(0, 4000, by = 200),
minor_breaks = seq(0, 4000, by = 100)
) +
labs(color = 'Del mesta') +
xlab('Datum') +
ylab(expression(paste('Mediana cene na ', m^2, ' [EUR]'))) +
labs(title = 'Oglaševane prodajne cene stanovanj po času - Ljubljana.',
subtitle = 'Prikazane so 12-tedenske drseče mediane cen.',
caption = 'tomazweiss.github.io\nvir: nepremicnine.net')
```
#### Ljubljana glede na tip stanovanja in del mesta
```{r include=FALSE}
compute_median_price_2 <- function(table, date_to, interval = 28){
# returns median price in period (date_to - interval + 1, date_to) grouped by upravna_enota and size
result <-
table %>%
filter(processed_date >= date_to - days(interval - 1), processed_date <= date_to) %>%
group_by(upravna_enota, size) %>%
summarise(med_cena_na_m2 = median(cena_na_m2, na.rm = TRUE), .groups = 'drop')
return(result)
}
medians_table <-
tibble(date = seq(min_date + days(interval - 1), max_date, "days")) %>%
rowwise() %>%
mutate(med_cena_na_m2 = list(compute_median_price_2(final_table, date, interval))) %>%
unnest(cols = c(med_cena_na_m2))
```
```{r lj_tip_del_v1, echo=FALSE, fig.height=18, fig.width=12, dpi=300}
medians_table %>%
filter(!is.na(size)) %>%
filter(!is.na(upravna_enota)) %>%
filter(size %in% c('garsonjera', '1-sobno', '2-sobno', '3-sobno')) %>%
mutate(size = factor(size, levels = c('garsonjera', '1-sobno', '2-sobno', '3-sobno'))) %>%
mutate(upravna_enota = factor(upravna_enota, levels = c('Lj. Center', 'Lj. Vič-Rudnik', 'Lj. Bežigrad', 'Lj. Šiška', 'Lj. Moste-Polje'))) %>%
ggplot(aes(x = date, y = med_cena_na_m2, col = size)) +
geom_line(size = 1) +
scale_x_datetime(breaks = "2 months", labels = date_format("%d.%m.%Y"),
expand = c(0, 0)
) +
# scale_y_continuous(# labels=function(x) format(x, big.mark = ".", decimal.mark = ',', scientific = FALSE),
# breaks = seq(0, 4000, by = 200),
# minor_breaks = NULL
# ) +
facet_rep_grid(rows = vars(upravna_enota), scales = "free_y", repeat.tick.labels = TRUE) +
labs(color = 'Tip stanovanja') +
xlab('Datum') +
ylab(expression(paste('Mediana cene na ', m^2, ' [EUR]'))) +
labs(title = 'Oglaševane prodajne cene stanovanj po času - Ljubljana.',
subtitle = 'Prikazane so 12-tedenske drseče mediane cen.',
caption = 'tomazweiss.github.io\nvir: nepremicnine.net')
```
```{r lj_tip_del_v2, echo=FALSE, fig.height=18, fig.width=12, dpi=300}
medians_table %>%
filter(!is.na(size)) %>%
filter(!is.na(upravna_enota)) %>%
filter(size %in% c('garsonjera', '1-sobno', '2-sobno', '3-sobno')) %>%
mutate(size = factor(size, levels = c('garsonjera', '1-sobno', '2-sobno', '3-sobno'))) %>%
mutate(upravna_enota = factor(upravna_enota, levels = c('Lj. Center', 'Lj. Vič-Rudnik', 'Lj. Bežigrad', 'Lj. Šiška', 'Lj. Moste-Polje'))) %>%
ggplot(aes(x = date, y = med_cena_na_m2, col = upravna_enota)) +
geom_line(size = 1) +
scale_x_datetime(breaks = "2 months", labels = date_format("%d.%m.%Y"),
expand = c(0, 0)
) +
# scale_y_continuous(# labels=function(x) format(x, big.mark = ".", decimal.mark = ',', scientific = FALSE),
# breaks = seq(0, 4000, by = 200),
# minor_breaks = NULL
# ) +
facet_rep_grid(rows = vars(size), scales = "free_y", repeat.tick.labels = TRUE) +
labs(color = 'Tip stanovanja') +
xlab('Datum') +
ylab(expression(paste('Mediana cene na ', m^2, ' [EUR]'))) +
labs(title = 'Oglaševane prodajne cene stanovanj po času - Ljubljana.',
subtitle = 'Prikazane so 12-tedenske drseče mediane cen.',
caption = 'tomazweiss.github.io\nvir: nepremicnine.net')
```
#### Ljubljana glede na letnico gradnje
Tukaj so oglasi razdeljeni v pet približno enako velikih skupin.
```{r include=FALSE}
grouping_var <- 'leto_razred'
medians_table <-
tibble(date = seq(min_date + days(interval - 1), max_date, "days")) %>%
rowwise() %>%
mutate(med_cena_na_m2 = list(compute_median_price(final_table, date, interval))) %>%
unnest(cols = c(med_cena_na_m2))
```
```{r lj_letnica, echo=FALSE, fig.height=8, fig.width=12, dpi=300}
medians_table %>%
filter(!is.na(grouping_var)) %>%
ggplot(aes(x = date, y = med_cena_na_m2, col = grouping_var)) +
geom_line(size = 1) +
scale_x_datetime(breaks = "2 months", labels = date_format("%d.%m.%Y"),
expand = c(0, 0)
) +
scale_y_continuous(# labels=function(x) format(x, big.mark = ".", decimal.mark = ',', scientific = FALSE),
breaks = seq(0, 4000, by = 200),
minor_breaks = seq(0, 4000, by = 100)
) +
labs(color = 'Letnica gradnje') +
xlab('Datum') +
ylab(expression(paste('Mediana cene na ', m^2, ' [EUR]'))) +
labs(title = 'Oglaševane prodajne cene stanovanj po času - Ljubljana.',
subtitle = 'Prikazane so 12-tedenske drseče mediane cen.',
caption = 'tomazweiss.github.io\nvir: nepremicnine.net')
```
#### Ljubljana glede na vrsto ponudbe (zasebna/agencija)
```{r include=FALSE}
delez_zasebnih <- final_table %>%
count(agencija_zasebna) %>%
mutate(delez = n/sum(n)) %>%
filter(agencija_zasebna == 'zasebna ponudba') %>%
select(delez) %>%
pull() %>%
percent(accuracy = 1)
```
Oglasov iz zasebne ponudbe je `r delez_zasebnih`.
Razlike med skupinama niso nujno neposredno povezane z vrsto ponudbe oz. z vrsto oglaševalca;
lahko gre za posredne vplive drugih lastnosti oglaševanih stanovanj.
```{r include=FALSE}
grouping_var <- 'agencija_zasebna'
medians_table <-
tibble(date = seq(min_date + days(interval - 1), max_date, "days")) %>%
rowwise() %>%
mutate(med_cena_na_m2 = list(compute_median_price(final_table, date, interval))) %>%
unnest(cols = c(med_cena_na_m2))
```
```{r lj_vrsta_ponudbe, echo=FALSE, fig.height=8, fig.width=12, dpi=300}
medians_table %>%
filter(!is.na(grouping_var)) %>%
ggplot(aes(x = date, y = med_cena_na_m2, col = grouping_var)) +
geom_line(size = 1) +
scale_x_datetime(breaks = "2 months", labels = date_format("%d.%m.%Y"),
expand = c(0, 0)
) +
scale_y_continuous(# labels=function(x) format(x, big.mark = ".", decimal.mark = ',', scientific = FALSE),
breaks = seq(0, 4000, by = 100),
minor_breaks = NULL
) +
labs(color = 'Vrsta ponudbe') +
xlab('Datum') +
ylab(expression(paste('Mediana cene na ', m^2, ' [EUR]'))) +
labs(title = 'Oglaševane prodajne cene stanovanj po času - Ljubljana.',
subtitle = 'Prikazane so 12-tedenske drseče mediane cen.',
caption = 'tomazweiss.github.io\nvir: nepremicnine.net')
```
## Komentarja
- Pri interpretaciji teh grafov je potrebno biti previden.
Sprememba mediane oglaševanih cen pri neki kombinaciji atributov ne pomeni spremembe cen vseh takšnih stanovanj.
Možno je namreč, da so se v tistem obdobju v večji meri oglaševala stanovanja, pri katerih nek tretji atribut govori v prid tej spremembi.
Konkreten primer bi bil npr. dvig in padec cen v Mostah poleti 2020, ki je posledica večjega oglaševanja novogradenj v tem delu mesta.
- Nekatere krivulje lahko v celoti oz. na določenem odseku temeljijo na manjšem vzorcu in zato dogajanja na trgu ne prikazujejo najbolje.
To je še posebej izrazito na grafih, ki hkrati prikazujejo cene glede na tip stanovanja in del mesta.
## Koda
[https://github.com/tomazweiss/apartment_prices_over_time](https://github.com/tomazweiss/apartment_prices_over_time)