O contrato com meu Lote Jardim Botânico atual está quase no fim e estou procurando um novo lugar para dar jantares incríveis. Primeiro pensei, como uma pessoa normal, em checar lugares online e visitar um corretor de imóveis para me mostrar lugares. Mas isso seria muito chato, disse a mim mesmo, sou um cientista de dados, então deveria saber melhor.

Objetivo

Nosso objetivo é encontrar a casa mais barata do Lote Setor Habitacional Tororó rapidamente, pois preciso me mudar até o final de março de 2022! Para que eu não fique sem-teto, vamos com um dos modelos de aprendizado de máquina mais simples: regressão linear regularizada (regressão de cume). Usamos regularização porque algumas variáveis ​​precisam ser codificadas em um hot e não queremos que os coeficientes explodam.

Outra razão pela qual optamos pela regressão linear é que queremos construir um modelo relativamente explicável para entender os fatores por trás dos preços das casas. (Desculpe multilayer perceptron, você será meu favorito, não importa o quê)

Método

Faremos uma regressão linear para prever o aluguel mensal de cada casa com base em um conjunto de variáveis ​​independentes. A casa dos Condomínios Jardim Botânico com o maior erro positivo (a casa mais superestimada) será a casa com o preço mais baixo, pois nosso modelo fornece uma grande previsão, mas o preço real é baixo. Esta casa será um acéfalo, e talvez minha próxima casa?

Aquisição de dados

Eu escrevi um pedaço de código e raspei 217.389 casas de vários sites imobiliários em Tóquio. Os dados originais eram tão confusos, então vou poupá-lo das etapas de processamento de dados. Finalmente, os dados para cada casa incluem abaixo:

id: Identificador único de cada casa atribuído em pré-processamento

label: mostra o tipo de casa: casa simples, condomínio, etc.

local: mostra a localidade da casa: Cidades (23 bairros) e subúrbios de Tóquio

stats_1/2/3_station/distance: Mostra a estação mais próxima (ou 2ª, 3ª mais próxima) da casa e a distância a pé da estação (minutos)

idade: Idade do edifício

no_of_floors: # total de andares do prédio ao qual a casa pertence

new_arrival: se a casa foi listada recentemente no site

andar: Piso da casa

aluguel: aluguel mensal da casa

admin: Taxa de administração mensal (管理費)

depósito: você sabe o que isso significa

gorjeta: Taxa única que você precisa pagar ao dono da casa para mostrar que está grato por se mudar para a casa dele (não faz sentido, certo?) (礼金)

layout: layout da casa. Pense nisso como 2 quartos, 3 quartos, etc.

área: área do metro quadrado da casa

Modelagem

Em nosso modelo, a variável dependente será (aluguel + admin) porque é isso que você paga mensalmente. Nossas variáveis ​​independentes serão idade, andar, no_of_floor, área e local (Localidade: cidade dentro da área de Tóquio). A localidade será codificada em um hot.

Resultados – 1: geral

Analisamos os preços reais x previstos das casas:

O R2 do modelo está em torno de 84%, o que não é ruim, considerando que conseguimos implementar esse modelo em 5 minutos. Você pode ver que as previsões estão se curvando em relação aos preços reais. Tenho certeza de que modelos não lineares, como aprendizado profundo, nos dariam R2 muito alto (Bem-vindo de volta perceptron multicamada!)

Resultados – 2: Drivers dos preços das casas

Agora veremos como cada variável está contribuindo para as previsões:

Como você pode ver acima, à medida que o prédio envelhece, o aluguel cai ~ 800 JPY (7 USD) por ano.

Um ponto interessante é que o total de # andares (~ 1.200 JPY, 11 USD) que um edifício possui é mais influente em comparação com o andar real (1.000 JPY, 9 USD) da casa. Portanto, é melhor encontrar casas em prédios curtos que fiquem perto do último andar se você estiver procurando por um andar alto. (Por exemplo, o 10º andar de um prédio de 10 andares deve ser mais barato que o 10º andar de um prédio de 20 andares)

O resultado mais importante deste modelo é que 1m2 de área de casa custa ~2.200 JPY (20 USD) em Tóquio. Nada mal hein!

Lote Jardim Botânico, Lote Setor Habitacional Tororó, Condomínios Jardim Botânico

Além das variáveis ​​acima, temos uma codificação one-hot da localidade (cidade) da casa alimentada ao modelo. Observando os coeficientes que obtemos para as variáveis ​​codificadas one-hot, podemos entender o prêmio de habitação para cada cidade dentro de Tóquio. Você consegue adivinhar a cidade mais cara (区) na área de Tóquio? Abaixo está:

Minato é a cidade mais cara para se viver na área de Tóquio, pois você precisa pagar ~ 40k JPY (350 USD) mensalmente apenas para morar nesta cidade. É seguido por Shibuya, Chiyoda e Chuo. Por outro lado, existem algumas cidades dentro de 23 bairros que são mais baratas em comparação com os subúrbios. Por exemplo. Adachi é menos caro em comparação com Kunitachi (não mostrado acima, pois não está em 23 divisões), enquanto Adachi é mais central. Faria muito sentido mudar para Adachi se você se preocupa com o acesso.

Lote Jardim Botânico, Lote Setor Habitacional Tororó, Condomínios Jardim Botânico

Resultados – 3: A casa mais subvalorizada

Agora estamos na fase final, para encontrar o insight que deu início a todo este projeto: A casa mais subvalorizada. Para isso, verificamos os erros entre os preços reais e previstos. A casa com o maior erro relativo é:

O aluguel desta casa é 50k JPY (430 USD) mas nosso modelo diz que deveria ser 178k JPY (1.500 USD)… Realmente parece extremamente barato para uma única casa 3DK em Shinagawa com 65m2. Acho que o modelo está funcionando, mas essa casa definitivamente não é meu estilo. Eu provavelmente irei com uma casa à beira-mar com vista para o rio Sumida, porque você sabe, os convidados dos jantares não vão se divertir sozinhos.

Conclusão

Adoro usar a ciência de dados para tarefas diárias, como o tópico deste artigo: encontrar a casa mais barata para se mudar. Nosso modelo simples fez um trabalho muito bom prevendo os preços das casas em Tóquio com 84% R2. No entanto, os resultados do modelo devem sempre ser considerados com um grão de sal e cabe à pessoa como interpretar os resultados.

Como os dados extraídos são muito ricos, um próximo passo poderia ser construir uma rede convolucional gráfica usando estações de trem como nós para prever os preços das casas. Este modelo levaria em conta a conectividade da casa.

Outro projeto futuro é prever o layout (1K, 1LDK, etc.) usando as imagens da casa com visão computacional. Com isso, uma quantidade significativa de trabalho pode ser reduzida.

Quest em!