------------English------------
This project involves the analysis and feature engineering of Mercedes-Benz stock data. The dataset includes 1105 records with the following columns: 'Date', 'Open', 'High', 'Low', 'Close', 'Adj Close', and 'Volume'. The objective is to preprocess the data, analyze the relationships between variables, handle outliers, and perform feature selection to prepare the data for further modeling.
- Converted the 'Date' column to datetime format.
- Checked for missing values and found no missing values in the dataset.
- Generated basic statistics such as mean, median, standard deviation, etc., for all numerical columns.
- Visualized the 'Open' prices over time using a scatter plot.
- Visualized the distribution of 'Volume' to understand its distribution and identify outliers.
- Plotted the 'Volume' over time to visualize trends and patterns.
- Used box plots to visualize the outliers in the 'Volume' data.
- Applied Winsorizing to cap the extreme outliers based on the calculated lower and upper limits:
- Lower limit: 4835280527572.5
- Upper limit: 9761116761076.5
- Analyzed the relationships between numerical variables using a correlation matrix.
- Removed features with low variance that might not be useful for modeling.
- Used backward elimination to remove features with high p-values.
- Selected the most important features using Recursive Feature Elimination.
In this project, we successfully preprocessed the data, visualized the relationships and distributions, handled outliers, and performed feature selection. These steps have prepared the data for further modeling and analysis. The techniques used ensure that the data is clean, relevant, and ready for predictive modeling.
------------Turkish------------
Bu proje, Mercedes-Benz borsa hissesi verilerinin analizi ve özellik mühendisliğini içermektedir. Veri seti, 1105 kayıttan oluşmakta olup 'Date', 'Open', 'High', 'Low', 'Close', 'Adj Close' ve 'Volume' sütunlarını içermektedir. Projenin amacı, verileri ön işlemek, değişkenler arasındaki ilişkileri analiz etmek, aykırı değerleri ele almak ve özellik seçimi yaparak veriyi modellemeye hazırlamaktır.
- 'Date' sütunu tarih formatına dönüştürüldü.
- Eksik değerler kontrol edildi ve veri setinde eksik değer bulunmadı.
- Tüm sayısal sütunlar için ortalama, medyan, standart sapma gibi temel istatistiksel değerler hesaplandı.
- 'Open' fiyatlarını zaman içinde görselleştirmek için scatter plot kullanıldı.
- 'Volume' verisinin dağılımını görmek ve aykırı değerleri belirlemek için histogram oluşturuldu.
- 'Volume' verisi zaman içinde çizilerek trendler ve desenler görselleştirildi.
- 'Volume' verisindeki aykırı değerleri görselleştirmek için box plot kullanıldı.
- Hesaplanan alt ve üst limitlere göre aşırı uç değerler Winsorizing yöntemi ile sınırlandırıldı:
- Alt limit: 4835280527572.5
- Üst limit: 9761116761076.5
- Sayısal değişkenler arasındaki ilişkileri analiz etmek için korelasyon matrisi kullanıldı.
- Düşük varyansa sahip özellikler çıkarılarak modellemeye daha faydalı özellikler seçildi.
- Yüksek p-değerlerine sahip özellikler çıkarılarak önemli özellikler belirlendi.
- Recursive Feature Elimination yöntemi ile en önemli özellikler seçildi.
Bu projede, veriler başarıyla ön işlemden geçirilmiş, ilişkiler ve dağılımlar görselleştirilmiş, aykırı değerler ele alınmış ve özellik seçimi yapılmıştır. Bu adımlar, verilerin ileri modelleme ve analiz için hazır hale getirilmesini sağlamıştır. Kullanılan teknikler, verinin temiz, ilgili ve tahminsel modellemeye hazır olmasını garanti eder.